Hallo zusammen,
soweit ich das bei Bayes richtig verstanden habe, gibt es einen Schwellwert bei der Wahrscheinlichkeit. Dieser Wert liegt wohl schon recht hoch, um Fehlfilterungen zu vermeiden. Die Filterung funktioniert ja auch normal recht gut (wenn der User im TB gut immer trainiert hat) und gibt eigentlich kaum Anlass zur Beschwerde. Ich würde hier aber noch ein Anpassung des Grenzwertes (nehmen wir mal an, dieser würde jetzt bei 98% liegen) vornehmen können/wollen.
Ein paar simple Beispiele (mit einer Formel aus der Wahrscheinlichkeitsrechnung):
1.)
Gesamt 300 Mails, davon 200 Spams. In 50 von diesen kam das Wort V..... vor, aber auch in einer Non-Spam (war z. B. ein Witz von einem Freund) kam das Wort einmal vor.
Die Spam-Wahrscheinlichkeit wäre hier bei einer neuen Mail mit diesem Wort zu 98% zu sehen und würde damit als Spam aussortiert werden.
Das wäre okay und auch verständlich.
2.)
Gesamt 300 Mails, davon 100 Spams. In 30 von diesen kam V..... vor, was bisher auch in 30 NonSpams vorkam. Fifty, fifty also.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei nur noch 50% zu sehen. Wäre diese Mail in Wirklichkeit Spam, würde die Mail also durchgelassen werden.
Ich für meinen Teil würde hier also strenger bewerten wollen und die Schwelle (nach anfänglicher Kontrolle) nach unten setzen wollen.
3.)
Gesamt 300 Mails, davon 50 Spams. In 25 von diesen kam V..... vor, was bisher auch in 10 NonSpams vorkam.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei 71% zu sehen.
4.)
Gesamt 300 Mails, davon 100 Spams. In 5 von diesen kam V.... vor, was bisher auch in 10 NonSpams vorkam.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei 33,33% zu sehen.
Hier die benutzte Formel anhand des ersten Beispiels zum Nachvollziehen:
Ps = 50 (Mails, in denen das Wort vorkam)
Pw = 0,25 (0,%-Anteil der Spams mit dem Wort vom Gesamtspam) * 200 (Gesamtspam) + 1 (Anzahl der Nonspams mit dem Wort) = 51
Pspam = Ps / Pw = 50 / 51 = 0,98 = 98%
Wie hoch liegt die Schwelle, nach der Spamihilator eine Mail (bzw. das Wort) nach Spam oder NonSpam einsortiert und würde sich diese Schwelle nicht nachträglich individuell anpassen lassen?
Ich könnte mir neben der eigentlichen Schwelle auch folgende Erweiterung vorstellen, damit eine Einstufung noch größer und klarer wird (sind jetzt nur gedachte Überlegungen, die ich hier aufschreibe):
Spam erst ab Schwelle 50% (Gewichtung nach Art Waageprinzip geht von 0 (absolut kein Spam) bis 100 bzw. noch höher (also ganz klar Spam) nach folgender Formel:
Wahrscheinlichkeit = Prozentualer Bayes Wert * (Gesamtmails/Spams) * (Spams/NonSpams)
Beispiel 1 : 98% * ((300/200) *200/100) = 588% Spam (ganz klar Spam)
Beispiel 2 : 50% * ((300/100)* 100/200) = 75% Spam (vermutlich doch eher Spam)
Beispiel 3 : 71% * ((300/50) * 50/250) = 85% Spam (sicherlich eher Spam)
Beispiel 4 : 33% * ((300/100) * 5/10) = 4,95% Spam (so gut wie kein Spam)
Gruß
anbuva