soweit ich das bei Bayes richtig verstanden habe, gibt es einen Schwellwert bei der Wahrscheinlichkeit. Dieser Wert liegt wohl schon recht hoch, um Fehlfilterungen zu vermeiden. Die Filterung funktioniert ja auch normal recht gut (wenn der User im TB gut immer trainiert hat) und gibt eigentlich kaum Anlass zur Beschwerde. Ich würde hier aber noch ein Anpassung des Grenzwertes (nehmen wir mal an, dieser würde jetzt bei 98% liegen) vornehmen können/wollen.
Ein paar krasse Beispiele (mit einer Formel aus der Wahrscheinlichkeitsrechnung):
1.)
Gesamt 300 Mails, davon 200 Spams. In 50 von diesen kam das Wort V..... vor, aber auch in einer Non-Spam (war z. B. ein Witz von einem Freund) kam das Wort einmal vor.
Die Spam-Wahrscheinlichkeit wäre hier bei einer neuen Mail mit diesem Wort zu 98% zu sehen und würde damit als Spam aussortiert werden.
Das wäre okay und auch verständlich.
2.)
Gesamt 300 Mails, davon 100 Spams. In 30 von diesen kam V..... vor, was bisher auch in 30 NonSpams vorkam. Fifty, fifty also.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei nur noch 50% zu sehen. Wäre diese Mail in Wirklichkeit Spam, würde die Mail also durchgelassen werden.
Ich für meinen Teil würde hier also strenger bewerten wollen und die Schwelle (nach anfänglicher Kontrolle) nach unten setzen wollen.
Bitte meine Gedanken, die ich mir hier mache, nicht so groß aufhängen, aber ich versuche nur immer nach neuen Möglichkeiten oder Verbesserungen Ausschau zu halten und beim Bayes denke ich immer, dass hier die Möglichkeiten noch nicht erschöpft sind oder sein sollten; für mich eben

Man könnte natürlich auch die Reinigungsfunktion vom LF nutzen, das erscheint mir aber noch nicht das Ende der Weisheit zu sein.
Hier noch die benutzte Formel anhand des ersten Beispiels zum Nachvollziehen (ich hoffe, dass ich richtig gerechnet habe und die Formel halbwegs hier auch passt):
Ps = 50 (Mails, in denen das Wort vorkam)
Pw = 0,25 (0,%-Anteil der Spams mit dem Wort vom Gesamtspam) * 200 (Gesamtspam) + 1 (Anzahl der Nonspams mit dem Wort) = 51
Pspam = Ps / Pw = 50 / 51 = 0,98 = 98%
Gruß
anbuva