Einstellbare Schwelle für den Lernenden Filter

Haben Sie eine tolle Idee für eine neue Funktion?

Moderator: Forum-Team

Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 28. Mai 2012, 09:27

Hallo zusammen,

soweit ich das bei Bayes richtig verstanden habe, gibt es einen Schwellwert bei der Wahrscheinlichkeit. Dieser Wert liegt wohl schon recht hoch, um Fehlfilterungen zu vermeiden. Die Filterung funktioniert ja auch normal recht gut (wenn der User im TB gut immer trainiert hat) und gibt eigentlich kaum Anlass zur Beschwerde. Ich würde hier aber noch ein Anpassung des Grenzwertes (nehmen wir mal an, dieser würde jetzt bei 98% liegen) vornehmen können/wollen.

Ein paar simple Beispiele (mit einer Formel aus der Wahrscheinlichkeitsrechnung):
1.)
Gesamt 300 Mails, davon 200 Spams. In 50 von diesen kam das Wort V..... vor, aber auch in einer Non-Spam (war z. B. ein Witz von einem Freund) kam das Wort einmal vor.
Die Spam-Wahrscheinlichkeit wäre hier bei einer neuen Mail mit diesem Wort zu 98% zu sehen und würde damit als Spam aussortiert werden.
Das wäre okay und auch verständlich.

2.)
Gesamt 300 Mails, davon 100 Spams. In 30 von diesen kam V..... vor, was bisher auch in 30 NonSpams vorkam. Fifty, fifty also.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei nur noch 50% zu sehen. Wäre diese Mail in Wirklichkeit Spam, würde die Mail also durchgelassen werden.
Ich für meinen Teil würde hier also strenger bewerten wollen und die Schwelle (nach anfänglicher Kontrolle) nach unten setzen wollen.

3.)
Gesamt 300 Mails, davon 50 Spams. In 25 von diesen kam V..... vor, was bisher auch in 10 NonSpams vorkam.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei 71% zu sehen.

4.)
Gesamt 300 Mails, davon 100 Spams. In 5 von diesen kam V.... vor, was bisher auch in 10 NonSpams vorkam.
Die Spam-Wahrscheinlichkeit bei einer neuen eingehenden EMail mit diesem Wort wäre hier dann bei 33,33% zu sehen.

Hier die benutzte Formel anhand des ersten Beispiels zum Nachvollziehen:

Ps = 50 (Mails, in denen das Wort vorkam)
Pw = 0,25 (0,%-Anteil der Spams mit dem Wort vom Gesamtspam) * 200 (Gesamtspam) + 1 (Anzahl der Nonspams mit dem Wort) = 51
Pspam = Ps / Pw = 50 / 51 = 0,98 = 98%


Wie hoch liegt die Schwelle, nach der Spamihilator eine Mail (bzw. das Wort) nach Spam oder NonSpam einsortiert und würde sich diese Schwelle nicht nachträglich individuell anpassen lassen?

Ich könnte mir neben der eigentlichen Schwelle auch folgende Erweiterung vorstellen, damit eine Einstufung noch größer und klarer wird (sind jetzt nur gedachte Überlegungen, die ich hier aufschreibe):
Spam erst ab Schwelle 50% (Gewichtung nach Art Waageprinzip geht von 0 (absolut kein Spam) bis 100 bzw. noch höher (also ganz klar Spam) nach folgender Formel:

Wahrscheinlichkeit = Prozentualer Bayes Wert * (Gesamtmails/Spams) * (Spams/NonSpams)

Beispiel 1 : 98% * ((300/200) *200/100) = 588% Spam (ganz klar Spam)
Beispiel 2 : 50% * ((300/100)* 100/200) = 75% Spam (vermutlich doch eher Spam)
Beispiel 3 : 71% * ((300/50) * 50/250) = 85% Spam (sicherlich eher Spam)
Beispiel 4 : 33% * ((300/100) * 5/10) = 4,95% Spam (so gut wie kein Spam)

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 12. Aug 2012, 16:55

Hallo!

hm, keiner will mir antworten :cry:

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon Chactory » 12. Aug 2012, 19:43

Hallo anbuva!

Hab ich auch nicht verstanden ... :?

Gruß
Chactory
HilfeHelp «en»TippsAnbuva's FAQBob's FAQ «en»SpamwortlisteRegelfilterScreenshotsSSL/TLSSpami 1.6.0
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9593
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 12. Aug 2012, 19:59

Hallo Chactory!

ich weiß nicht, wie ich mich noch klarer ausdrücken sollte. :?

Vielleicht andersrum, um den komplizierten Gehirnknoten zu entwirren:
Wie funktioniert der Lernende Filter beim Spamihilator? Ab wann genau ist für den LF eine Mail Spam und wann ist sie es nicht? Aufgrund welcher Kriterien kommt er darauf? Warum wird eine NonSpam immer wieder als Spam erkannt oder auch andersrum, trotz Lernens? Was kann die Ursache dafür sein?

Ab hier würde ich dann weiter ansetzen wollen.

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon Chactory » 12. Aug 2012, 20:46

Hallo Anbuva!

Huh, sorry, in diesem Thread weiß ich einfach noch nicht, worauf Du hinauswillst ...

Gruß,
Chactory
HilfeHelp «en»TippsAnbuva's FAQBob's FAQ «en»SpamwortlisteRegelfilterScreenshotsSSL/TLSSpami 1.6.0
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9593
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 12. Aug 2012, 20:58

Hallo Chactory!

drücke ich mich denn so unklar aus? :lol: Ich wiederhole noch mal meinen letzten Beitrag zum Einstieg:
Wie funktioniert der Lernende Filter beim Spamihilator? Ab wann genau ist für den LF eine Mail Spam und wann ist sie es nicht? Aufgrund welcher Kriterien kommt er darauf? Warum wird eine NonSpam immer wieder als Spam erkannt oder auch andersrum, trotz Lernens? Was kann die Ursache dafür sein?


Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon Andreas_Z » 19. Sep 2012, 06:54

Hallo anbuva!

Lange ist es her, dass hier jemand etwas zu geschrieben hat. Ich würde hier auch gern etwas Senf dazugeben. Wie Du schon richtig festgestellt hast, ermittelt der lernende Filter seine Spam-Wahrscheinlichkeiten selbst anhand der Traningsdaten. Dies macht er macht anhand aller in der Mail enthaltenen Wörter und zwar für jedes Wort einzeln. Die einzelnen Ergebnisse werden dann zu einer Gesamtwahrscheinlichkeit zusammengefasst. An dieser Stelle kommt nun Dein Schwellwert ins Spiel. Ab welcher Prozentschwelle möchtest Du noch Non-Spam erkennen. Dieser Wert ist in Spami festgesetzt und kann nicht geändert werden. Ich habe leider keine Vorstellung, welchen Wert Michel hier festgesetzt hat. Für mich war bisher immer OK. Die Möglichkeit, den zu ändern, bräuchte ich nicht. Jedoch gäbe es so mehr Tuningmöglichkeiten. Ich denke, hier sollte Michel auch was zu sagen.

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 19. Sep 2012, 09:14

Hallo Andreas_Z!

welcome back :D !

Dein Senf schmeckt gut :D In der Tat hast Du es richtig erfasst. Sicher kann nur Michel hier was zu beitragen, da es sich ja dann um eine programmtechnische Änderung handeln würde. Aber hier würde ich gerne mal experimentieren wollen. Der LF könnte sicherlich noch besser filtern, wenn man diese Schwelle noch selber regeln könnte. Beispiele habe ich ja oben schon angeführt. Man darf meine Überlegung also nicht nur gleich pauschal betrachten, obwohl ich mir schon vostellen könnte, dass jeder mit etwas Kenntnis über seine Spam- und NonSpam-Mails hier noch bessere Ergebnisse erzielen könnte.
(irgendwie will man ja dauerhaft die 100% erreichen :mrgreen: )

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon Andreas_Z » 8. Okt 2012, 06:39

Hallo anbuva!

Ich fürchte ja, dass Michel zu wenig Zeit hat, sich darum zu kümmern. Ich überlege die ganze Zeit, ob es in der Vergangenheit nicht mal einen Thread gab, der sich um genau diese Werte kümmerte hmmm.....

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 8. Okt 2012, 12:33

Hallo Andreas_Z!

die Zeit wird sicherlich fehlen und will da auch nicht andere Sachen deswegen zurückstellen lassen, aber ich möchte das zumindest nicht aus den Augen verlieren und ich könnte mir auch vorstellen, dass eine "Manipulation" vielleicht relativ schnell zu realisieren wäre.

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon Chactory » 9. Dez 2012, 19:58

Hallo Anbuva!

Geht es Dir hier darum, daß jedes Wort seine eigene Spamwahrscheinlichkeit erhält? Und daß die Schwelle zur Filterung einer Mail davon abhängig je unterschiedllich eingestellt werden soll? Das wäre dann so, daß jeder User seine Spamwortliste im Lernenden Filter pflegen müßte, so wie ich die Spamwortliste im Spamwortfilter?

Gruß,
Chactory
HilfeHelp «en»TippsAnbuva's FAQBob's FAQ «en»SpamwortlisteRegelfilterScreenshotsSSL/TLSSpami 1.6.0
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9593
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 9. Dez 2012, 20:30

Hallo Chactory!

nein.

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon michel » 15. Dez 2012, 15:40

Hi!

Der aktuelle Wert wurde vor langer Zeit empirisch von Paul Graham ermittelt:
http://www.paulgraham.com/spam.html

Ändern halte ich nicht für sinnvoll. Schon kleinste Abweichungen können die Filterqualität sehr stark beeinflussen.

Gruß
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 15. Dez 2012, 18:44

Hallo michel!

das mag sicherlich in den meisten Fällen vollkommen ausreichend sein, aber Ausnahmen bestätigen auch gern die Regel. Mir geht es daher ja auch nur um eine, im Bedarfsfall, individuelle Einstellung dieser Schwelle. Das sich damit die Filterqualität ändert ist auch klar, muss aber nicht gleich bedeuten, dass es sich in jeden Fall negativ ändern würde. Für meine Theorie (und den o. a. Berechnungen) würde ich hier einen positiven Effekt erzielen können. Die meisten Fehlfilterungen passierten bei mir beim Lernenden Filter.

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Einstellbare Schwelle für den Lernenden Filter

Beitragvon anbuva » 15. Dez 2012, 18:46

Hallo michel!

danke für den Link. Den muss ich mir noch in Ruhe durchlesen. :)

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Nächste

Zurück zu Feature Requests

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 3 Gäste

cron

 industrious-southeast