Wordlist-Extractor v 1.1 zum Download

Alles, was mit Plugins für Spamihilator zu tun hat. (Keine Plugin-Hilfe, Plugin-Bugs oder Plugin Feature Requests, siehe jeweils dort.)

Moderator: Forum-Team

Wordlist-Extractor v 1.1 zum Download

Beitragvon S3bast1an » 26. Okt 2003, 12:11

So nachdem das Forum nun wieder erreichbar ist (anders als die letzten 60min) ...

Ich habe ein kleines Programm geschrieben, welches die Spamwortlisten des lernenden Filters lesbar macht und in eine durch Tab getrennte Datei schreibt.



Zur Zeit kann man nur extrahieren, der umgekehrte Weg geht nicht .. ist aber mal interessant mal anzusehen wie oft die Worte vorkamen :)

Wie anwenden?

- exe ins trainings-Verzeichnis zu den beiden Listen kopieren
- starten
- die beiden entstandenen txt-Dateien oeffnen


Gruss
S.
childintime[äht]gmx.de ;)
Tragt eure Mailkontodaten ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 17:14
Wohnort: Bärlin

Re: Wordlist-Extractor v 1.1 zum Download

Beitragvon Susi » 26. Okt 2003, 17:19

Hallo S3bast1an,

danke für dieses Tool. Hab's gleich ausprobiert.

Wenn man die Auszüge sortiert, dann zeigt sich was Seltsames: In der good.wordlist ist vielen Einträgen (5,1%) ein Sonderzeichen vorangestellt. Von 9.653 Einträgen beginnen bei mir...

71 mit dem einfachen Strich '
320 mit einem oder mehreren Leerzeichen
100 mit anderen Sonderzeichen (," usw)

Fragt sich, wieso der LF diese Sonderzeichen als Wortteil erkennt, an statt sie auszuschliessen. Kommen auf diese Weise nicht eine Menge Fehleinträge zustande? Aus wird und , d.h. drei Einträge für dasselbe Wort. In der bad.wordlist sieht das viel sauberer aus.

Jetzt bräuchten wir nur noch eine Möglichkeit, diese Wortlisten editieren zu können!


Gruss von
Susi
Benutzeravatar
Susi
Spam-Terminator
Spam-Terminator
 
Beiträge: 95
Registriert: 30. Jul 2003, 18:08

Re: Wordlist-Extractor v 1.1 zum Download

Beitragvon michel » 26. Okt 2003, 17:45

Du hast Recht, dass sich dadurch ein paar Doppeleinträge ergeben, aber diese Sonderzeichen helfen dem Lernenden Filter auch, die Mails besser zu erkennen.

Gruß
Michel Krämer
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck

Re: Wordlist-Extractor v 1.1 zum Download

Beitragvon S3bast1an » 26. Okt 2003, 21:25

Fragt sich, wieso der LF diese Sonderzeichen als Wortteil erkennt, an statt sie auszuschliessen. Kommen auf diese Weise nicht eine Menge Fehleinträge zustande? Aus wird und , d.h. drei Einträge für dasselbe Wort. In der bad.wordlist sieht das viel sauberer aus.


Hey,

ich denke man sollte den Lernenden Filter weniger rational als vielmehr intuitiv verstehen, vielleicht ist gerade "Auto sehr oft in Spammails und 'Auto eher in (meinen) anderen/Non-Spams vorhanden ... dieses ganze gerechne mit den Wahrscheinlichkeiten und die Bayesformel und die Auswahl der zu verwurstenden Woerter (wie viele nimmt denn der Spami zur Berechnung ??? 15 so wie Paule Graham vorschlaegt?) sowie die vervielfachung der Haeufigkeiten der Non-Spamworte (wievielfach nimmt der Spami denn die Haufigkeit der good-words?) fuehrt dazu, dass man das mit "Menschenverstand" nicht mehr uaszuloesen vermag und vielleicht fuehrt gerade die Aufteilung nach ' " und Leerschritt zu einem besseren Ergebnis als wuerde man es filtern ...

Jetzt bräuchten wir nur noch eine Möglichkeit, diese Wortlisten editieren zu können!


na dann ran, wer den Quellcode von meinem Programm haben will unten ist er ...

Gruss
S.

childintime[äht]gmx.de ;)
Tragt eure Mailkontodaten ein, damit für möglichst viele Provider Hilfe angeboten werden kann.
Benutzeravatar
S3bast1an
Forumjunkie
Forumjunkie
 
Plugin-Programmierer
 
Beiträge: 1432
Registriert: 3. Jul 2003, 17:14
Wohnort: Bärlin


Zurück zu Plugins: Allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron

 industrious-southeast