Neuer Sprachfilter

Alles, was mit Plugins für Spamihilator zu tun hat. (Keine Plugin-Hilfe, Plugin-Bugs oder Plugin Feature Requests, siehe jeweils dort.)

Moderator: Forum-Team

Neuer Sprachfilter

Beitragvon michel » 4. Jun 2010, 16:57

Hallo,

der neue Sprachfilter ist fast fertig. Ihr könnt die Version 0.9.0 hier herunterladen:
languagefilter-0.9.0.zip
(167.61 KiB) 513-mal heruntergeladen


Installation
1. Spamihilator beenden
2. ZIP-Archiv ins Spamihilator-Installationsverzeichnis (in der Regel C:\Programme\Spamihilator) entpacken
3. Spamihilator starten

Benutzung
Zunächst müsst ihr den Filter mit ein paar Wörterbüchern füttern, sonst arbeitet er gar nicht. Dazu könnt ihr euch z.B. Hunspell-Dictionaries aus dem Internet herunterladen oder OpenOffice-Erweiterungen von folgender Seite nehmen:
http://extensions.services.openoffice.o ... ctionaries

Diese Wörterbücher könnt ihr im Einstellungsdialog unter "Sprachfilter" mit dem Button "Importieren" laden.

Ich habe gute Erfahrungen damit gemacht, die Sprachen, in denen ich Mails erhalten möchte (z.B. Deutsch und Englisch), zu laden und diese auf der Standard-Einstellung "Ignorieren" zu lassen. Im Reiter "Einstellungen" des Sprachfilters sollte dann "Mails in unbekannten Sprachen sind Spam" eingestellt sein. Dadurch werden z.B. Russisch oder Chinesisch herausgefiltert, aber Deutsch und Englisch laufen nach wie vor durch alle anderen Filter.

Achtung: Der Filter kann bei falscher Benutzung (wenn man also z.B. nicht das macht, was ich oben empfohlen habe) sehr restriktiv sein und zu viele Mails durchlassen oder zu viele blockieren. Die Standardeinstellungen sollten also am besten übernommen werden.

Mit der Filterreihenfolge ist noch zu experimentieren. Ich habe den Filter in der Mitte meiner Liste, da er (in der Standardeinstellung) nur Spam erkennt (und nicht Non-Spam). Ich habe Englisch und Deutsch geladen, da ich in beiden Sprachen Mails erhalte. Über die Filterleistung kann ich noch relativ wenig sagen, da ich selten Mails in anderen Sprachen bekomme. Vielleicht könnt ihr da bessere Erfahrungswerte liefern.

Ich wünsche euch viel Spaß und wenig Spam mit dem neuen Filter!
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck

Re: Neuer Sprachfilter

Beitragvon Chactory » 4. Jun 2010, 22:06

Hallo Michel!

Vielen Dank! Ich teste! :)

Gruß, Chactory

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Neuer Sprachfilter

Beitragvon anbuva » 5. Jun 2010, 11:01

Hallo michel!

Super! Vielen Dank für dieses sommerliche Geschenk :D Ich teste es natürlich auch :wink:

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Neuer Sprachfilter

Beitragvon Patti » 5. Jun 2010, 11:23

na dann auf zum testen, ich danke dir =)

Benutzeravatar
Patti
Fast schon ein Mitarbeiter
Fast schon ein Mitarbeiter
 
Beta-Tester
 
Beiträge: 455
Registriert: 12. Mär 2008, 18:34

Re: Neuer Sprachfilter

Beitragvon Chactory » 5. Jun 2010, 20:50

Hallo zusammen!

Ich habe ihn installiert, wie empfohlen. Zusätzlich noch Russisch als Spam-Sprache konfiguriert, Chinesisch gibts leider nicht. Noch keine Regung ... ich beobachte weiter ...

Gruß, Chactory

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Neuer Sprachfilter

Beitragvon anbuva » 5. Jun 2010, 21:36

Hallo Chactory!

ich habe jetzt nur Deutsch und Englisch. Alles andere soll als Spam erkannt werden.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Neuer Sprachfilter

Beitragvon michel » 6. Jun 2010, 10:13

usätzlich noch Russisch als Spam-Sprache konfiguriert, Chinesisch gibts leider nicht.

Wie gesagt: Eigentlich würde man eher die Sprachen installieren, die man kennt, und alle anderen als Spam behandeln lassen.

Es wird interessant zu sehen, ob der Filter in dieser Einstellung überhaupt greift, da er eigentlich (noch) nicht mit UTF-8 umgehen kann, was für Russisch notwendig wäre.

Gruß
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck

Re: Neuer Sprachfilter

Beitragvon Patti » 6. Jun 2010, 10:28

Hallo anbuva!

genau so habe ich es auch, wobei bei mir English ( Kanada) angezeigt wird Oo

hier mal ne kleine Stati seit gestern :)



Habe folgende Reihen folge im Moment ( tips sind willkommen )

1. Regelfilter
2. Newsletter plugin
3. Attachment filter
4. Sprachfilter
5. DCC Filter
6. Link filter
7. image filter
8. spam wort filter
9. lernender Filter
10. DNSBL
11. empty Filter

( was wuensche ich mir ne Kopier Funktion fuer die Reihenfolge, das tippen haelt auf :D )

Gruß
Patti

Benutzeravatar
Patti
Fast schon ein Mitarbeiter
Fast schon ein Mitarbeiter
 
Beta-Tester
 
Beiträge: 455
Registriert: 12. Mär 2008, 18:34

Re: Neuer Sprachfilter

Beitragvon Chactory » 6. Jun 2010, 11:19

Hallo zusammen!

ch habe jetzt nur Deutsch und Englisch. Alles andere soll als Spam erkannt werden.
Genauso hatte es Michel auch empfohlen, das ist sicherlich der intelligentere Weg. Ich wollte nur mal schauen, ob man umgekehrt auch bestimmte Sprachen aussperren kann.

s wird interessant zu sehen, ob der Filter in dieser Einstellung überhaupt greift, da er eigentlich (noch) nicht mit UTF-8 umgehen kann, was für Russisch notwendig wäre.
Also sollte ich mein kleines Experiment wohl lieber aussetzen, bis UTF-8 auf Deiner Todo-Liste grün wird ... ;)

0.87% Anzahl: 28 Avg/day: 4.67 Language Filter
Die absolute Anzahl der Spam-Mails beträgt 3223 von 3338 Zeilen.
Cool!
Du empfängst ja wirklich rekordverdächtige Mengen Spam!

Meine Filterreihenfolge:
1. Signature
2. Scripts
3. Attachment
4. Newsletter
5. Regel
6. Charset
7. DCC
8. Link
9. Emptymail
10. Sprach
11. Spamwort
12. Lernender

Den Imagefilter verwende ich nicht, weil es immer noch ein paar unbedachte Leute gibt, die in ihren Mails Signaturen oder andere Bereiche servergestützt versenden. Auch z.B. in unseren Firmenmails ... Den DNSBL verwende ich nicht, weil es immer mal wieder zu Fehlern der Blacklists kommt.

Gruß, Chactory

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)
Nach oben

Re: Neuer Sprachfilter

Beitragvon Chactory » 6. Jun 2010, 11:21

Hallo Michel!

Was bedeuten und bewirken die folgenden Einstellungsmöglichkeiten?

"Wahrscheinlichkeitsschwellenwert"
"Minimum number of words"

Gruß, Chactory

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Neuer Sprachfilter

Beitragvon michel » 6. Jun 2010, 13:04

ier mal ne kleine Stati seit gestern :)

Cool! Der Filter hat bei dir ja schon richtig angeschlagen. Ich hoffe, er hat keine Fehler gemacht.

lso sollte ich mein kleines Experiment wohl lieber aussetzen, bis UTF-8 auf Deiner Todo-Liste grün wird ...

Ist gerade grün geworden. Allerdings kann der Sprachfilter es noch nicht.

as bedeuten und bewirken die folgenden Einstellungsmöglichkeiten?

"Wahrscheinlichkeitsschwellenwert"
"Minimum number of words"

Ich habe mich schon gefragt, wann ihr merkt, dass der letzte Einstellungspunkt auf Englisch ist. Da ist nämlich ein Schreibfehler in der Übersetzungsdatei :-)

"Wahrscheinlichkeitsschwellenwert" ist das gleiche wie beim Spam-Wort-Filter. Der Sprachfilter kann ungefähr bestimmen, zu wieviel Prozent eine Mail in einer Sprache geschrieben ist (z.B. mit 65%iger Wahrscheinlichkeit ist diese Mail in Deutsch). Das wird auch im Trainingsbereich/Papierkorb angezeigt. Mit dem Schwellenwert stellt man ein, ab wieviel Prozent der Sprachfilter meint, dass eine Sprache korrekt erkannt wurde. Im Durchschnitt kann er Sprachen mit mindestens 30-40%iger Wahrscheinlichkeit erkennen. Ein geringerer Wert liefert zu viele uneindeutige Ergebnisse.

"Minimum number of words" ist die Mindestanzahl an Wörtern, die eine Mail enthalten muss, damit der Sprachfilter sie als Mail mit unbekannter Sprache behandelt, wenn er keine der anderen Sprachen zuordnen kann. Beispiel: Der Filter kann die Sprache der Mail nicht erkennen, aber sie enthält trotzdem 50 Wörter. Es ist eingestellt, dass Mails in einer unbekannten Sprache blockiert werden sollen, also wird sie im Papierkorb abgelegt. Enthält die Mail aber weniger als der eingestellte Wert, dann wird sie ignoriert. Das ist nützlich, weil bei sehr wenigen Wörtern oft keine eindeutige Sprache besimmt werden kann.

Gruß
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck
Nach oben

Re: Neuer Sprachfilter

Beitragvon Chactory » 6. Jun 2010, 13:36

Hallo Michel!

Vielen Dank für Deine Erklärungen!
Über einen englischen Unterpunkt habe ich mich nicht gewundert. :wink:
Somit werde ich mal testen, wie es mit weniger Erkennungswörtern geht.
Die meisten Spammails sind kürzer - außer denen von nigerianischen "Freunden".

Gruß, Chactory
Zwischenablage03.gif
Zwischenablage03.gif (21.59 KiB) 14201-mal betrachtet

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)
Nach oben

Re: Neuer Sprachfilter

Beitragvon Patti » 6. Jun 2010, 16:06

Hallo michel!

ool! Der Filter hat bei dir ja schon richtig angeschlagen. Ich hoffe, er hat keine Fehler gemacht.


Jo, bin aber mit der Reihenfolge noch nicht ganz so zufrieden *denk*
einmal ne FP ausgeloest durch ne mail von mysqldumper da ich mir gerne den status der backups zusenden lasse, da hat er leider blockiert :-/ #( werde ich weiter beobachten )

Vielleicht interssant diese mail hat er gerade auch schoen geblockt :



lang.png
lang.png (23.21 KiB) 14197-mal betrachtet


Und wie gesagt mit dem einen fp halte ich mal in Beobachtung ;)


Gruß
Patti

Benutzeravatar
Patti
Fast schon ein Mitarbeiter
Fast schon ein Mitarbeiter
 
Beta-Tester
 
Beiträge: 455
Registriert: 12. Mär 2008, 18:34
Nach oben

Re: Neuer Sprachfilter

Beitragvon anbuva » 6. Jun 2010, 16:19

Hallo michel!

bei mir funktioniert er auch. Hat vorhin eine französische Spam-Mail blocken können :D . Statistik läuft bei mir seit der Installation des Filters neu. Mache ich immer so, wenn ich was verändere, damit die Ergebnisse mir ein exakteres Bild von den neuen Einstellungen liefern.



Die Filterreihenfolge: Lässt sich das nicht mal schnell und einfacher als .txt exportieren? Wäre doch eine gute Idee. :wink:

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Neuer Sprachfilter

Beitragvon michel » 6. Jun 2010, 16:21

ielleicht interssant diese mail hat er gerade auch schoen geblockt :

Interessant ist hier, dass sich der Filter nur zu ca. 82% sicher ist, dass diese Mail eine unbekannte Sprache enthält *LOL*

Gruß
Michel
Chuck Norris doesn't kill Spam. He uses Spamihilator! ;-)
Benutzeravatar
michel
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
Plugin-Programmierer
 
Beiträge: 4335
Registriert: 22. Mär 2003, 01:16
Wohnort: Buseck
Nach oben

Nächste

Zurück zu Plugins: Allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron

 industrious-southeast