Language file, Filterungsgrund, Etikette

Alles, was mit Plugins für Spamihilator zu tun hat. (Keine Plugin-Hilfe, Plugin-Bugs oder Plugin Feature Requests, siehe jeweils dort.)

Moderator: Forum-Team

Re: Language file, Filterungsgrund, Etikette

Beitragvon dme » 20. Jan 2009, 02:20

Hallo,


ich merke, dass ich das Konzept des IMP-Filter nochmals deutlicher machen muss: die Verwendung dieses Filters macht soweit ich das bis jetzt sehe kaum einen Sinn, wenn man sich nicht einen individuellen Mail Parser baut, der genau auf die eigenen Themengebiete und speziellen Feinde zugeschnitten ist. Im Unterschied zu dem statistischen Wortfilter des Spamihilators kann man ein TextTransformer-Projekt so einrichten, dass es Mails absolut klassifiziert. Wenn durch den Parser sicher gestellt ist, dass wichtige Mails nicht verlorengehen, können andere Kriterien, z.B. das Vorhandensein von Links strikter zum Ausschluss von Spam eingesetzt werden. Nur die einzelne Person kann aber genau wissen, wie die Mails beschaffen sind, die er auf jeden Fall erhalten möchte. Solche Mail-Parser kann man nur schwer für jemand anderen machen und schon gar nicht für die Allgemeinheit.

Nur wer wirklich unter großen Mengen an Spam leidet, wird sich die Mühe machen seinen eigenen Spamfilter zu programmieren. Für jemanden, der gerade mal ein dutzend Spam-Mails am Tag erhält lohnt sich das nicht, bei 120 aber schon eher. Das ist die Größenordnung die bei mir täglich ankommt. 95% davon konnte ich mit den vorhandenen Filtern abfangen. Das ist eigentlich schon eine gute Quote. Aber damit blieben immer noch ca. ein halbes Dutzend übrig, die ich von Hand in den Papierkorb befördern musste. Das hat mich genervt und geärgert. Die meisten nicht erkannten Spam-Mails bestanden aus Zufallstexten, die zudem den lernenden Filter aus dem Konzept brachten, so dass er sogar bereits Gelerntes wieder zu vergessen schien. Oft war es mir nicht klar, warum die Mails nicht abgefangen wurden, obwohl ich mir mit entsprechenden regulären Ausdrücken große Mühe gegeben hatte. Mit dem TextTransformer kann man dagegen die Analyse einer Mail ganz exakt Schritt für Schritt nachvollziehen. Seit ich den IMP-Filter so von Hand trainiert habe, fängt er allein 95% der Spam ab und den Rest erledigen fast vollständig die anderen nachgeschalteten Filter.

Zum händischen Trainieren des Filters muss aber das TextTransformer-Programm installiert sein. Solange es keine TextTransformer-Projekte gibt, die allgemeinen Charakter haben, seh ich deshalb keinen Vorteil darin die benötigten dll's nicht in das Systemverzeichnis zur gemeinsamen Nutzung zu kopieren. Dazu hat man die dll's und das Systemverzeichnis schließlich erfunden und deshalb baut man ja Installationsprogramme. Auch der Spamihilator selbst nutzt dieses Verzeichnis.

Ich verstehe Euren Widerwillen gegen diese voluminöse Filterinstallation, und erst recht gegen ein so großes Programmpaket wie den TextTransformer. Der IMP-Filter ist eben weniger an Euch adressiert als an Kleinunternehmer und Programmierfreaks wie mich. Trotzdem würde ich mich sehr freuen, wenn Ihr ihn wenigstens einmal testen würdet. Bald gibt es ein TextTransformer-Update, in das die hier gemachten Erfahrungen einfließen. Vielleicht kommt der eine oder andere dann doch auf den Geschmack.

Gruß
Detlef
Benutzeravatar
dme
Spam-Terminator
Spam-Terminator
 
Beiträge: 71
Registriert: 28. Dez 2008, 23:45

Re: Language file, Filterungsgrund, Etikette

Beitragvon Andreas_Z » 20. Jan 2009, 08:05

Hallo Detlef!

bitte verstehe unsere Postings nicht als Widerwillen. Wir freuen uns riesig über jeden, der etwas zum ganzen Beiträgt. Noch dazu, wenn es so Leistungsfähig ist. Auch wenn der Filter eine gewisse Usergruppe anspricht, ist es unter umständen doch von Vorteil, wenn der Filter allein dadurch eine bessere Verbreitung findet, weil nicht so viele Randbedingungen erfüllt sein müssen. Aus eigener Erfahrung kann ich sagen, daß viele User und auch ich selbst lieber auf Programme verzichten, die sich überall im System einnisten. Ich hatte Deine vorherigen Postings so verstanden, das TextTransformer nur aus einer Handvoll DLLs besteht und Du die nur deshalb ins Systemverzeichnis installierst, damit selbige sauber gefunden werden. Unter diesen Bedingungen wäre die DLL-Ablage im Filterverzeichnis eine echte Alternative. Wenn das aber nicht realisierbar ist, dann geht es nicht. Ist auch OK. Die User sollten es eben nur wissen. Genau dafür hast Du ja bereits intensiv gepostet, erläutert und Hilfen geschrieben. Alles im Lot.

Zu Deiner Filtererläuterung: Was Dein Filter tun soll, habe ich schon verstanden. Das dafür TextTransformerprojekte nötig sind, hattest Du auch schon dargelegt. Jedoch ist mir nicht klar, woraus diese Projekte bestehen und warum diese Projekte an DLLs im Systemverzeichnis gebunden sind. Mein Grundproblem ist also, das ich diese Software überhaupt nicht kenne und durch blosses herunterladen und Installieren woll auch nicht ausreichender Tiefe erfasse. Falls es Deine Zeit zuläßt, schreib doch bitte mal noch eine kurze Erläuterung darüber. Vielleicht gibt es ja im Netz bereits gute Erläuterungen. Insbesondere interessiert mich, wie so ein Projekt definiert wird. Woran erkennt man denn nun genau, wonach gefiltert wird? Welche Kriterien sind möglich?

viele Grüße
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Language file, Filterungsgrund, Etikette

Beitragvon dme » 20. Jan 2009, 16:42

Hallo Andreas_Z,

DLL-Ablage im Filterverzeichnis eine echte Alternative


sobald es Projekte gibt, die ohne den TextTransformer sinnvoll von allen Anwendern genutzet werden können, werde ich den Installer neu überdenken.

schreib doch bitte mal noch eine kurze Erläuterung ...
Insbesondere interessiert mich, wie so ein Projekt definiert wird. Woran erkennt man denn nun genau, wonach gefiltert wird?


Ich hab ein kleines Video (ohne Sound) gemacht, in dem gezeigt wird, wie das SpamAndNonSpamWords Projekt arbeitet und erweitert werden kann:

http://www.texttransformer.org/demos/ShowSpamAndNotSpam.htm
zum Downloaden: http://www.texttransformer.org/demos/SpamAndNotSpam.exe



Vielleicht gibt es ja im Netz bereits gute Erläuterungen.


http://www.texttransformer.de/Description_ge.html
http://www.texttransformer.de/EBNF_ge.html
http://www.texttransformer.de/CaseStudy_ge.html


Welche Kriterien sind möglich?


Fast alles ist möglich. Im Moment ist der IMP-Filter noch auf die Analyse der reinen Nachricht eingeschränkt. In zukünftigen Versionen wird auch die Analyse der HTML-formatierten Nachricht und die Analyse der gesamten Mail inklusive Headern möglich sein.
In der freien Version des TextTransformers ist leider keine Vorausschau möglich, so dass ein Parser immer so geschrieben werden muss, dass nach jedem erkannten Textabschnitt alle möglichen Alternativen bedacht werden müssen. D.h. die Erkennung von Phrasen ist schwer so zu programmieren, dass es bei Teilphrasen nicht zu einem Abbruch kommt.

Bei der Gelegenheit hab ich festgestellt, dass ich SpamAndNonSpamWords.ttp in der letzten IMPInstall.exe verstümmelt habe. Deshalb hier das Update auf 0.7.1

http://www.texttransformer.org/ImpInstall.exe

Zukünftig werde ich die Projekte auch unabhängig von dem Installer bereitstellen.

Gruß
dme
Benutzeravatar
dme
Spam-Terminator
Spam-Terminator
 
Beiträge: 71
Registriert: 28. Dez 2008, 23:45

Re: Language file, Filterungsgrund, Etikette

Beitragvon Andreas_Z » 21. Jan 2009, 08:10

Hallo dme!

Super. Vielen Dank. Das ziehe ich mal rein. Wenn ich das Video richtig verstanden habe, werden Textpassagen (Phrasen) als Spamkriterium bzw. als Non-Spam-Kriterium definiert. Trifft der Parser auf ein Spamkriterium, wird -1 als Ausgabewert gesetzt. Trifft später auf Non-Spam-Zeichen, wird der Ausgabewert korrigert. Das heißt doch aber auch, daß immer der zuletzt gefundene String die Mail klassifiziert oder? Wird die Spamigkeit höher, wenn mehrere Spammerkmale gefunden werden?

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Language file, Filterungsgrund, Etikette

Beitragvon anbuva » 21. Jan 2009, 10:16

Hallo zusammen!

Das ist sicherlich kein Filter, den man so "Schwupp-di-wupp" installieren und benutzen kann, aber die Möglichkeiten sind ja schon sehr interessant. dme hat sich hier sehr viel Mühe gegeben und auch noch eine perfekte Anleitung/Hilfe gegeben, die Respekt verdient.

Viele Fragen lassen sich noch klären, aber ich freue mich jedenfalls schon so (mit den Beispielen), dass er überhaupt funktioniert. :)

Ich bin ehrlich stolz, dass wir so tolle PlugIn-Programmierer hier haben. Ich kenne kein anderes Anti-Spam-Programm, was ähnliche Möglichkeiten bietet und so viele liebenswerte Mitstreiter (ich kann sie jetzt nicht alle nennen) bei der Programmierung von Filtern/AddOns und Helfer (wie unsere Mitglieder hier) besitzt.

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Language file, Filterungsgrund, Etikette

Beitragvon dme » 21. Jan 2009, 14:48

Hallo Andreas_Z und anbuva,


ja, im Prinzip hast Du das richtig verstanden.

Das heißt doch aber auch, daß immer der zuletzt gefundene String die Mail klassifiziert oder?


Nein, da besteht eine Unsymmetrie: Nicht-Spamwörter siegen immer über Spamwörter, egal in welcher Reihenfolge sie in der Mail vorkommen. Dafür sorgt der Code hinter Spam und der NonSpam:

Code: Alles auswählen
  | NonSpam  {{ iResult = 1; }}
  | Spam     {{ if(iResult == 0) iResult = -1; }}


d.h.
ein Spamwort bewirkt verschiedenes:
wenn iResult 0 ist wird iResult auf -1 gesetzt (indifferent => Spam)
wenn iResult -1 ist bleibt es -1 (Spam bleibt Spam)
wenn iResult 1 ist bleibt es 1 (Nicht-Spam bleibt Nicht-Spam)

ein Nicht-Spamwort setzt den Wert immer auf 1 (Nicht-Spam)

Wird also einmal ein Nicht-Spamwort gefunden, dann wird die Mail auf jeden Fall als Nicht-Spam klassifiziert. Deswegen müssen die Nicht-Spamwörter sorgfältig von jeder einzelnen Person für sich ausgewählt werden.

Wird die Spamigkeit höher, wenn mehrere Spammerkmale gefunden werden?


Das ließe sich so machen, ginge dann aber in Richtung des vorhandenen lernenden Filters. Gerade durch die geschickte Ausbalancierung des statistischen Filters und des absoluten Filters kann man die Erkennungsrate erhöhen.

anbuva hat Recht: den Filter kann man nicht so "Schwupp-di-wupp" benutzen. Ich hätte aber nicht erwartet, dass der Einstieg eine so große Hürde darstellt. Deswegen freue ich mich über jede Frage dazu. Jetzt weiß ich, wie ich das Video hätte noch besser machen können.


Gruß
dme
Benutzeravatar
dme
Spam-Terminator
Spam-Terminator
 
Beiträge: 71
Registriert: 28. Dez 2008, 23:45

Re: Language file, Filterungsgrund, Etikette

Beitragvon Andreas_Z » 22. Jan 2009, 08:57

Hallo dme!

Ahh... Danke für die Erläuterungen und für Deine Arbeit. Hab leider im Augenblick nur wenig Zeit, mich intensiv der Beschreibungen auf der TextTransformer-Homepage zu befassen. Das kommt aber noch. Die Seiten haben schon einen eigenen offenen Tab in meinem Browser.

Wenn ich die Sache richtig überblicke, wäre das DLL-Problem keines, wenn man so ein TextTransfomer-Projekt bereits erstellt hat. Das Plugin würde dann einfach damit arbeiten. Da man aber solche Projekte nur mit der ganzen Software erstellen kann, muß selbige eben komplett installiert werden und schreibt bei der installation dann natürlich auch ins Systemverzeichnis richtig?

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Language file, Filterungsgrund, Etikette

Beitragvon dme » 22. Jan 2009, 15:15

Hallo Andreas_Z,

ja, bei der TextTransformer-Installation werden auf jeden Fall Dateien ins Systemverzeichnis geschrieben, die mit dem IMP-Filter gemeinsam benutzt werden. Windows zählt für solche Dateien einfach die Anzahl der De-Intallationen und beseitigt sie, wenn sie genauso oft deinstalliert wie installiert wurden.

Ich schlage vor das Thema erst einmal zurückzustellen. Mein Plan ist zunächst ein TextTransformer-Update fertig zu machen. Dann möchte ich darum bitten den IMP-Filter in Eure Plugin-Listen mit aufzunehmen. Dann wird sich zeigen, ob es überhaupt echte Interessenten dafür gibt. Vielleicht gibt es dann ganz unerwartete Projektideen und neue Meinungen zu dem dll-Thema.

Wenn Du mal Zeit und Lust hast, dann würde ich als erste Lektüre die Hilfe zu dem Filter vorschlagen. Anbuva hat auch schon darauf hingewiesen. Dort habe ich explizit die IMP-Filter Projekte zu erklären versucht. Die Beschreibungen zu den Filtern bauen aufeinander auf, so dass man mit dem Studium des ersten beginnen sollte

Gruß
dme
Benutzeravatar
dme
Spam-Terminator
Spam-Terminator
 
Beiträge: 71
Registriert: 28. Dez 2008, 23:45

Re: Language file, Filterungsgrund, Etikette

Beitragvon Andreas_Z » 23. Jan 2009, 07:44

Hallo dme!

OK. Melde mich wieder.

Gruß
Andreas_Z
Core i7 3,4 GHz, 8 GB RAM, Win7 64bit SP1, GDATA Bussiness 11.0
Exchange-Server 2003, VM mit WinXP Pro SP3.
Spami-Online-Hilfe, Spami-FAQ, Anbuva's FAQ
Benutzeravatar
Andreas_Z
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 4380
Registriert: 6. Nov 2003, 08:10
Wohnort: Schwielowsee, Germany

Re: Language file, Filterungsgrund, Etikette

Beitragvon dme » 1. Feb 2009, 18:20

Der IMP-Filter ist heute in die Reihe der "offiziellen" Spamihilator-Plugins aufgenommen worden. Danke Michel!

http://www.spamihilator.com/plugins?detail=82

Weil niemand unter dem verqueren Titel dieses Threads "Language file, Filterungsgrund, Etikette" einen neuen Filter vermuten wird und um auch die englsichen Benutzer einzubeziehen habe ich eben im englischen Forum einen neuen Thread zum IMP-Filter eröffnet.

Gruß
dme
Benutzeravatar
dme
Spam-Terminator
Spam-Terminator
 
Beiträge: 71
Registriert: 28. Dez 2008, 23:45

Re: Language file, Filterungsgrund, Etikette

Beitragvon anbuva » 1. Feb 2009, 18:36

Hallo dme!

Herzlichen Glückwunsch! Es freut mich sehr, wieder etwas neues in unseren Reihen begrüßen zu dürfen! :D

Gruß
anbuva
Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Language file, Filterungsgrund, Etikette

Beitragvon Chactory » 1. Feb 2009, 18:40

Hallo dme!

Vielen Dank!
Ich wünsche Deinem Filter viel Erfolg! :)

Gruß, Chactory
HilfeHelp «en»TippsAnbuva's FAQBob's FAQ «en»SpamwortlisteRegelfilterScreenshotsSSL/TLSSpami 1.6.0
Vostro 3450, Intel Core i5 2410M 2,3 GHz, 4 GB DDR3 SDRAM 1333 MHz, Windows 7 Pro 64 Bit SP1

Bild
Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9593
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Vorherige

Zurück zu Plugins: Allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

 industrious-southeast