Probleme mit einem Typ von Spam

Hier sollen Ideen und Anregungen für den neuen Regelfilter gesammelt werden.

Probleme mit einem Typ von Spam

Beitragvon highend » 3. Mai 2012, 09:10

Spamihilator-Version: 1.0
Betriebssystem: Windows 7
Architektur: 32-Bit
E-Mail-Programm: Outlook 2010
Installierte Plugins: Standard + Charset

Wurde eine Fehlermeldung vom System erzeugt? Wenn ja, welche (genaue Beschreibung)?
Nein

Lässt sich der Fehler reproduzieren? Wenn ja, wie?
Bisher schon. E-Mail eines solchen Typs wird als Non-Spam klassifiziert.

Ist eine andere Sicherheitssoftware außer Spamihilator auf dem System installiert? Wenn ja, welche?
Nein.

Wurde kürzlich ein Update oder eine Neuinstallation von Spamihilator durchgeführt?
Nein

Hast du das Forum bzw. die FAQ schon nach ähnlichen Problemen duchsucht?
Ja

Guten Morgen,

ich verwende Spami erst seit 2-3 Tagen und habe mich im Forum vorher schlau gelesen, wie man die Filter am besten einstellen sollte.

Zuerst meine verwendeten Filter + Reihenfolge + ihr Verhalten:
S = Spam | NS = No-Spam | c = continue (fahre fort) | e = end (beende)
Newsletter-Plugin: S:c | NS:e
Regelfilter: S:c | NS:e
DCC-Filter: S: e | NS: c
Link-Filter: S: e | NS: c
Charset Plugin: S: e | NS: c
Spam_Wort-Filter: S: e | NS: c
Lernender Filter: S: e | NS: e

Jetzt der Typ Spam, der bisher immer durchkommt:

Beispiele Betreffzeilen:
Potenzpil+/le/n immer online kau/fe-n
Po;:n.mi'tel r..eptfrei bes;ell;n
Pot_e!nzmittel kostenlos im Inter-net bestel/l/en
usw.

Inhalte:

Hallo
Diskret, Bestellung+von Hilfsmitteln online und schnell.
http://banish.swissliebeshelfer.in
---

Hallo
Die besten Lifestyle Produkte fuer.gute_ Sex u;d frivo:le *piele.
http://malicote.mehrkraftimbett.de
---

Hallo
Bleibt ;.+e+E!rektion;ha;t?
http://heironimus.mehrkraftimbett.de

usw.

Trotz umdeklarieren aller solcher E-Mails im Trainingsbereich auf SPAM und lernen lassen, kommt die gleiche Art von Mail jedesmal wieder durch. Der Lernende Filter kann dem Ganzen also scheinbar nicht so viel abgewinnen.

Die Reihenfolge und das Verhalten hab ich mir bei http://www.chactory.de/k_spamihilatorfilter.htm abgeschaut.

Der DCC Filter ist zur Zeit auf 1300 eingestellt. Ein Mittelwert aus den Usermeinungen.

Mit welchem Filter (evtl. auch ein Zusatzfilter) werde ich dieser Art von Spam Herr, wenn der Lernende Filter (der schon ca. 20 von diesen Mails lernen "durfte") dabei scheinbar versagt und der DCC Filter nach Möglichkeit nicht weiter runtergestellt werden soll (da ansonsten zuviele andere Mails als Spam deklariert werden, die eigentlich keine sind)?

Danke und Gruß,
Highend

Habe die Links entschärft, Chactory
highend
Spam-Jäger
Spam-Jäger
 
Beta-Tester
 
Beiträge: 25
Registriert: 30. Apr 2012, 23:55

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 3. Mai 2012, 12:00

Hallo highend!

ja, diese Art kenne ich. Diese bekomme ich derzeit auch und rutschen einfach durch (einfach zu viele Varianten). Wollte ich auch schon posten (Du warst schneller). Hier ist wohl unser Experte Chactory gefragt (an ihn wäre meine Frage auch gegangen). Ich denke mit einer guten "Regex" sollte man das schon hinbekommen.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon Chactory » 3. Mai 2012, 23:38

(Melde mich morgen - bin zu müde ... *yawn*)

Benutzeravatar
Chactory
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 9612
Registriert: 9. Jan 2004, 23:19
Wohnort: Kiel (D)

Re: Probleme mit einem Typ von Spam

Beitragvon highend » 4. Mai 2012, 09:16

Nachdem ich mir jetzt so einige E-Mails davon im Detail angesehen habe, würde mir im Moment nur eine halbwegs sinnvolle Sache dazu einfallen:

Regel Filter benutzen.

* Alle Bedingungen erfüllen:
1. Andere -> charset enthält iso-8859-1
2. Nachrichtentext enthält (Regex) ^Hallo$
3. Nachrichtentext enthält (Regex) ^(https?)://[-A-Z0-9+&@#/%?=~_|$!:,.;]*[A-Z0-9+&@#/%=~_|$]$

Erläuterungen:
Diese Form des Charsets hab ich persönlich in keiner einzigen anderen E-Mail und sie wird immer für diese Art des Spams benutzt.
Der Spam beginnt immer mit einem "Hallo" auf einer einzelnen Zeile und er enthält immer einen Link auf einer einzelnen Zeile.

Der eigentliche Nachrichtentext lässt sich kaum sinnvoll verarbeiten, außer es gibt eine Möglichkeit das Auftreten von Zeichen per Regex zählen zu lassen und bei Überschreiten einer Grenze als Spam zu markieren.

Normalerweise würde man das über "word boundaries" etwas vereinfachen können, aber viele der verwendeten Zeichen sind selber welche.
Standardregex für das Auffinden solcher Sonderzeichen wäre z.B.: "[^a-z0-9]". case-insensitive arbeiten die Regexes in Spami ja meines Wissens eh?

Da ich bisher keinen Regelfilter erstellt habe und auch noch nie mit der Regexsprache von Spami gearbeitet habe: Sind die regulären Ausdrücke so syntaktisch korrekt und ist die Verwendung von charset mit Inhalt in der Nachrichtenkopfzeile so einwandfrei?

Ich versuche es mal mit diesem Filter und schau mir an, ob er was erwischt...
highend
Spam-Jäger
Spam-Jäger
 
Beta-Tester
 
Beiträge: 25
Registriert: 30. Apr 2012, 23:55

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 4. Mai 2012, 13:12

Hallo highend!

da bin ich mal gespannt, was Deine Ergebnisse sagen werden. Spami und das Forum leben und profitieren ja von seinen Usern und deren Ideen und Entwicklungen.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon highend » 4. Mai 2012, 13:43

Die Nachrichten kommen trotzdem durch, es muss also ein "syntaktisches" Problem sein.

Gibt es irgendeine Möglichkeit, sich anzeigen zu lassen, welche der 3 genannten Kriterien auf eine Mail hätten zutreffen müssen / zugetroffen sind?
highend
Spam-Jäger
Spam-Jäger
 
Beta-Tester
 
Beiträge: 25
Registriert: 30. Apr 2012, 23:55

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 4. Mai 2012, 14:02

Hallo highend!

mir nicht bekannt bzw. nicht möglich. Wäre aber eine schöne Idee. Gerade wenn eine Regel viele verschiedene Bedingungen enthält.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 6. Mai 2012, 09:59

Hallo!

mittlerweile haben die Spammer eine neue (aber blöde und für mich positive) Strategie. Die letzten Mails wurden jetzt durch den Misnamed-Filter abgefangen. Sie hätten mal bei ihrer alten Variante bleiben sollen; die gingen bei mir durch :lol:
Trotzdem wird das natürlich nicht von Dauer bleiben. Diese Varianten werden sicherlich weiterhin und in alter Form wieder auftauchen, wo die Regex vorteilhaft wäre.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon Quellcore » 6. Mai 2012, 14:47

Hallo highend und der Rest,

Habe hier den gleichen Spam, der zur Zeit durchflutscht.
Allerdings habe ich auch genügend Gegenbeispiele für das erfolgreiche Filtern dieser Art von Spam.
Filter, die bis jetzt teilweise diese Art von Spam erfasst haben: (unsortiert)
  • Misnamed (wie bei Anbuva erst seit heute)
  • Spam-Wort-Filter
  • Regelfilter mit einer von mir erstellten Regel
  • Lernender Filter
  • Link-Filter
  • DCC (erst einmal)
  • Potenzmittel_01.png
    Potenzmittel_01.png (32.4 KiB) 8199-mal betrachtet

Erst seit letzter Woche rutschen die auf einmal haufenweise durch, wahrscheinlich aufgrund der extremen Verstümmlungen.

Nun zu Deinem Ansatz:
iese Form des Charsets hab ich persönlich in keiner einzigen anderen E-Mail und sie wird immer für diese Art des Spams benutzt.

Das kann durchaus sein, die Kodierung als Spamkriterium zu nehmen, halte ich persönlich aber für problematisch.
Als Zusatzkriterium wie in Deinem Fall kann man das aber durchaus in Erwägung ziehen.
Das zugehörige Header-Feld heißt aber Content-Type: und hat bei allen diesen Mails bei mir den Wert text/plain; charset="iso-8859-1"

Eine Regel dafür sollte also in etwa so aussehen:
Content-Type enthält charset="iso-8859-1"
er Spam beginnt immer mit einem "Hallo" auf einer einzelnen Zeile...

Bei mir nicht:
1/3 beginnt mit "Hallo", 1/3 mit "Guten Tag" und 1/3 hat keine Begrüßungsfloskel, eine beginnt sogar mit "Guten Abend".
Die Interpretation des Dollar Symbols hängt von Optionen wie "Singleline" und "Multiline" ab. Mein Gedächtnis will mir einreden, dass in Spami die Boost RegEx-Bibliothek mit der Option "Singleline" benutzt wird. In diesem Fall würde das dann so nicht funktionieren.
Ich will das aber auch noch mal testen. Evtl. mal mit folgende RegExp ausprobieren, bei der ich hauptsaechlich das Dollar-Symbol "$" durch "\r" (Carriage Return) ersetzt habe:
"^(Hallo|Guten Tag|Guten Abend)\r"
.. und er enthält immer einen Link auf einer einzelnen Zeile.

Gleiches Problem wie oben, hier aber nun auch noch mit dem Dachsymbol. Meines Erachtens steht das Dachsymbol "^" für "Start of Input" also in diesem Fall nur für den Anfang des Nachrichtentextes.
Also würde ich dann das Dachsymbol durch "\n" (Newline = Line Feed) und das Dollar-Symbol "$" durch "\r" (Carriage Return = CR) ersetzen.


Gruß
Quellcore
CPU: (@ 45*100 = 4500 MHz)
Board:
Ram: 16GB (Timings 10-10-10-28 2T @ 1866 MHz)
SSD:
HDD-1: WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
HDD-2: SAMSUNG EcoGreen F4 ST2000DL004 2TB 32MB Cache
Graphic: ATI Radeon HD 5850

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 8.0 / Firefox 34 / Thunderbird 31
Spamihilator 1.6.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1706
Registriert: 8. Mai 2004, 13:03
Wohnort: Long Island / USA
Nach oben

Re: Probleme mit einem Typ von Spam

Beitragvon Quellcore » 6. Mai 2012, 14:52

Hallo highend!

Ich würde einen leicht anderen Ansatz wählen:
Eine neue RegExp für Potenzmittel/Potenzpillen basteln, die auch mit den Verstümmlungen klarkommt.
Da ich ja schon eine im Einsatz habe, muss ich diese nur noch ein wenig (oder auch mehr) tweaken.
Ich melde mich, wenn ich durch bin mit dem Testen.

Gruß
Quellcore
CPU: (@ 45*100 = 4500 MHz)
Board:
Ram: 16GB (Timings 10-10-10-28 2T @ 1866 MHz)
SSD:
HDD-1: WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
HDD-2: SAMSUNG EcoGreen F4 ST2000DL004 2TB 32MB Cache
Graphic: ATI Radeon HD 5850

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 8.0 / Firefox 34 / Thunderbird 31
Spamihilator 1.6.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1706
Registriert: 8. Mai 2004, 13:03
Wohnort: Long Island / USA

Re: Probleme mit einem Typ von Spam

Beitragvon highend » 6. Mai 2012, 15:09

Hallo Quellcore,

danke für deine Anregungen / Korrekturen.

Bei mir schlagen die meisten Filter bei dieser Art von Spam leider nicht an. Weder Standardfilter wie der Lernende (trotz Training), noch der DCC oder der Link-Filter. Den Misnamed betreibe ich bisher nicht, schau ich mir aber auch mal an.

as kann durchaus sein, die Kodierung als Spamkriterium zu nehmen, halte ich persönlich aber für problematisch.

Naja, es ist ja nur einer der drei Kriterien, die in diesem Fall beim Regelfilter zutreffen müssen, damit der Filter überhaupt greift. Natürlich würde ich nicht auf den Gedanken kommen, diese Filter entweder exklusiv, noch "stand-alone" auf die Mails los zu lassen, andernfalls wäre die false-positive Rate vermutlich äußerst übel.

Ich werde meinen Regelfilter mit dem charset + \r \n mal anpassen und schauen ob's dann besser wird.

Leider?!? bekomme ich diese Art von Spam nur etwa 1-2 mal pro Tag, ich muss also immer erst ziemlich lange warten, bis ich den Erfolg / Misserfolg des Filters begutachten kann. Trotzdem nerven diese Mails, weil sie auch bei vielen Bekannten / Freunden durchkommen und die Fragen mich dann immer, wie sie das abstellen können ;)

Ich weiß nicht, ob ein einzelner Regex Filter wirklich erfolgreich sein kann. Der Spamversender nutzt eine Software, die das Muster für die Wörter immer wieder ändert (ich hatte noch keine von diesen E-Mails, in der Wörter exakt gleich gewesen sind). Sie verändern sowohl die Position als auch das ersetzte Zeichen als auch die benutzten Wörter selbst. Da müsste man also nach jeder einzelnen Mail den Filter wieder für ein neues Wort anpassen. Zumindest bei den von mir empfangenen Mails, da nicht bei jeder das Wort Potenzmittel- / pillen drin vorkommt. Weder im Betreff noch im Text der Mail.

Naja, erst mal schauen, wie sich der geänderte Regelfilter jetzt verhält, mit etwas mehr Glück schluckt er dann ja alle.

Gruß,
Highend
highend
Spam-Jäger
Spam-Jäger
 
Beta-Tester
 
Beiträge: 25
Registriert: 30. Apr 2012, 23:55
Nach oben

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 6. Mai 2012, 15:32

Hallo Quellcore!

ich habe jetzt noch einmal meinen Papierkorb kurz durchforstet und muss mich korrigieren. Tatsächlich wurden doch schon mehrere dieser Art in der Vergangenheit durch andere Filter abgefangen. Auch z. B. vom DCC und SpamWort-Filter. Letzter aber wegen anderer Wörter in dieser Mail. Wenn ich den Inhalt bzw. den Betreff vergleiche, kommt auf jeden Fall immer das Wort "Po...pi...en" vor. Eben nur in verschiedenen Varianten. Das ist wohl auch das Problem, warum dann einige eben doch wieder durch die Filter bei mir flutschen.
Ich könnte meine Filter natürlich ein wenig "verschärfen", aber das möchte ich eigentlich nicht. Der DCC hat bei mir extra einen etwas höheren Schwellenwert.
Wäre hier nicht als Möglichkeit der Spamwort-Filter zu sehen? Ich könnte mir vorstellen, dass wir hier damit keine Regel extra mehr brauchen, da wir im Wortfilter ja schon ein ähnliches Wort finden können, was nur noch optimiert werden müsste. Das könnte dann ja schon eine Lösung sein (und/oder eine Erweiterung von Chactory Spampoints-Liste).

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 6. Mai 2012, 15:35

Hallo highend!

Du hattest auch Mails, wo das von mir oben erwähnte Wort (auch in veränderter Form) nicht vorkam? Auch nicht im Betreff? Hm, dann würde meine letzte Überlegung im Bezug zum Wortfilter nicht mehr ganz passen bzw. nur für mich im Augenblick zutreffen. Jetzt muss ich mal darauf achten, ob ich auch andere Mails bekomme, die ohne das Wort bei mir durchgehen. Dann müsste ich vielleicht tatsächlich noch mal an meinen Einstellungen im Spami schrauben.

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Re: Probleme mit einem Typ von Spam

Beitragvon Quellcore » 6. Mai 2012, 16:13

Hallo highend!
eider?!? bekomme ich diese Art von Spam nur etwa 1-2 mal pro Tag, ich muss also immer erst ziemlich lange warten, bis ich den Erfolg / Misserfolg des Filters begutachten kann.

Vor nicht allzu langer Zeit hat Michel eine Testfunktion für Filter eingebaut.
Einziger Haken daran ist, dass diese nur über den Trainingsbereich zu erreichen ist.
Zu testende Mail im Trainingsbereich auswählen >>> In der Menüleiste unter "Datei" die Option "Filter testen ..." auswählen.
Wie gesagt müssen dafür natürlich die zu testenden Mails im Trainingsbereich auftauchen und auch dort verweilen.
Alternative:
kleiner Virtueller POP3Server, wird nicht installiert, Ruckzuck einsatzbereit.
Am Längsten dauert dabei wahrscheinlich das Einrichten eines Testkontos in Deinem Mailprogramm (60 sek. :?: ;-) )



ch weiß nicht, ob ein einzelner Regex Filter wirklich erfolgreich sein kann. Der Spamversender nutzt eine Software, die das Muster für die Wörter immer wieder ändert (ich hatte noch keine von diesen E-Mails, in der Wörter exakt gleich gewesen sind). Sie verändern sowohl die Position als auch das ersetzte Zeichen als auch die benutzten Wörter selbst.

Dafür sind Reguläre Ausdrücke doch wie gemacht, hier noch mal ein Beispiel für die Blaue Pille:

Also mir kommt es so vor, dass ich mit einer geeigneten RegExp fuer das Wort Potenzpille/Potenzmittel den Großteil dieser Mails abdecken könnte.
Ob man diesen Ausdruck dann im Spamwortfilter oder im Regelfilter einsetzt ist dann letztendlich egal.

Gruß
Quellcore
CPU: (@ 45*100 = 4500 MHz)
Board:
Ram: 16GB (Timings 10-10-10-28 2T @ 1866 MHz)
SSD:
HDD-1: WD Caviar® SE16 640 GB, SATA2, 16 MB Cache, 7200 RPM
HDD-2: SAMSUNG EcoGreen F4 ST2000DL004 2TB 32MB Cache
Graphic: ATI Radeon HD 5850

Win 7 Ultimate 64-Bit / ESET NOD32 Antivirus 8.0 / Firefox 34 / Thunderbird 31
Spamihilator 1.6.0
Benutzeravatar
Quellcore
Assistent
Assistent
 
Beta-Tester
 
Beiträge: 1706
Registriert: 8. Mai 2004, 13:03
Wohnort: Long Island / USA
Nach oben

Re: Probleme mit einem Typ von Spam

Beitragvon anbuva » 6. Mai 2012, 16:31

Hallo Quellcore!

eine geeignete Regex dafür wäre toll. Das würde mir und anderen ja schon helfen. Wie der Regex-Ausdruck dann aussehen müsste, wäre ein anderes Problem :wink:

Gruß
anbuva

Benutzeravatar
anbuva
Administrator
Administrator
 
Administration
Beta-Tester
Forum-Team
 
Beiträge: 8403
Registriert: 1. Sep 2004, 12:58
Wohnort: Zuhause

Nächste

Zurück zu Ideen zum Regelfilter

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

 industrious-southeast