 | Nachdem unterschiedliche Versuche dem ungewollten Gästebuch Spam Herr zu werden keinen oder nur für bestimmte Zeit Erfolg zeigten setzen wir nun seit März 2007 auf einen Bayesscher Filter zur Textkategorisierung. | Implementiert wurde hier kein eigener Filter, sondern Tobias Leupold's b8 (früher bayes-php). Wie die meisten Bayesschen Filter, ist auch dieser selbstlernend. Vor Inbetriebnahme, musste dem Filter beigebracht werden welche Wörter als erwünscht beziehungsweise unerwünscht (Spam) eingestuft werden soll.
Nach einer Trainingsphase, welche 250 Spam Einträge und 50 "normale" Einträge umfasste, ging der Filter in Betrieb. Zu diesem Zeitpunkt umfasste der Wortschatz des Filters bereits 9.827 Wörter. Innerhalb der nächsten 5 Tage erweiterte sich der Wortschatz durch eine Autolearn-Funktion um weitere 1800 Wörter.
Um anderen Gästebüchern die Einlernphase zu erleichtern stellen wir hier einen MySQL Dump des Wortschatzes zur Verfügung: |