Filtre antispam par analyse statistique bayésienne (**)Sujet proposé par Didier RémyDidier.Remy[at]inria.fr |
Résumé: Le projet consiste à réaliser un programme qui permet de filtrer les spams parmi les courriers arrivant en utilisant une analyse statistique bayésienne. Le programme utilise deux corpus, l'un constitué de spams et l'autre constitué de «bons» courriers, qui pourront être augmentés incrémentalement, permettant ainsi une forme d'apprentissage. Dans un premier temps, le programme digère les deux corpus pour fabriquer une base de données attribuant des probabilités à certains événements élémentaires. La base de données est ensuite utilisée pour calculer à l'arrivée d'un nouveau courrier la probabilité pour que celui-ci soit un spam.
p = | ⎧ ⎪ ⎨ ⎪ ⎩ |
|
programme db add ( -spam | -good | mailbox )* programme db mark mailbox*où programme est le nom donné au programme. Le premier argument db est le nom de la base de donnée des corpus «digérés». Si la base de donnée désignée par db n'existe pas, elle est créée vide. Le second argument indique le mode (add pour l'ajout dans le corpus de nouveaux courriers et mark pour l'interrogation).
Ce document a été traduit de LATEX par HEVEA