~~NOTOC~~ ====== Filtrage d’emails et apprentissage automatique ====== Version {{:teaching:20062007:filtragemail.pdf|pdf}} du sujet. ==== Objectif ==== Un des gros problèmes des messageries électroniques est la quantité de mails non désirés (spam) que chacun reçoit chaque jour. Il est donc intéressant de disposer d’outils informatiques capables d’identifier automatiquement la nature spam/non spams d’emails. L’objectif de ce projet est de programmer un algorithme d’apprentissage automatique pour le filtrage d’emails. L’algorithme d’apprentissage qui sera implémenté est un algorithme d’apprentissage en ligne, c’est-à-dire qui s’adapte avec le temps aux informations qui lui sont fournies, proposé dans [1] ([[http://citeseer.ist.psu.edu/629949.html|http://citeseer.ist.psu.edu/629949.html]]). Après avoir implémenté cet algorithme et mesuré son efficacité, des extensions en seront éventuellement proposées et programmées. **Mots-clés :** filtrage d’emails, programmation, apprentissage en ligne. ==== Phases du projet ==== Le projet se découpera selon les phases suivantes : - étude approfondie de la référence bibliographique et programmation de l’algorithme (langage au choix) ; - création d’une base d’emails pour l’apprentissage et codage de ces emails sous la forme de vecteurs « sac de mots » ; - évaluation de la qualité de l’algorithme ; - amélioration de l’algorithme. ====== Contact ====== * encadrant : Liva Ralaivola * adresse : LIF, CMI, 39, rue Joliot-Curie, 13013 Marseille * email : prenom.nom[@]lif.univ-mrs.fr * tél : 04 91 11 35 77 ====== Références ====== [1] K. Crammer, O. Dekel, S. Shalev-Shwartz, and Yoram Singer. Online Passive-Aggressive Algorithms. In Adv. in Neural Information Processing Systems, volume 16, 2004.