Présidentielles

Titre : Paysage politique français à partir de l’analyse d’article de presse et de méthodes d’analyse factorielle
Encadrant : Liva Ralaivola
Effectifs : 3 étudiants
Résumé : L’actualité politique française, dominée par l’arrivée toute prochaine des élections présidentielles et législatives, constitue une part très importante du contenu des principaux organes de presses (en ligne). Dans ce projet informatique, nous allons nous intéresser à la possibilité de dresser le paysage politique de la France en utilisant des méthodes d’analyse telles que l’analyse en composantes principales à noyaux, et surtout, l’analyse canonique des corrélations à noyaux. Nous nous interrogerons notamment sur la pertinence des clivages (e.g. gauche/droite) éventuellement mis en exergue par l’analyse statistique des textes obtenus de divers journaux en ligne. Des questions concernant les vocabulaires utilisés par les différents journaux pour décrire les candidats, la proximité politique entre des candidats, les valeurs “PageRank” de ces derniers seront abordées.

Ce travail de TER est proche de celui effectué par Jean Véronis sur les présidentielles également. Les outils que l’on propose d’utilier dans ce projet sont légèrement différents.

Mots-clés: analyse de textes, représentation vectorielle de textes, analyse canonique des corrélations, noyaux, algèbre linéaire (un tout petit peu).

Etapes du projet

Le projet se découpera en plusieurs étapes :

  1. programmation d’un outil pour récupérer des articles complets de différents journaux;
  2. programmation d’un module de transformation des textes en vecteurs (après parsing des balises);
  3. en parallèle des tâches précédentes, lecture de deux articles sur les méthodes à noyaux d’analyse en composantes principales et analyse canonique des corrélations (références à venir);
  4. programmation des méthodes (avec un langage approprié, la programmation des algorithmes doit prendre moins d’un après-midi);
  5. application de ces algorithmes à différentes analyses, définies par les étudiants et visualisation de ces analyses en 2 dimensions;
  6. rédaction du rapport.