Matériel de cours

  • Tour d’horizon web mining: pdf
  • Analyse d’hyperliens (HITS, PageRank): pdf
  • Séance de TP du 12/01/07: pdf
  • Séances de TP du 2/02/07: base de textes (maj 3/02/07), énoncé
  • Analyse sémantique latente (12/02/07): .pdf
  • Nouvelles bases de textes :
    • filtered.tgz : textes filtrés en fonction du contenu du titre de l’article et du contenu du résumé. Les meilleurs résultats d’analyse devraient être obtenus avec ces fichiers.
    • newtextes.tgz : textes semblables (mais plus à jour que la base de textes textes.tgz mais avec une structure de répertoire ayant un niveau de moins (avec des sous-répertoire ayant un nom comme <candidat>_<journal> au lieu de <candidat>/<journal>). Cette nouvelle architecture permet de mieux visualiser les relations journaux/candidats/positionnemens.