Durée du module : 15 heures
PRESENTATION DU COURS
Face à la quantité croissante d’informations disponibles tant sur le Web
que dans les bibliothèques numériques, le développement de systèmes de
fouille de texte efficaces et robustes sont de plus en plus nécessaires. Pour
cela de tels systèmes peuvent d’une part exploiter des ressources
sémantiques externes comme des ontologies, de plus en plus disponibles dans le
contexte du Web sémantique, et d’autre part, mettre en œuvre des techniques
d’apprentissage automatique adaptées. Dans un premier temps, ce cours
définit ce qu’est une ontologie, introduit le Web sémantique et les
différents langages de représentation des connaissances qui lui sont
associés (Frames, RDF, RDFS, SPARQL, OWL, SWRL …). Ensuite, après un rapide
rappel des techniques de base du traitement automatique des langues (TAL), sont
définies les principales tâches associées à la fouille de textes. Puis on
s’intéresse à différentes méthodes et techniques de fouille utilisant des
représentations spécifiques des textes, et mettant en œuvre différentes
techniques relevant de l’apprentissage automatique, qu’il soit statistique,
relationnel ou profond.
PROGRAMME
(Séances de 3 heures)
Séance 1 : B. Espinasse
Présentation du cours
Introduction aux ontologies
• Définition de la notion d’ontologie
• Types et exemples d’ontologies
• Grands modèles informatiques d’ontologies
• Développement d’ontologies
Introduction au Web sémantique
• Du Web au Web Sémantique
• Architecture du Web Sémantique
• Langages du Web Sémantique
• Niveaux Nommage et adressage : URI, URL
• Niveau syntaxique : XML
• Niveaux Sémantique : Ontologies, OWL
Supports:
Introduction aux
Ontologies
Introduction au Web
Sémantique
Séance 2 : S. Fournier
RDF : un modèle de données pour
décrire des ressources du Web du W3C
• Rappel sur XML
• Rappel sur la notion de méta données
• Présentation du modèle de données RDF
• Les différentes syntaxes du modèle RDF (N-triples, Notation 3,
RDF/XML)
• Conteneurs, collection, réification dans RDF
Supports: contacter Sébastien Fournier (sebastien.fournier@lsis.org)
Séance 3 : S. Fournier
RDF-Schéma (RDFS) : extension de RDF
aux hiérarchies de classes et de propriétés
• De RDF à RDFS
• Définition des hiérarchies de classes et de propriétés
SPARQL : un langage d’interrogation RDF
• De SQL à SPARQL
Supports: contacter Sébastien Fournier (sebastien.fournier@lsis.org)
Séance 4 : B. Espinasse
Rappel sur les logiques de
description
Le langage OWL (OntologyWeb Language)
du W3C
• De logiques de description à OWL1: syntaxes et sémantiques
• Les prolifs de OWL1: OWL1 lite et OWL1 DL, et OWL-Full
• Traduction d’une ontologie en OWL-DL et RDFS/XML
De OWL1 à OWL2
• Les Profils de OWL2: OWL2-EL, OWL2-QL et OWL2-RL
• OWL-DL et langages de règles
SWRL (Semantic Web Rule Language) du
W3C
Supports:
Logique de
description
OWL1
OWL2
SWRL
Séance 5 : A. Chifu
Introduction à la fouille de textes
(Text Mining)
• Introduction au Traitement Automatique des Langues (TAL) : niveaux
lexical, syntaxique et sémantique, POS, lemmatisation
• Grandes tâches de la fouille de textes : extraction d’entités
nommées, de relations, résumé automatique, etc.
• Ressources sémantiques pour la fouille de textes (ex. : WordNet)
• Représentation statistique de textes : Word Embedding (ex. :
word2vec, glove)
• Application du TAL dans la Recherche d’Information (RI) :
désambiguïsation de requêtes pour réordonnancèrent de documents
retrouvés
Séance 6 : B. Espinasse
Fouille de texte et apprentissage
relationnel
• Introduction à l’apprentissage relationnel
• Apprentissage relationnel et logique : la programmation logique
inductive (PLI)
• Apprentissage relationnel et statistique : la programmation logique
inductive probabiliste (PLIP)
• Exemple de fouille de texte avec apprentissage relationnel logique :
extraction de relations en utilisant des ontologies et la PLI: le système
système OntoILPER
ILP
PILP
OntoILPER
Séance 7 : A. Chifu
Fouille de texte et apprentissage
statistique
• Introduction à l’apprentissage statistique : supervisé vs. non
supervisé
• De l’usage de l’apprentissage statistique en fouille de textes
• Exemples (clustering de documents, polarité de sentiments, système
de recherche d’information sélective basé sur la classification de la
difficulté des requêtes)
Séance 8 : G. Guibon & S. Fournier
Fouille de texte et apprentissage
profond
• Introduction à l’apprentissage profond
• De l’usage de l’apprentissage profond en fouille de textes
• Exemples : extraction de relation dans un texte.
Séance 9 : lundi 15 janvier 14h-17h / A. Chifu, S. Fournier, G. Guibon, B.
Espinasse
Présentation d’articles de
recherche par les étudiants et discussion (1)
Séance 10 : Mardi 16 janvier 14h-17h / A. Chifu, S. Fournier, G. Guibon, B.
Espinasse
Présentation d’articles de
recherche par les étudiants et discussion (2)
BIBLIOGRAPHIE :
• Antoniou G., Frank van Harmelen, A Semantic Web Primer, The MIT Press
Cambridge, Massachusetts London, England, 1999.
• Baader F., W. Nutt, Basic Description Logics, In the Description
Logic Handbook, edited by F. Baader, D. Calvanese, D.L. McGuinness, D. Nardi,
P.F. Patel-Schneider, Cambridge University Press, 2002.
• Berners-Lee T., J, Hendler, Ora Lassila, The Semantic Web, Scientific
American, 2001.
• Breitman K.K., Casanova M.A., Truszkowski W., Semantic Web: Concepts,
Technologies and Application, Springer, 2007.
• Chen K., Corrado G.S., Dean J., Mikolov T., Efficient Estimation of
Word Representations in Vector Space. CoRR, 2013.
• Chifu A.-G., Hristea F., Mothe J., Popescu M., Word Sense
Discrimination in Information Retrieval: A Spectral Clustering-based Approach,
Information Processing & Management, Elsevier, Vol. 51, p. 16-31, 2015.
• De Raedt L. Logical and Relational Learning. Cognitive Technologies.
Springer, 2008.
• Gasevic D., D. Djuric, V. Devedzic, Model Driven Architecture and
Ontology Development, Springer, 2006, ISBN : 3-540-32180-2.
• Getoor L., Taskar B., Introduction to Statistical Relational
Learning, The MIT Press Cambridge, Massachusetts London, England, 2007.
• Goldberg Y. Neural Network Methods for Natural Language Processing,
Morgan & Claypool Publishers, 2017.
• Jiang J., Information Extraction from Text, in C.C. Aggarwal and C.X.
Zhai (eds), Mining Text data, Chap. 2, pp. 11-41, 2012.
• Lavrac N., Dzeroski S. (1994). Inductive Logic Programming:
Techniques and Applications. Ellis Horwood, New York.
• Luczak (Ed), Adding Meaning to the Web : A Guide to the Semantic Web,
Leading Edge Forum Technology Grant, 2004.
• Manning C., Schütze H., Foundations of Statistical Natural Language
Processing, MIT Press. Cambridge, MA: 1999.
• Muggleton S. and De Raedt L. Inductive logic programming: Theory and
methods. Journal of Logic Programming, 19/20:629–679, 1994.
• Nédellec C., Nazarenko A., and Bossy R., Information Extraction, In
S. Staab and R. Studer (eds.), Handbook on Ontologies, International Handbooks
on Information Systems, DOI 10.1007/978-3-540-92673-3. 2009.
• Noy N.F., D. L. McGuinness, Développement d’une ontologie 101 :
Guide pour la création de votre première ontologie, Université de Stanford,
Stanford, CA, 94305 Traduit de l’anglais par Anila Angjeli, BnF, Bureau de
normalisation documentaire.
• Sharman R., R. Kishore, R. Ramesh, Ontologies : A Handbook of
Principles, Concepts and Applications in Information Systems, Springer, 2007
– ISBN : 0-387-37019-6