Master "Sciences de l'Information et des Systèmes" - M2 Recherche
MASTER SCIENCES DE L'INFORMATION ET DES SYSTEMES
Option D - Systèmes d'information et de connaissance
2017-2018

MODULE RI5 : ONTOLOGIES, WEB SEMANTIQUE ET FOUILLE DE TEXTES

Responsable du module : Bernard ESPINASSE
Intervenant(s) du module : Bernard ESPINASSE (BE), Sébastien FOURNIER (SF), Adrian CHIFU (AC), Gael GUIBON (GG)

Durée du module  : 15 heures

PRESENTATION DU COURS

Face à la quantité croissante d’informations disponibles tant sur le Web que dans les bibliothèques numériques, le développement de systèmes de fouille de texte efficaces et robustes sont de plus en plus nécessaires. Pour cela de tels systèmes peuvent d’une part exploiter des ressources sémantiques externes comme des ontologies, de plus en plus disponibles dans le contexte du Web sémantique, et d’autre part, mettre en œuvre des techniques d’apprentissage automatique adaptées. Dans un premier temps, ce cours définit ce qu’est une ontologie, introduit le Web sémantique et les différents langages de représentation des connaissances qui lui sont associés (Frames, RDF, RDFS, SPARQL, OWL, SWRL …). Ensuite, après un rapide rappel des techniques de base du traitement automatique des langues (TAL), sont définies les principales tâches associées à la fouille de textes. Puis on s’intéresse à différentes méthodes et techniques de fouille utilisant des représentations spécifiques des textes, et mettant en œuvre différentes techniques relevant de l’apprentissage automatique, qu’il soit statistique, relationnel ou profond.

PROGRAMME

(Séances de 3 heures)

Séance 1 : B. Espinasse
Présentation du cours
Introduction aux ontologies
•    Définition de la notion d’ontologie
•    Types et exemples d’ontologies
•    Grands modèles informatiques d’ontologies
•    Développement d’ontologies
Introduction au Web sémantique
•    Du Web au Web Sémantique
•    Architecture du Web Sémantique
•    Langages du Web Sémantique
•    Niveaux Nommage et adressage : URI, URL
•    Niveau syntaxique : XML
•    Niveaux Sémantique : Ontologies, OWL
Supports:
    Introduction aux Ontologies
    Introduction au Web Sémantique

Séance 2 : S. Fournier
RDF : un modèle de données pour décrire des ressources du Web du W3C
•    Rappel sur XML
•    Rappel sur la notion de méta données
•    Présentation du modèle de données RDF
•    Les différentes syntaxes du modèle RDF (N-triples, Notation 3, RDF/XML)
•    Conteneurs, collection, réification dans RDF
Supports: contacter Sébastien Fournier (sebastien.fournier@lsis.org)

Séance 3 : S. Fournier
RDF-Schéma (RDFS) : extension de RDF aux hiérarchies de classes et de propriétés
•    De RDF à RDFS
•    Définition des hiérarchies de classes et de propriétés
SPARQL : un langage d’interrogation RDF
•    De SQL à SPARQL
Supports: contacter Sébastien Fournier (sebastien.fournier@lsis.org)

Séance 4 : B. Espinasse
Rappel sur les logiques de description
Le langage OWL (OntologyWeb Language) du W3C
•    De logiques de description à OWL1: syntaxes et sémantiques
•    Les prolifs de OWL1: OWL1 lite et OWL1 DL, et OWL-Full
•    Traduction d’une ontologie en OWL-DL et RDFS/XML
De OWL1 à OWL2
•    Les Profils de OWL2: OWL2-EL, OWL2-QL et OWL2-RL
•    OWL-DL et langages de règles
SWRL (Semantic Web Rule Language) du W3C
Supports:
    Logique de description
    OWL1
    OWL2
    SWRL

Séance 5 : A. Chifu
Introduction à la fouille de textes (Text Mining)
•    Introduction au Traitement Automatique des Langues (TAL) : niveaux lexical, syntaxique et sémantique, POS, lemmatisation
•    Grandes tâches de la fouille de textes : extraction d’entités nommées, de relations, résumé automatique, etc.
•    Ressources sémantiques pour la fouille de textes (ex. : WordNet)
•    Représentation statistique de textes : Word Embedding (ex. : word2vec, glove)
•    Application du TAL dans la Recherche d’Information (RI) : désambiguïsation de requêtes pour réordonnancèrent de documents retrouvés

Séance 6 : B. Espinasse
Fouille de texte et apprentissage relationnel
•    Introduction à l’apprentissage relationnel
•    Apprentissage relationnel et logique : la programmation logique inductive (PLI)
•    Apprentissage relationnel et statistique : la programmation logique inductive probabiliste (PLIP)
•    Exemple de fouille de texte avec apprentissage relationnel logique : extraction de relations en utilisant des ontologies et la PLI: le système système OntoILPER
     ILP
     PILP
     OntoILPER

Séance 7 : A. Chifu
Fouille de texte et apprentissage statistique
•    Introduction à l’apprentissage statistique : supervisé vs. non supervisé
•    De l’usage de l’apprentissage statistique en fouille de textes
•    Exemples (clustering de documents, polarité de sentiments, système de recherche d’information sélective basé sur la classification de la difficulté des requêtes)

Séance 8 : G. Guibon & S. Fournier
Fouille de texte et apprentissage profond
•    Introduction à l’apprentissage profond
•    De l’usage de l’apprentissage profond en fouille de textes
•    Exemples : extraction de relation dans un texte.

Séance 9 : lundi 15 janvier 14h-17h / A. Chifu, S. Fournier, G. Guibon, B. Espinasse
Présentation d’articles de recherche par les étudiants et discussion (1)

Séance 10 : Mardi 16 janvier 14h-17h / A. Chifu, S. Fournier, G. Guibon, B. Espinasse
Présentation d’articles de recherche par les étudiants et discussion (2)


BIBLIOGRAPHIE :

•    Antoniou G., Frank van Harmelen, A Semantic Web Primer, The MIT Press Cambridge, Massachusetts London, England, 1999.
•    Baader F., W. Nutt, Basic Description Logics, In the Description Logic Handbook, edited by F. Baader, D. Calvanese, D.L. McGuinness, D. Nardi, P.F. Patel-Schneider, Cambridge University Press, 2002.
•    Berners-Lee T., J, Hendler, Ora Lassila, The Semantic Web, Scientific American, 2001.
•    Breitman K.K., Casanova M.A., Truszkowski W., Semantic Web: Concepts, Technologies and Application, Springer, 2007.
•    Chen K., Corrado G.S., Dean J., Mikolov T., Efficient Estimation of Word Representations in Vector Space. CoRR, 2013.
•    Chifu A.-G., Hristea F., Mothe J., Popescu M., Word Sense Discrimination in Information Retrieval: A Spectral Clustering-based Approach, Information Processing & Management, Elsevier, Vol. 51, p. 16-31, 2015.
•    De Raedt L. Logical and Relational Learning. Cognitive Technologies. Springer, 2008.
•    Gasevic D., D. Djuric, V. Devedzic, Model Driven Architecture and Ontology Development, Springer, 2006, ISBN : 3-540-32180-2.
•    Getoor L., Taskar B., Introduction to Statistical Relational Learning, The MIT Press Cambridge, Massachusetts London, England, 2007.
•    Goldberg Y. Neural Network Methods for Natural Language Processing, Morgan & Claypool Publishers, 2017.
•    Jiang J., Information Extraction from Text, in C.C. Aggarwal and C.X. Zhai (eds), Mining Text data, Chap. 2, pp. 11-41, 2012.
•    Lavrac N., Dzeroski S. (1994). Inductive Logic Programming: Techniques and Applications. Ellis Horwood, New York.
•    Luczak (Ed), Adding Meaning to the Web : A Guide to the Semantic Web, Leading Edge Forum Technology Grant, 2004.
•    Manning C., Schütze H., Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: 1999.
•    Muggleton S. and De Raedt L. Inductive logic programming: Theory and methods. Journal of Logic Programming, 19/20:629–679, 1994.
•    Nédellec C., Nazarenko A., and Bossy R., Information Extraction, In S. Staab and R. Studer (eds.), Handbook on Ontologies, International Handbooks on Information Systems, DOI 10.1007/978-3-540-92673-3. 2009.
•    Noy N.F., D. L. McGuinness, Développement d’une ontologie 101 : Guide pour la création de votre première ontologie, Université de Stanford, Stanford, CA, 94305 Traduit de l’anglais par Anila Angjeli, BnF, Bureau de normalisation documentaire.
•    Sharman R., R. Kishore, R. Ramesh, Ontologies : A Handbook of Principles, Concepts and Applications in Information Systems, Springer, 2007 – ISBN : 0-387-37019-6