Alaeddine Moussa, « Etiquetage de rôles spatiaux par apprentissage profond basé sur une représentation vectorielle enrichie ». Thèse en cotutelle entre Aix-Marseille Université et l’Université de la Manouba (ENSI), Tunisie, soutenue le 5 décembre 2023 à Tunis.
Résumé
L’une des fonctions essentielles du langage naturel concerne l’évocation de relations spatiales entre objets. Des constructions linguistiques peuvent notamment exprimer des relations spatiales entre objets ainsi que des modèles de mouvement de ces objets dans l’espace. La compréhension de ces énoncés spatiaux est un problème majeur dans de nombreux domaines, comme la robotique, la navigation, la gestion du trafic et les systèmes de réponse aux requêtes. L’étiquetage des rôles spatiaux (Spatial Role Labelling – SpRL en anglais), propose des schémas d’annotation indépendant de la langue consistant en un ensemble de rôles spatiaux dans le but de couvrir tous les aspects des concepts spatiaux notamment les relations spatiales statiques et dynamiques. La plupart des systèmes automatiques de SpRL permettant d’extraire automatiquement les rôles spatiaux d’un texte sont des systèmes basés sur des méthodes d’apprentissage traditionnelles, principalement statistiques. Dans le cadre de cette thèse nous à l’extraction automatiquement de ces rôles spatiaux par l’apprentissage profond (Deep Learning). Après un état de l’art sur d’étiquetage automatique de rôles spatiaux (SpRL), les systèmes automatique SpRL existants, et les corpus de références permettant de les évaluer, nous proposons plusieurs systèmes SpRL à base d’apprentissage profond que nous évaluons sur ces corpus de références et comparons leurs performances avec celles d’autres systèmes existants. Le premier système proposé s’appuie sur une représentation vectorielle du texte à analyser en utilisant des vecteurs de mots avec des balises POS et des représentations au niveau des caractères basées sur CNN et enfin un modèle d’apprentissage profond BiLSTM-CRF pour identifier les rôles spatiaux. Le deuxième système proposé utilise une représentation vectorielle du texte obtenu par un plongement de mots spécifique, alternatif au modèle sac de mots appliqué aux plongements de mots classique et permettant de prendre en compte la syntaxe du texte dans la représentation vectorielle. Le dernier système adopte une approche basée sur les « Transformer » mettant en œuvre un mécanisme d’attention permettant de tenir compte de la combinaison de tous les mots du contexte, en pondérant chacun d’entre eux. Les modèles de plongement de mots obtenus permettent de créer des modèles « contextualisés » notamment avec BERT (Bidirectional Encoder Representations from Transformers) capables de produire des représentations de mots qui dépendent du contexte.
Abstract
One of the essential functions of natural language concerns the evocation of spatial relations between objects. In particular, linguistic constructs can express spatial relationships between objects as well as patterns of movement of these objects in space. Understanding these spatial statements is a major problem in many domains, such as robotics, navigation, traffic management, and query response systems. Spatial Role Labeling (SpRL) provides language-independent annotation schemes consisting of a set of spatial roles in order to cover all aspects of spatial concepts including static and dynamic spatial relationships. Most automatic SpRL systems that automatically extract spatial roles from a text are systems based on traditional, mainly statistical, learning methods. In this thesis, we focus on the automatic extraction of these spatial roles using Deep Learning. After a state of the art on automatic Spatial Role Labeling (SpRL), existing automatic SpRL systems, and reference corpora allowing to evaluate them, we propose several deep learning based SpRL systems that we evaluate on these reference corpora and compare their performances with those of other existing systems. The first proposed system relies on a vector representation of the text to be analyzed using word vectors with POS tags and character-level representations based on CNN and finally a BiLSTM-CRF deep learning model to identify spatial roles. The second proposed system uses a vector representation of the text obtained by a specific word embedding, as an alternative to the bag-of-words model applied to classical word embeddings and allowing to take into account the syntax of the text in the vector representation. The last system adopts a « Transformer » based approach implementing an attention mechanism allowing to take into account the combination of all the words in the context, by weighting each of them. The resulting word embedding models allow the creation of « contextualized » models, in particular with BERT (Bidirectional Encoder Representations from Transformers) capable of producing context-dependent word representations.