These Maha Mallek

Maha Mallek, « Classification de relations d’un document textuel non structuré basée sur le contexte ». Thèse en cotutelle entre Aix-Marseille Université et l’Université de la Manouba (ENSI), soutenue le 22 décembre 2023 à Tunis.

Manuscrit

Résumé

La majorité des documents produits et échangés par les médias et les réseaux sociaux sont non structurés. En raison de la quantité de ces documents non structurés sur le Web, leur exploitation représente une tâche fastidieuse voire impossible pour l’être humain sans l’aide d’algorithmes dédiés et de systèmes informatiques spécialisés dans la classification de documents ou l’extraction d’informations. Pour être efficaces et pertinents, ces systèmes doivent comprendre le contenu de ces documents non structurés. Le contexte (ou sujet) d’un document est l’une des informations de base essentielles à la compréhension de son contenu, et plus le contexte d’un document est précis, plus sa compréhension sera pertinente. Cette recherche propose une approche d’identification précise du contexte qui est évaluée quantitativement et qualitativement sur plusieurs corpus de référence et comparée à d’autres systèmes d’identification du contexte. Les contextes identifiés par notre modèle sont beaucoup plus précis que ceux identifiés par ces autres systèmes.classification de documents ou d’extraction d’information. Pour être efficaces et pertinents, ces systèmes doivent comprendre le contenu de ces documents non structurés. Le contexte (ou sujet) d’un document est l’une des informations de base essentielles à la compréhension de son contenu, et plus le contexte d’un document est précis, plus sa compréhension sera pertinente. Cet recherche présente une approche d’identification précise du contexte qui est évaluée quantitativement et qualitativement sur plusieurs corpus de référence et comparée à d’autres systèmes d’identification du contexte. Les contextes identifiés par notre modèle sont beaucoup plus précis que ceux identifiés par ces autres systèmes.

Abstract

The majority of documents produced and exchanged by the media and social networks are unstructured. Due to the amount of unstructured documents on the web, exploiting them is a tedious, if not impossible, task for human beings without the help of dedicated algorithms and computer systems specialised in document classification or information extraction. To be efficient and relevant, these systems need to understand the content of these unstructured documents. The context (or subject) of a document is one of the basic pieces of information essential to understanding its content, and the more precise the context of a document, the more relevant its understanding will be. This research proposes an approach to accurate context identification that is quantitatively and qualitatively evaluated on several reference corpora and compared to other context identification systems. The contexts identified by our model are much more accurate than those identified by these other document classification or information retrieval systems. To be effective and relevant, these systems must understand the content of these unstructured documents. The context (or subject) of a document is one of the basic pieces of information essential to understanding its content, and the more precise the context of a document, the more relevant its understanding will be. This research presents an approach to accurate context identification that is quantitatively and qualitatively evaluated on several reference corpora and compared to other context identification systems. The contexts identified by our model are much more accurate than those identified by these other systems.