These Rinaldo Lima

Rinaldo Lima, « OntoILPER: An Ontology and Inductive Logic Programming-based Method to Extract Instances of Entities and relations from Texts » (defended in 2014).

Manuscrit

La thèse de Rinaldo Lima (soutenue en 2014), en collaboration avec l’université Fédérale du Pernambuco (UFPE), porte sur l’extraction supervisée d’entités nommées (NER) et de relations entre ces entités. Nous avons proposé une méthode supervisée pour extraire des instances d’entités et de relations de corpus textuels basé sur la programmation logique inductive (une technique d’apprentissage machine symbolique) et exploitant des ressources sémantiques, notamment des ontologies. Cette méthode proposée s’appuie aussi sur un espace d’hypothèse relationnelle très expressif, sous la forme de prédicats logiques conduisant à une représentation du contenu des documents sous la forme d’un graphe permettant également l’exploitation d’une ontologie de domaine et de connaissances complementaires notamment lexicale, syntaxique, sémantique et relationnelles. A partir de cette représentation un prototype nommé OntoILPER a été développé mettant en oeuvre la programmation logique inductive (PLI) et induisant automatiquement des règles symboliques d’extraction d’information (entités et relations binaires) en Prolog traduites ensuite en SWRL.  Ces règles sont ensuite appliquées sur des documents qui n’ont pas servi à l’apprentissage et permettent de peupler (populer) l’ontologie de domaine. Les résultats obtenus par OntoILPER sur des corpus de références ont démontré son efficacité, tant en extration d’entités nommées que de relations binaires entre ces entités, par rapport à d’autres systèmes mettant en oeuvre des techniques d’extraction statistiques.

The Rinaldo Lima thesis (defended in 2014), in collaboration with the Federal University of Pernambuco (UFPE), concerns supervised named entity recognition (NER) and relationships extraction (RE) between these entities . We have proposed a method to extract supervised entity instances and text corpora relationships based on inductive logic programming (a learning technique symbolic machine) and exploiting semantic resources such as ontologies. The proposed method is also based on a very expressive space relational hypothesis in the form of predicate logic leading to a representation of the content of the documents in the form of a graph also allows the operation of a domain ontology of particular lexical complementary knowledge, syntactic, semantic and relational. From this representation a prototype named OntoILPER was developed utilizing inductive logic programming (ILP) and automatically inducing symbolic information extraction rules (binary entities and relations) in Prolog then translated into SWRL. These rules are then applied on documents that were not used to learning and enable people (populate) the domain ontology. The results obtained by OntoILPER on corpora of references have demonstrated efficacy in both extration named entity as binary relations between these entities, compared to other systems by implementing statistical extraction techniques.