Recherche

Thèmes favoris

Notre équipe de chercheurs est passionnée par le Traitement Automatique du Langage Naturel (TALN ou Natural Language Processing en anglais, NLP). L’obsession de l’équipe est de concevoir et développer une Intelligence Artificielle capable de structurer le texte brut qui est généralement le support véhiculant l’information. L’intérêt d’une telle structure est de la rendre accessible et manipulable par l’ordinateur. Aujourd’hui, les industriels et la communauté académique savent “bien” structurer un texte au niveau syntaxique, mais le structurer au niveau sémantique reste un véritable challenge.

Pour obtenir une représentation sémantique d’un texte, plusieurs tâches de NLP doivent être menées à bien. La reconnaissance d’entités nommées, la résolution d’anaphores, l’annotation en rôles sémantiques, l’extraction et l’inférence de relations par exemple. Autant de thèmes qui mobilisent notre équipe à travers de thèses de doctorat, de projets régionaux, nationaux ou encore de projets clients qui apportent des contraintes industrielles d’actualité à nos recherches.

Publications

Technologie RLA

Les chaînes de traitement en Traitement Automatique du Langage Naturel (TALN) sont traditionnellement composées de plusieurs modules qui effectuent des traitements dans un flot d’exécution : les résultats issus d’un module sont communiqués au module suivant. Un frein majeur à ces systèmes est que chaque module est généralement conçu de façon indépendante des autres modules. Par exemple, un module se focalise sur l’analyse syntaxique, un autre sur la reconnaissance d’entités nommées (nom de personnes, nom de lieux, d’organisations, etc.), un autre encore sur la résolution de coréférences (i.e. identifier l’antécédent d’un terme comme dans « Luc mange. Il est heureux. » où « Il » fait référence à « Luc ».

Avec l’avènement du deep learning, les modèles end-to-end sont apparus dans le monde du NLP, c’est-à-dire des modèles réunissant plusieurs tâches (par exemple la reconnaissance d’entités nommées et le liage des entités ou entity linking, cf. Kolitsas et al. 2018). Malheureusement, l’explicabilité de tels modèles est encore difficile à obtenir. L’équipe R&D de Emvista s’intéresse particulièrement à la conception et au développement d’un “modèle” end-to-end hybride, fondé sur un système à la fois de deep learning et symbolique qui apporte le caractère explicable nécessaire dans un contexte industriel.

L’équipe a élaboré le RLA, une technologie capable de faire communiquer les modules de TALN entre eux, de sorte à ce qu’ils s’entraident continuellement lors de l’analyse, avant de fournir un résultat. L’équipe développe ainsi une technologie 100% propriétaire capable de structurer automatiquement tout type de texte tout en assurant l’explicabilité du système et la non nécessité de faire apprendre le système à chaque nouveau projet.

Labos partenaires

Dirigée par Cédric Lopez, l’équipe de recherche de Emvista a tissé depuis plusieurs années de solides relations avec les chercheurs spécialisés en TAL des plus grands laboratoires français : 

  • Le LIRMM, Laboratoire d’Informatique, de Robotique et de Mécanique de Montpellier ;
  • L’IRIT, Institut de Recherche en Informatique de Toulouse ;
  • Le LIG, Laboratoire d’Informatique de Grenoble.