Publications

C’est le titre de la boite

Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD

Référence

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Jean Bort and Philippe Garnier (2019) Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD, Revue des Nouvelles Technologies de l’Information, RNTI-E-35, p. 81-92 (présenté à Metz à la conférence EGC’19).


Résumé de l’article

La reconnaissance des entités nommées (REN) consiste à repérer des éléments textuels et à les classer dans des catégories prédéfinies (noms de personnes, d’organisations, de marques, d’équipes sportives, etc.). La REN est souvent considérée comme l’une des briques de fondation des systèmes visant à structurer un texte tout-venant. Dans cet article, nous décrivons notre système symbolique de REN qui se caractérise par 1) l’utilisation de ressources dictionnairiques limitées et 2) la prise en compte de résultats provenant d’autres briques telles que la résolution de coréférences et l’extraction de relations. Le système est basé sur la sortie d’un analyseur syntaxique en dépendances qui adopte un flot d’exécution itératif intégrant des résultats d’autres briques d’analyse. À chaque itération, des catégories candidates sont générées et sont toutes prises en compte dans les itérations suivantes. L’intérêt d’un tel système est de sélectionner définitivement le meilleur candidat uniquement à la fin du traitement afin de tenir compte de l’ensemble des éléments fournis par les différentes briques. Le système est comparé à des systèmes académiques et industriels.


Ressources

Wikipedia-ner : Télécharger

Corpus développé par Emvista pour la reconnaissance d’entités nommées. Ce corpus a été construit à partir de résumés d’articles Wikipedia. Il est composé de 587 résumés et de 3 125 entités nommées annotées avec l’encodage BIO et les concepts de l’ontologie NERD. Voir la publication associée pour plus de détails.
Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

Le tour du monde en quatre-vingts jours, de Jules Verne, 1872 : Télécharger

Ce corpus a été initialement annoté et diffusé au format XML par le LIFAT avec 12 types d’entités nommées annotées (personne, organisation, lieu, place, vaisseau, bâtiment, oronyme, …). Avec l’accord du LIFAT, nous proposons une nouvelle version de ce corpus au format CSV avec projection des types sur l’ontologie NERD (lieu, personne, organisation, produit, …). 6076 tokens sont annotés avec cette ontologie.
Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

C’est le titre de la boite

SMILK, trait d’union entre langue naturelle et données sur le web

Référence

Cédric Lopez, Molka Tounsi Dhouib, Elena Cabrio, Catherine Faron-Zucker, Fabien Gandon, Frédérique Segond (2018) SMILK, trait d’union entre langue naturelle et données sur le web, Revue d’Intelligence Artificielle, vol. 32/3, p. 287-312


Résumé de l’article

Le laboratoire commun SMILK avait pour double sujet d’étude l’utilisation du traitement automatique du langage naturel pour aider à la construction et au liage de données sur le web et, à l’inverse, l’utilisation de ces données liées du web sémantique pour aider à l’analyse des textes et venir en appui de l’extraction de connaissances et l’annotation de contenus textuels. L’évaluation de nos travaux s’est focalisée sur la recherche d’informations portant sur des marques, plus particulièrement dans le domaine de la cosmétique. Cet article décrit chaque étape de notre approche : la conception de ProVoc, une ontologie pour décrire les produits et marques ; le peuplement automatique d’une base de connaissances reposant notamment sur ProVoc à partir de ressources textuelles hétérogènes; et l’évaluation d’une application prenant la forme d’un plugin de navigateur proposant des connaissances supplémentaires aux utilisateurs naviguant sur le web.