Publications

Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD

Références

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Jean Bort and Philippe Garnier (2019) Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD, Revue des Nouvelles Technologies de l’Information, RNTI-E-35, p. 81-92 (présenté à Metz à la conférence EGC’19).

Résumé de l'article

La reconnaissance des entités nommées (REN) consiste à repérer des éléments textuels et à les classer dans des catégories prédéfinies (noms de personnes, d’organisations, de marques, d’équipes sportives, etc.). La REN est souvent considérée comme l’une des briques de fondation des systèmes visant à structurer un texte tout-venant. Dans cet article, nous décrivons notre système symbolique de REN qui se caractérise par 1) l’utilisation de ressources dictionnairiques limitées et 2) la prise en compte de résultats provenant d’autres briques telles que la résolution de coréférences et l’extraction de relations. Le système est basé sur la sortie d’un analyseur syntaxique en dépendances qui adopte un flot d’exécution itératif intégrant des résultats d’autres briques d’analyse. À chaque itération, des catégories candidates sont générées et sont toutes prises en compte dans les itérations suivantes. L’intérêt d’un tel système est de sélectionner définitivement le meilleur candidat uniquement à la fin du traitement afin de tenir compte de l’ensemble des éléments fournis par les différentes briques. Le système est comparé à des systèmes académiques et industriels.

Ressources

Wikipedia-ner : Télécharger

Corpus développé par Emvista pour la reconnaissance d’entités nommées. Ce corpus a été construit à partir de résumés d’articles Wikipedia. Il est composé de 587 résumés et de 3 125 entités nommées annotées avec l’encodage BIO et les concepts de l’ontologie NERD. Voir la publication associée pour plus de détails. Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

Le tour du monde en quatre-vingts jours, de Jules Verne, 1872 : Télécharger

Ce corpus a été initialement annoté et diffusé au format XML par le LIFAT avec 12 types d’entités nommées annotées (personne, organisation, lieu, place, vaisseau, bâtiment, oronyme, …). Avec l’accord du LIFAT, nous proposons une nouvelle version de ce corpus au format CSV avec projection des types sur l’ontologie NERD (lieu, personne, organisation, produit, …). 6076 tokens sont annotés avec cette ontologie. Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.