Publications

Technologies sémantiques et accès à l’information dans le prescrit SNCF

Références

Coralie Reutenauer, Luce Lefeuvre, Aurélie Fouqueray, Thibault Prouteau, Valentin Pelloin, Nathalie Camelin, Nicolas Dugué, Cédric Lopez, Frédérique Segond, Didier Bourigault (2020) Technologies sémantiques et accès à l’information dans le prescrit SNCF, 22e Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ22, à paraître.

Résumé de l'article

Des expérimentations basées sur des technologies de traitement automatique du langage ont été menées au sein d’un programme de sécurité ferroviaire et de simplification documentaire afin d’améliorer la recherche d’information et la rédaction dans les textes de prescription SNCF.

Extraction de tâches dans les e-mails : une approche fondée sur les rôles sémantiques

Références

Melissa Mekaoui, Guillaume Tisserant, Mathieu Dodard, Cédric Lopez (2020), Extraction de tâches dans les e-mails : une approche fondée sur les rôles sémantiques, EGC’2020, p. 193-204.

 

Résumé de l'article

Il est estimé qu’en 2019 environ 1,4 milliard d’e-mails sont envoyés chaque jour en France (293 milliards dans le monde). Les e-mails augmentent sensiblement le volume des communications dans les entreprises. Il en découle une difficulté pour les salariés à consulter la totalité des messages reçus afin d’identifier les tâches à mener. À la fin des années 1990, les premiers systèmes visant à repérer les tâches dans les e-mails ont fait leur apparition. De nombreux travaux ont été réalisés à ce sujet (toujours d’actualité) fondés sur des méthodes d’apprentissage, des méthodes symboliques, et des méthodes hybrides. Deux approches sont communément adoptées : 1) classification d’actes de langages au niveau du message dans son intégralité ou de ses segments textuels, 2) extraction d’informations fondée sur des patrons morphosyntaxiques. Nous proposons et expérimentons une nouvelle approche fondée sur les rôles sémantiques afin de repérer les tâches dans les e-mails et de les structurer. L’évaluation de notre système sur des e-mails professionnels montre la pertinence notre proposition.

Vers une résolution des relations anaphoriques dans la communication électronique médiée

Références

Hani Guenoune, Cédric Lopez, Guillaume Tisserant, Mathieu Lafourcade, and Melissa Mekaoui (2019) Vers une résolution des relations anaphoriques dans la communication électronique médiée, Actes du colloque Jeunes Chercheurs PRAXILING, p. 139-150

Résumé de l'article

La tâche de résolution des coréférences consiste à identifier toutes les unités linguistiques faisant référence aux mêmes entités, propriétés ou situations du monde réel. Dans la démarche d’acquérir de la connaissance à partir de données textuelles non structurées, il s’agit d’un maillon essentiel aux chaînes d’analyse automatique du langage naturel. L’efficacité des systèmes de résolution automatique dépend directement des ressources utilisées et du caractère rédactionnel du texte auquel ils s’appliquent. Après un sommaire des travaux existants, cet article présentera les enjeux d’une résolution automatique des anaphores dans un contexte de communication électronique en introduisant les verrous susceptibles d’être rencontrés et les pistes envisageables pour les résoudre.

Recursive Named Entity Recognition

Références

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Guillaume Tisserant, Hani Guenoune, Mathieu Dodard, Jean Bort and Philippe Garnier (2020) Recursive Named Entity Recognition, Advances in Knowledge Discovery and Management, à paraître.

 

Résumé de l'article

Named entity recognition (NER) seeks to locate and classify named entities into predefined categories (persons, organizations, brandnames, sports teams, etc.). NER is often considered as one of the main modules designed to structure a text. We describe our system which is characterized by 1) the use of limited resources, and 2) the embedding of results from other modules such as coreference resolution and relation extraction. The system is based on the output of a dependency parser that adopts an iterative execution flow that embeds results from other modules. At each iteration, candidate categories are generated and are all considered in subsequent iterations. The main advantage of such a system is to select the best candidate only at the end of the process, taking into account all the elements provided by the different modules. Another advantage is that the system does not need a large amount of resources. The system is compared to state-of-the-art academic and industrial systems and obtains the best results.

A French text-message corpus : 88milSMS. Synthesis and usage.

Références

Rachel Panckhurst, Cédric Lopez, Mathieu Roche (2020), A French text-message corpus : 88milSMS. Synthesis and usage. In “Corpus complexes Traitements, standardisation et analyse des corpus de communication médiée par les réseaux”, CORPUS, 21, to appear.

 

Résumé de l'article

In this article, firstly we briefly summarise the sud4science project and data collection (http://sud4science.org), ensuing processing/analysing stages, and the resulting corpus, 88milSMS (http://88milsms.huma-num.fr), through a synthesis of quotes and references to previous articles (§ 1). Secondly, we provide a state of the art on some research initiatives that use 88milSMS in various domains and frameworks, which will enable future cross-disciplinary insight (§ 2). Then, we present other usages of the 88milSMS corpus we identified through surveys (§ 3). Finally, we suggest future paths for textual data collection and analysis.

Detecting Influencial Users in Social Networks: Analysing Graph-Based and Linguistic Perspectives

Références

Kévin Deturck, Namrata Patel, Pierre-Alain Avouac, Cédric Lopez, Damien Nouvel, Ioannis Partalas and Frédérique Segond (2019) Detecting influencial users in social networks: Analysing graph-based and linguistic perspectives, Artificial Intelligence for Knowledge Management, p. 113-131.

Résumé de l'article

The detection of influencers has met with increasing interest in the artificial intelligence community in recent years for its utility in singling out pertinent users within a large network of social media users. This could be useful, for example in commercial campaigns, to promote a product or a brand to a relevant target set of users. This task is performed either by analysing the graphical representation of user interactions in a social network or by measuring the impact of the linguistic content of user messages in online discussions. We independently explore both ways in the present paper with a hybridisation perspective. We extract structural information to highlight influence among interaction networks and identify linguistic traits of influential behaviours. We then compute a score of user influence using centrality measures with the structural information and a machine learning approach with the linguistic features.

Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD

Références

Cédric Lopez, Melissa Mekaoui, Kevin Aubry, Jean Bort and Philippe Garnier (2019) Reconnaissance d’entités nommées itérative sur une structure en dépendances syntaxiques avec l’ontologie NERD, Revue des Nouvelles Technologies de l’Information, RNTI-E-35, p. 81-92 (présenté à Metz à la conférence EGC’19).

Résumé de l'article

La reconnaissance des entités nommées (REN) consiste à repérer des éléments textuels et à les classer dans des catégories prédéfinies (noms de personnes, d’organisations, de marques, d’équipes sportives, etc.). La REN est souvent considérée comme l’une des briques de fondation des systèmes visant à structurer un texte tout-venant. Dans cet article, nous décrivons notre système symbolique de REN qui se caractérise par 1) l’utilisation de ressources dictionnairiques limitées et 2) la prise en compte de résultats provenant d’autres briques telles que la résolution de coréférences et l’extraction de relations. Le système est basé sur la sortie d’un analyseur syntaxique en dépendances qui adopte un flot d’exécution itératif intégrant des résultats d’autres briques d’analyse. À chaque itération, des catégories candidates sont générées et sont toutes prises en compte dans les itérations suivantes. L’intérêt d’un tel système est de sélectionner définitivement le meilleur candidat uniquement à la fin du traitement afin de tenir compte de l’ensemble des éléments fournis par les différentes briques. Le système est comparé à des systèmes académiques et industriels.

Ressources

Wikipedia-ner : Télécharger

Corpus développé par Emvista pour la reconnaissance d’entités nommées. Ce corpus a été construit à partir de résumés d’articles Wikipedia. Il est composé de 587 résumés et de 3 125 entités nommées annotées avec l’encodage BIO et les concepts de l’ontologie NERD. Voir la publication associée pour plus de détails. Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

Le tour du monde en quatre-vingts jours, de Jules Verne, 1872 : Télécharger

Ce corpus a été initialement annoté et diffusé au format XML par le LIFAT avec 12 types d’entités nommées annotées (personne, organisation, lieu, place, vaisseau, bâtiment, oronyme, …). Avec l’accord du LIFAT, nous proposons une nouvelle version de ce corpus au format CSV avec projection des types sur l’ontologie NERD (lieu, personne, organisation, produit, …). 6076 tokens sont annotés avec cette ontologie. Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

SMILK, trait d’union entre langue naturelle et données sur le web

Références

Cédric Lopez, Molka Tounsi Dhouib, Elena Cabrio, Catherine Faron-Zucker, Fabien Gandon, Frédérique Segond (2018) SMILK, trait d’union entre langue naturelle et données sur le web, Revue d’Intelligence Artificielle, vol. 32/3, p. 287-312

Résumé de l'article

Le laboratoire commun SMILK avait pour double sujet d’étude l’utilisation du traitement automatique du langage naturel pour aider à la construction et au liage de données sur le web et, à l’inverse, l’utilisation de ces données liées du web sémantique pour aider à l’analyse des textes et venir en appui de l’extraction de connaissances et l’annotation de contenus textuels. L’évaluation de nos travaux s’est focalisée sur la recherche d’informations portant sur des marques, plus particulièrement dans le domaine de la cosmétique. Cet article décrit chaque étape de notre approche : la conception de ProVoc, une ontologie pour décrire les produits et marques ; le peuplement automatique d’une base de connaissances reposant notamment sur ProVoc à partir de ressources textuelles hétérogènes; et l’évaluation d’une application prenant la forme d’un plugin de navigateur proposant des connaissances supplémentaires aux utilisateurs naviguant sur le web.