Publications

Classification de questions en langage naturel par le type sémantique des réponses attendues

Références

Théo Oriol, Mathieu Dodard, Kévin Cousot, Melissa Mekaoui, Hani Guenoune, Jean Bort, Antoine Nguyen, Thibaud Sanchez, Philippe Garnier, Cédric Lopez (2021) Classification de questions en langage naturel par le type sémantique des réponses attendues, Actes de la conférence EGC’21, Montpellier.

Résumé de l'article

Les systèmes de question-réponse (QA, Question Answering) sont traditionnellement constitués des trois tâches suivantes :

1) Analyse de la question,

2) Analyse de l’ensemble documentaire contenant les réponses,

3) Recherche et extraction des réponses.

Dans cette dernière décennie, les systèmes de QA à base d’apprentissage prennent la forme d’un modèle end-to-end. Par conséquent, les trois étapes ne sont plus explicitement représentées. Il en résulte que les systèmes de QA à base d’apprentissage les plus récents commettent de nombreuses erreurs dès lors que la réponse n’est pas dans le texte ou qu’un raisonnement est nécessaire. En particulier, le type sémantique de la réponse attendue (TSA) peut être incohérent avec le type sémantique de la réponse retournée. Dans cet article, nous nous focalisons sur la tâche d’identification du TSA.  Dans un premier temps, nous proposons une taxonomie pour représenter les TSA. Dans un second temps, nous décrivons des systèmes à base de règles et à base d’apprentissage (notamment avec CamemBERT)  développés à partir du corpus de questions-réponses français FQUAD. L’évaluation est réalisée sur le corpus de questions-réponses français PIAF.