Corpus des plateformes de débats 2019

Références

Corpus Véhicule électrique

Sommaire
  1. Tâche de classification (OPINION)
  2. Annotation des arguments
  3. Détection automatique des arguments

I. Tâche de classification (OPINION)

Annotation des classes

Une partie des contributions des plateformes du Grand Débat et du Vrai Débat mentionnant les véhicules électriques ont été annotées en 3 classes d'opinion liée aux véhicules électriques :

  • Pour : 840
  • Contre : 254
  • Neutre : 1324
Total annoté : 2418

Similarité des classes

Les embeddings de chacune des contributions ont été calculés grâce au modèle TensorFlow XLING en-fr. Une comparaison entre la moyenne des embeddings constituant les trois classes donne les similarités suivantes :

Classifieur

A partir des contributions annotées, un corpus de test de 465 contributions (POUR 139, CONTRE 103, NEUTRE 223) est aléatoirement constitué. Un modèle est entraîné pour chaque classe à partir des contributions restantes, selon la méthode précédemment décrite. Chaque contribution test est ensuite comparée à la moyenne des embeddings de chaque classe ; le score de similarité le plus élevé détermine sa classe. Après 5 itérations sur des corpus de test aléatoires, on obtient la matrice de confusion suivante (0 : CONTRE, 1 : POUR, 2 : NEUTRE).

matrice de confusion

A titre de comparaison, une classification aléatoire sur ce même corpus de test donne les résultats suivants (trois itérations).

classification aléatoire

II. Annotation des arguments

Un premier corpus annoté a été constitué à partir des contributions portant sur le véhicule électrique (VE) extraites de la plateforme Entendre la France. A partir de la contribution complète sont délimités :

A chaque énoncé est attribué un "sentiment" lié au VE : pour (1), contre (-1) et balancé (0). Cet étiquetage ne dépend pas de données linguistiques et peut être déterminé de façon implicite. Les arguments reçoivent également une annotation selon leur polarité : ils peuvent être considérés positifs (en faveur du VE) ou négatifs (en défaveur). Lorsque les arguments sont des énoncés conditionnels, ils sont annotés avec une polarité nulle.

Ce système d'annotation est basé sur l'analyse de GAUTHIER, 2010 (voir encadré) : Le propre d’une proposition, ainsi que nous l’avons définie comme constituant d’un argument, consiste en un point de vue sur un sujet controversé. L’argumentation est essentiellement de nature polémique. Par définition, elle a trait au débat : on n’argumente que sur ce qui est en dispute. Ce qui fait objet d’argumentation ne donne ainsi pas lieu à une considération consensuelle mais à la confrontation de divergences. L’argumentation ne se déploie que dans un champ d’affrontement d’arguments. Par conséquent, un argument n’est jamais autonome ; il ne peut être défini comme tel qu’à titre de dénégation d’un ou d’autres arguments. Ontologiquement, un argument n’est toujours qu’un contre-argument à un argument divergent qui lui-même n’acquiert une nature argumentative que parce qu’il est opposé au premier.

Fichier XML des annotations ELF
Fichier XML des annotations GDN / VD

III. Détection automatique des arguments