Aller au contenu principal

Les chercheurs en informatique au service du fact checking

Une équipe de chercheurs de l’Inria et du laboratoire d’informatique de l’École polytechnique travaille sur un projet de conception d’un logiciel de fact checking. L’objectif : utiliser les bases de données pour fournir aux journalistes un outil de décryptage de contenus.

En 2012, année de campagnes électorales en France et aux États-Unis, la chercheuse Ioana Manolescu découvre le fact checking et réalise alors le potentiel des bases de données pour aider les journalistes dans leur travail de vérification des propos politiques. Au sein de l’Inria, la directrice de recherche travaille sur l’optimisation de la gestion de grands volumes de données complexes via la conception de nouveaux outils. « La société actuelle produit de plus en plus d’informations numériques, constate Ioana Manolescu. Il y a encore quarante ans, l’utilisation des bases de données ne concernait que le domaine bancaire avec les comptes en banque : aujourd’hui, il faut de nouveaux logiciels pour traiter ces nouvelles data ».

Depuis janvier 2016, la chercheuse, qui dirige une équipe commune entre l’Inria et le laboratoire d’informatique (École polytechnique/CNRS), est responsable du projet baptisé « ContentCheck ». Au total, cinq institutions d’enseignement supérieur et de recherche, quatre laboratoires et une équipe de journalistes du quotidien Le Monde appelée « Les décodeurs » sont impliqués dans ce projet financé par l’Agence nationale de la recherche pour une durée de cinq ans. Le but : concevoir des outils capables de fournir, en temps réel, un contexte à une affirmation, à un chiffre ou à un débat politique. Pour cela, « En tant que chercheurs, nous regardons le fact checking comme un problème informatique, indique Ioana Manolescu. D’une part, nous allons mettre à profit des outils d’analyse de texte pour que les propos tenus puissent être compris et analysés, et que les entités qui sont mentionnées soient identifiées. Et d’autre part, nous allons stocker les données dont nous disposons, de même que les propos qui seront tenus au fil du temps ». Ainsi, l’analyse de texte, les bases de données et la sémantique constitueront, ensemble, une chaîne d’analyse qui permettra d’extraire les informations contextuelles les plus pertinentes par rapport à un sujet donné, et cela de la façon la plus rapide et la plus utile possible. « L’idée est de mettre en place une plate-forme très modulaire où chacun pourra utiliser une partie du logiciel pour créer une application selon ses besoins et selon le sujet qui l’intéresse », détaille la directrice de recherche.

Le projet n’en est pour le moment qu’à ses débuts. Mais, déjà, les chercheurs ont pu développer des outils pour aider l’équipe Les décodeurs du Monde à rendre compte de la campagne de la primaire de la droite en 2016. Dans le cadre de « ContentCheck »,  les chercheurs récoltent depuis 2015 les tweets de tout le personnel politique français et les mettent à la disposition des journalistes des Décodeurs. Ces derniers s'en servent pour proposer à leurs lecteurs de visualiser, sous la forme de nuages de mots, les échanges qui ont eu lieu sur Twitter à ce sujet. En parallèle, « Nous constituons une base de données des politiciens français et nous cherchons à lui rajouter une dimension temporelle afin de refléter les changements d'élus à l'Assemblée, les modifications des affiliations des élus à des partis », ajoute Ioana Manolescu. En attendant d’autres résultats prometteurs, la chercheuse imagine utiliser ces méthodes au-delà de la politique, pour suivre par exemple l’évolution d’un concept scientifique tel que les OGM et leurs risques éventuels pour la santé. Et ainsi donner à tous « les clés pour une meilleure compréhension de la société et pour un débat démocratique apaisé » insiste-t-elle.