PIAF : un projet contributif pour construire des jeux de données “questions-réponses” pour entraîner les applications d’IA francophones

Publié par Mission Société Numérique
Outils 31.10.2019
Expériences 11.09.2018

Cobot : une plateforme d’intérêt général pour entraîner l’intelligence artificielle sur des jeux d’images  

Pour développer des moteurs de recherche, des agents conversationnels ou des bases de connaissance, fondés sur l’Intelligence artificielle, ou améliorer leurs performances, il faut entraîner les algorithmes. Des jeux de données de qualité sont alors nécessaires pour entraîner ces algorithmes.

Il n’existe pas, à ce jour, de jeux de données de questions-réponses ouverts et en français  pour entraîner des applications d’IA francophones.

Développer un immense jeu de données de questions-réponses, construit d’emblée (« nativement ») en français, plutôt qu’à partir d’une traduction automatique de datasets anglophones, c’est tout l’enjeu du projet PIAF : Pour des intelligences artificielles francophones.

PIAF repose en partie sur une question scientifique. Il s’agit d’identifier si le fait de disposer de données d’entraînement natives en français apporte une réelle plus-value par rapport à l’usage de données traduites automatiquement.

Pour répondre à cette question, un protocole scientifique a été élaboré, inspiré du projet anglophone « SQuAD » mené à l’université de Stanford. Des modèles d’IA existants seront entraînés sur des bases en français natives (PIAF) et traduites en anglais afin de comparer leur performance.

Comme dans beaucoup de projets d’IA, une phase d’annotation manuelle est nécessaire pour permettre l’apprentissage supervisé.

«Pour constituer le jeu de données natives en français, des extraits d’articles Wikipédia francophone seront « annotés » sur une plateforme. L’annotation consiste ici à formuler une question dont la réponse se trouve dans le paragraphe affiché, et à localiser en regard la réponse dans le texte».

Une première base de 20 000 questions-réponses

La première phase d’annotation vise à constituer une base de 20 000 questions-réponses qui validera ou invalidera l’hypothèse scientifique « les IA de questions-réponses sont-elles plus performantes lorsqu’elles sont entraînées sur des données natives en français ? « En fonction de ces résultats, une phase d’annotation plus large sera ouverte pour atteindre 100 000 questions-réponses et structurer une base de données francophones ouverte».

Une démarche contributive et apprenante

S’inspirant des initiatives de sciences participatives et de projets contributifs comme Common Voice, PIAF fait le pari de la contribution volontaire.

La première étape d’annotation, visant à produire les 20 000 questions-réponses d’évaluation, se construit à travers des « annotathons » (des « sprints d’annotation ») ouverts à tous.

Un premier annotathon test a été organisé le 18 octobre 2019.. Un second se tiendra 19 novembre.

Expériences 11.09.2018

Cobot : une plateforme d’intérêt général pour entraîner l’intelligence artificielle sur des jeux d’images  

Reconnaître la forme d’un toit pour calculer le potentiel d’énergie solaire ou des photos de faune pour protéger la biodiversité, faciliter la publication massive de données ouvertes grâce au floutage automatique des visages … Le potentiel de l’application de l’intelligence artificielle à la reconnaissance d’images est immense pour l’administration publique.

Mission Société Numérique

La Mission Société Numérique est une mission d’appui aux collectivités et aux acteurs de proximité sur les questions liées au numérique. Elle met en œuvre un programme d’actions pour favoriser l’autonomie et la capacité de tous à saisir les opportunités du numérique et favoriser le développement numérique des territoires. Elle pilote les plans “Numérique Inclusif” et “Tiers-Lieux” du Gouvernement.

Commentaires

  1. PIAF : un projet contributif pour construire des jeux de données “questions-réponses” pour entraîner les applications d’IA francophones - TNTIC 31.10.2019