Pour développer des moteurs de recherche, des agents conversationnels ou des bases de connaissance, fondés sur l'Intelligence artificielle, ou améliorer leurs performances, il faut entraîner les algorithmes. Des jeux de données de qualité sont alors nécessaires pour entraîner ces algorithmes.
Il n’existe pas, à ce jour, de jeux de données de questions-réponses ouverts et en français pour entraîner des applications d’IA francophones.
Développer un immense jeu de données de questions-réponses, construit d’emblée (« nativement ») en français, plutôt qu’à partir d’une traduction automatique de datasets anglophones, c’est tout l’enjeu du projet PIAF : Pour des intelligences artificielles francophones.
PIAF repose en partie sur une question scientifique. Il s’agit d’identifier si le fait de disposer de données d’entraînement natives en français apporte une réelle plus-value par rapport à l’usage de données traduites automatiquement.
Pour répondre à cette question, un protocole scientifique a été élaboré, inspiré du projet anglophone « SQuAD » mené à l’université de Stanford. Des modèles d’IA existants seront entraînés sur des bases en français natives (PIAF) et traduites en anglais afin de comparer leur performance.
Comme dans beaucoup de projets d’IA, une phase d’annotation manuelle est nécessaire pour permettre l’apprentissage supervisé.
«Pour constituer le jeu de données natives en français, des extraits d’articles Wikipédia francophone seront « annotés » sur une plateforme. L’annotation consiste ici à formuler une question dont la réponse se trouve dans le paragraphe affiché, et à localiser en regard la réponse dans le texte».
Une première base de 20 000 questions-réponses
La première phase d’annotation vise à constituer une base de 20 000 questions-réponses qui validera ou invalidera l’hypothèse scientifique « les IA de questions-réponses sont-elles plus performantes lorsqu’elles sont entraînées sur des données natives en français ? « En fonction de ces résultats, une phase d’annotation plus large sera ouverte pour atteindre 100 000 questions-réponses et structurer une base de données francophones ouverte».
Une démarche contributive et apprenante
S’inspirant des initiatives de sciences participatives et de projets contributifs comme Common Voice, PIAF fait le pari de la contribution volontaire.
La première étape d’annotation, visant à produire les 20 000 questions-réponses d’évaluation, se construit à travers des « annotathons » (des « sprints d’annotation ») ouverts à tous.
Un premier annotathon test a été organisé le 18 octobre 2019.. Un second se tiendra 19 novembre.
PIAF : un projet contributif pour construire des jeux de données "questions-réponses" pour entraîner les applications d’IA francophones
Pour développer des moteurs de recherche, des agents conversationnels ou des bases de connaissance, fondés sur l'Intelligence artificielle, ou améliorer leurs performances, il faut entraîner les algorithmes. Des jeux de données de qualité sont alors nécessaires pour entraîner ces algorithmes.
Il n’existe pas, à ce jour, de jeux de données de questions-réponses ouverts et en français pour entraîner des applications d’IA francophones.
Développer un immense jeu de données de questions-réponses, construit d’emblée (« nativement ») en français, plutôt qu’à partir d’une traduction automatique de datasets anglophones, c’est tout l’enjeu du projet PIAF : Pour des intelligences artificielles francophones.
PIAF repose en partie sur une question scientifique. Il s’agit d’identifier si le fait de disposer de données d’entraînement natives en français apporte une réelle plus-value par rapport à l’usage de données traduites automatiquement.
Pour répondre à cette question, un protocole scientifique a été élaboré, inspiré du projet anglophone « SQuAD » mené à l’université de Stanford. Des modèles d’IA existants seront entraînés sur des bases en français natives (PIAF) et traduites en anglais afin de comparer leur performance.
Comme dans beaucoup de projets d’IA, une phase d’annotation manuelle est nécessaire pour permettre l’apprentissage supervisé.
«Pour constituer le jeu de données natives en français, des extraits d’articles Wikipédia francophone seront « annotés » sur une plateforme. L’annotation consiste ici à formuler une question dont la réponse se trouve dans le paragraphe affiché, et à localiser en regard la réponse dans le texte».
Une première base de 20 000 questions-réponses
La première phase d’annotation vise à constituer une base de 20 000 questions-réponses qui validera ou invalidera l’hypothèse scientifique « les IA de questions-réponses sont-elles plus performantes lorsqu’elles sont entraînées sur des données natives en français ? « En fonction de ces résultats, une phase d’annotation plus large sera ouverte pour atteindre 100 000 questions-réponses et structurer une base de données francophones ouverte».
Une démarche contributive et apprenante
S’inspirant des initiatives de sciences participatives et de projets contributifs comme Common Voice, PIAF fait le pari de la contribution volontaire.
La première étape d’annotation, visant à produire les 20 000 questions-réponses d’évaluation, se construit à travers des « annotathons » (des « sprints d’annotation ») ouverts à tous.
Un premier annotathon test a été organisé le 18 octobre 2019.. Un second se tiendra 19 novembre.