Depuis le 7 octobre 2016, l’ouverture des données est devenue la règle pour l’ensemble des acteurs investis d’une mission de service public disposant de plus de 50 agents et pour les territoires de plus de 3500 habitants. « Si la loi impose un principe d’ouverture généralisée, chaque territoire publie les données selon ses compétences, son patrimoine de données et ses pratiques », observe Data Publica dans un dossier très complet consacré à la standardisation des données ouvertes.
Ce cahier présente un état des lieux très complet de la standardisation des données ouvertes : il porte une attention particulière aux défis liés à la conception et à la réutilisation des données ouvertes dans les collectivités territoriales.
Après avoir rappelé l’importance croissante de la standardisation dans l’informatique, mis en relief le travail considérable de standardisation qui sous-tend la production de statistiques, les auteurs du cahier retracent les nombreuses initiatives en faveur de la standardisation des données ouvertes. Ils reviennent en détail sur des cas de standards sectoriels (les données de mobilité, notamment), pointent les défis de la conception de standards (enjeux de la concertation, la difficulté de choisir le « bon » format), puis ceux de la production des données standardisées (standardiser des données déjà publiées, accompagner la production de nouvelles données), avant de s’interroger, en conclusion, sur les alternatives à la standardisation.
Des données ouvertes différentes d’un territoire à l’autre
« D’un producteur à l’autre, les fichiers ne contiennent pas nécessairement les mêmes champs ou ne donnent pas le même niveau de détail », observent les auteurs de ce cahier. « Les valeurs dans les champs eux-mêmes ne sont pas normalisées ».
Les données ne sont pas nommées de la même manière selon les territoires. « En plus des différences de terminologie entre collectivités, il existe plus généralement un décalage (un vocabulary mismatch) entre les producteurs, qui publient des documents avec leur propre vocabulaire, et des utilisateurs formulant leur besoin avec un autre ».
« Concrètement, ces enjeux de découvrabilité et de normalisation des données limitent l’impact de l’open data. Sans harmonisation des pratiques, il est très compliqué de construire des services ou des usages qui dépassent un seul territoire ». Les auteurs du cahier prennent comme exemple l’application Handimap, qui propose des itinéraires accessibles aux personnes à mobilité réduite en tenant compte des trottoirs surbaissés, elle a ainsi été entravée dans son développement par l’absence de normalisation des données sur l’accessibilité de la voirie. Chaque nouvelle instance locale de l’application nécessitait un développement conséquent pour s’adapter aux données du territoire.
Les standards permettent à différents outils numériques de communiquer pour construire un tout cohérent au service d’un ou plusieurs objectifs. La standardisation des données pourrait ainsi réduire les frictions « en facilitant la découverte de données similaires ouvertes dans différents territoires et en permettant de consolider les données produites localement dans une base nationale exploitable facilement ».
Référence :
Standardiser les données grâce à des schémas
« La standardisation des données ouvertes s’articule autour de schémas. Ces derniers sont des standards lisibles par des machines, des conventions qui décrivent les champs et les valeurs admises dans un jeu de données conforme à ses préconisations. C’est donc en s’y conformant que nous produisons des jeux de données standardisés. Compréhensibles par les machines, les schémas sont réexploités dans des formulaires et des interfaces à destination des humains ».
Dans la lignée du monde de la statistique, dont la comparabilité des indicateurs repose sur leur standardisation, celui de l’information géographique et environnementale a engagé des travaux avancés sur la standardisation depuis 2007. La directive INSPIRE proposait ainsi des dispositions relatives à l’interopérabilité des données géographiques et environnementales passant par la standardisation des métadonnées mais aussi des données elles-mêmes. En France, le Conseil National de l’information géolocalisée (CNIG) est le principal concepteur de standards de données géographiques (généralement des standards réglementaires). En 2022, l’ancienne commission « données » est d’ailleurs rebaptisée commission « standards », attestant de la place importante tenue par la conception de géostandards dans les activités du CNIG.
Au-delà des données géographiques, la France connaît depuis peu un regain d’intérêt et un foisonnement d’initiatives sur la question de la standardisation.
Les schémas de données encadrant la production et la réutilisation de données, notamment par les collectivités territoriales, sont de plus en plus nombreux.
Depuis 2018, l’association OpenDataFrance, qui fédère les collectivités engagées dans une démarche d’ouverture des données, développe le Socle Commun des Données Locales (SCDL) pour homogénéiser la publication en open data de données essentielles produites par des acteurs territoriaux, aider les producteurs à améliorer la qualité des données qu’ils publient et faciliter l’exploitation des données publiées par les réutilisateurs.
Huit jeux de données préalablement sélectionnés comme prioritaires ont ainsi fait l’objet d’une démarche de standardisation et ce socle est en train de s’étendre.
Le SCDL a aussi impulsé une dynamique dans l’administration d’État avec le lancement en juin 2019 de schema.data.gouv.fr, qui référence les standards français qui ont été adoptés par voie réglementaire ou conçus par la communauté des producteurs et réutilisateurs de données. Le site référence également des schémas en cours d’investigation et de construction.
Référence :
Schema.data.gouv.fr : produire collaborativement des schémas pour homogénéiser les données
À l’été 2022, près de cinquante schémas de données sont référencés, dont une dizaine en investigation. La documentation proposée sur le site permet aux producteurs de données de s’approprier ces schémas et donc de produire des jeux de données les respectant.
Suite à la circulaire du Premier ministre du 27 avril 2021, relative à la politique publique de la donnée, des algorithmes et des codes sources, 15 feuilles de route ministérielles ont été publiées le 27 septembre 2021.
La feuille de route du ministère de la Cohésion des territoires se donne l’objectif « d'encourager l’ouverture de données selon des référentiels partagés est un gage de qualité qui, à terme, facilitera l’interopérabilité, voire l’émergence de solutions ouvertes. En collaboration avec les associations de collectivités, des territoires pionniers à différentes échelles, ainsi que des éditeurs de solutions numériques équipant les collectivités, il s’agit de converger et de promouvoir les meilleures pratiques de normalisation » (Action 15).
Référence :