Une dynamique bien lancée
Plusieurs initiatives ont vu le jour, au cours des 18 derniers mois, autour de l'ouverture des données publiques :
- la mise en œuvre des feuilles de route ministérielles sur la politique de la donnée ;
- un tableau de suivi permet désormais de suivre l’ouverture de nouveau jeux de données, algorithmes, codes sources et API publics ;
- la refonte du portail data.gouv.fr ;
- la création d’un « datalab » au sein de la Direction interministérielle du Numérique (DINUM) qui permettra d’accélérer les projets data grâce à une aide matérielle, technique, humaine et juridique ;
- l'ouverture d’un guichet de financement pour cofinancer des projets autour de la donnée dans les ministères ;
- la mise en place à l'Insee d'un catalogue de données, qui met à disposition des fonctions de recherche et de consultation variées.
Cette dynamique d'ouverture des données publiques met en lumière, toutefois, des enjeux de découvrabilité et de standardisation.
Découvrabilité : comment identifier facilement les jeux de données pertinents ? Pour faciliter les recherches de données, le département Etalab, qui anime la plateforme data.gouv.fr, réalise, avec la coopération des producteurs de données, un travail de recensement le plus complet possible des bases et jeux de données existants sur certaines thématiques clefs.
Qu'il s'agisse de simplifier l'accès aux données dans un domaine spécifique, autour d'une politique publique, ou d'organiser un écosystéme sectoriel de données, on voit émerger des plateformes et des portails qui rassemblent les données ouvertes autour de thématiques comme les données de recherche, avec le portail Recherche.Data.Gouv.fr, la cartographie (avec le projet Cartes.gouv.fr), la transition écologique, avec le projet Ecosphere(s), les informations et statistiques locales (avec Open Collectivités) ou les données territoriales sur le marché du travail (avec Data Emploi).
Standardisation : l'usage de formats ouverts ne suffit pas à assurer une large réutilisation des données. Il faut aussi que les jeux de données soient standardisés. Malgré les initiatives de l’État (comme schema.gouv.fr), d’OpenDataFrance (Socle commun des données locales) ou du Conseil national de l'information géolocalisée, la standardisation des données ouvertes est loin d’être la norme. Chaque territoire s’appuie sur des spécificités et une sémantique propre, ce qui entrave l’interopérabilité non pas au sein des systèmes et des infrastructures mais entre eux.
La Commission européenne, pour sa part, donne une nouvelle impulsion à l’ouverture des données publiques avec un règlement qui liste les six catégories de « données (ensemble de données à forte valeur) » que les acteurs du secteur public devront mettre gratuitement à disposition et qui précise les modalités de leur diffusion.
Références :
La France en tête en Europe pour l’ouverture des données publiques
L’année 2023 s’est conclue sur une double reconnaissance pour la politique d’ouverture des données française, avec une 1e place européenne au classement de l’Open Data Maturity Report (pour la 3e année consécutive) et une 2e place au niveau mondial attribuée par l’OCDE dans son OURdata Index.
Les deux rapports ont vocation à évaluer les efforts déployés par les pays étudiés et à documenter leurs progrès dans le domaine de l’open data. L’Open Data Maturity Report examine 4 dimensions :
- La politique publique (politiques et stratégies en matière de données ouvertes, modèles de gouvernance, mesures mises en œuvre, etc.) ;
- Le portail national (fonctionnalités, activités d’analyse des besoins et des comportements des usagers, catalogue, etc.) ;
- La qualité des données (collecte et qualité des métadonnées, conformité avec la norme de métadonnées DCAT-AP, etc.) ;
- L’impact (suivi des réutilisations, observation et mesure de l’impact politique, social, économique et environnemental, etc.).
Référence :
Data.gouv.fr : 47 000 jeux de données et 153,4 millions de ressources téléchargées
47 000 jeux de données sont disponibles sur Data.gouv.fr, la plateforme nationale de données ouvertes, provenant de 4 900 organisations.
Data.gouv.fr a enregistré en un an 54,2 millions de visites (entre décembre 2022 et décembre 2023). Les 112 900 utilisateurs de la plateforme ont téléchargé 153,4 millions de ressources. Data.gouv.fr fait état de 3,7 millions de réutilisations.
Des jeux de données très attendus ont été publiés en 2022 et 2023 :
- Les indices de position sociale (IPS) dans les écoles, les collèges et les lycées, qui permettent d’appréhender le statut social des élèves à partir des professions et catégories sociales de leurs parents (Ministère de l’éducation nationale et de la jeunesse) ;
- Le registre d’immatriculation des copropriétés, qui fournit des données techniques et juridiques sur les copropriétés (Agence nationale de l’habitat) ;
- La base de données nationale des bâtiments (BDNB), qui cartographie et qualifie les bâtiments existants (résidentiels et tertiaires) (Centre scientifique et technique du bâtiment) ;
- La carte des loyers, qui contient des indicateurs de loyers d’annonces, à l’échelle de la commune (Ministère de la transition écologique) ;
- Les bureaux de vote et adresses de leurs électeurs, par l’Insee ;
- Les données des élections agrégées ;
- « Carte des loyers » - Indicateurs de loyers d’annonce par commune en 2023.
Météo-France met à disposition gratuitement, à partir du 1er janvier 2024, l’ensemble de ses données publiques. A cette occasion a aussi été lancée la plateforme thématique meteo.data.gouv.fr, dont l’objectif est de créer un socle pour référencer, héberger et diffuser les données publiques météorologiques produites par Météo-France.
Références :
Qui sont les usagers de Data.gouv.fr ?
L’enquête réalisée auprès de ses usager.e.s par data.gouv.fr permet d’esquisser le profil actuel de la communauté de data.gouv.fr :
- 26 % affirment avoir des compétences avancées en traitement de données ;
- 38 % considèrent disposer d’un niveau intermédiaire ;
- 25 % s’identifient comme novices ;
- 7 % déclarent n’avoir aucune compétence.
Concernant l’usage de la plateforme :
- 60 % des répondant.e.s se rendent sur data.gouv.fr pour télécharger et exploiter des données ;
- 30 % pour chercher rapidement une information (bien que data.gouv.fr soit une plateforme de données brutes et non d’informations) ;
- 10 % pour publier des données ou consulter l’activité sur leurs jeux de données.
Référence :
Refonte de data.gouv.fr
Face aux difficultés rencontrées par les usager.e.s à trouver une donnée lors d’une recherche, l’équipe de data.gouv.fr a entrepris une refonte complète du moteur de recherche et de l’expérience de recherche en général.
Pour faciliter les recherches de données, elle réalise, avec la coopération des producteurs de données, un travail de recensement le plus complet possible des bases et jeux de données existants sur certaines thématiques clefs comme les données relatives au logement, à l'emploi ou les données relatives à la santé.
Référence :
1 062 collectivités territoriales engagées dans l’ouverture des données publiques
Depuis octobre 2018, toutes les collectivités territoriales de plus de 3 500 habitant.e.s (et de 50 agents en équivalent temps plein) ont l’obligation de publier leurs données « par défaut ». Cette obligation répond à la fois à des objectifs de transparence vis-à-vis des citoyen.ne.s, d’efficacité de l’action publique et de développement économique. Cinq ans après, si 40 % des collectivités connaissent bien cette obligation (qui n’est assortie d’aucune sanction), moins de 16 % d’entre elles la respectent.
Ce pourcentage progresse toutefois. En 2022, 168 collectivités nouvelles ont rejoint le mouvement.
Selon l’Observatoire open data des territoires, en 2022, 1 062 collectivités publient des données en open data, soit une progression de 19 % en un an pour l’ensemble des collectivités : toutes les régions, 92 % des métropoles, 65 % des villes de plus de 100 000 habitants ou 64 % des départements. Mais seulement 10 % des communes et des EPCI de moins de 100 000 habitants.
Référence :
60 % de la population réside dans une commune ou un EPCI engagé dans une démarche d’ouverture.
59 % des collectivités publient leurs données sur un portail et 36% sur le Géoportail.
Dans les collectivités les plus en pointe, les portails changent progressivement de nature. Les espaces de téléchargement de données du début, parfois arides et peu communicants, laissent la place à de véritables sites éditorialisés. Des informations et de nombreuses « data visualisations » sont organisées à l’attention des citoyen.ne.s (qui disposent toujours de la possibilité de télécharger les données). Des espaces sont réservés aux développeur.euse.s ou aux partenaires qui souhaitent se connecter en temps réel à différentes sources de données.
43 % des collectivités ont opté pour la licence ouverte.
L’Observatoire open data des territoire apporte des indications détaillées sur la gouvernance des 171 plateformes territoriales (mutualisées ou dédiées), sur la fréquence de mise à jour des jeux de données publiés, sur les retards dans la mise à jour des données.
Des portails et des plateformes thématiques pour découvrir et tirer parti des données ouvertes
- Recherche Data Gouv : un portail pour les données de recherche. Le ministère de l'Enseignement supérieur et de la Recherche a inauguré en juillet 2022 le portail Recherche Data Gouv, un écosystème au service du partage et de l’ouverture des données de recherche.
- Cartes.gouv.fr : le futur service public des cartes et données du territoire. A l’occasion de Numérique en Commun[s] 2023, qui se tenait à Bordeaux les 19 et 20 octobre, l’IGN (Institut national de l'information géographique et forestière) a annoncé l’ouverture prochaine du site cartes.gouv.fr. Cartes.gouv.fr contiendra d’abord des cartes et données publiques librement accessibles sur de nombreux thèmes (topographie, écologie, sécurité, foncier, réglementations…) et proposera aussi des services qui vont s’enrichir pour permettre à chacun de créer, héberger, contribuer, partager, visualiser et publier des données et des cartes en autonomie. Cartes.gouv.fr s’appuie sur une nouvelle infrastructure ouverte et collaborative, la Géoplateforme. Le futur service public des cartes et données du territoire.
- Ecosphère(s) pour développer l'écosystème de la donnée de la transition écologique. Le Ministère de la Transition Écologique ouvrira prochainement “Ecosphères”, la plateforme d’accès aux données produites par le pôle ministériel et mis en œuvre par l’équipe Ecolab, au sein du Commissariat général du développement durable. Ecospheres entend apporter une réponse aux conclusions des études récentes qui ont montré la complexité de la recherche de données due notamment à leur multiplicité, leur duplication, aux outils nombreux, à l’absence d’actualisation. Ecosphère(s) prend la forme d'un portail data thématique conçu dans le même esprit que transport.data.gouv.fr dans le domaine de la mobilité. Il s'appuie sur l'infrastructure et les outils de data.gouv.fr permettant de trier, d'extraire et de prévisualiser les données ou encore d'en évaluer la qualité. Ce portail n'héberge pas directement les données mais "moissonne" les métadonnées des bases de données environnementales ouvertes des administrations déconcentrées, d'agences de l'État et d'opérateurs. Le répertorie déjà plus de 27 000 jeux de données.
- Meteo.data pour centraliser les données sur la météo et le climat. La plateforme meteo.data.gouv.fr centralise des données téléchargeables et utilisables de manière libre et gratuite sur la météo et le climat. On y trouve des données climatologiques sur les stations de métropole et outre-mer ainsi que les données « mémoire du climat » qui permettent de constater les effets déjà observés du changement climatique. La plateforme s'enrichira progressivement de nouvelles données comme celles les données d’observation mesurées par les stations météorologiques, les alertes météorologiques, les données radar ou les modèles de données de prévision météorologique numérique (PNT).
- Open Collectivités pour simplifier l’accès aux informations et statistiques locales. Les informations statistiques relatives aux collectivités locales sont diffusées par de nombreux acteurs de la sphère institutionnelle. La dissémination de ces informations les rend peu visibles pour les utilisateurs. La diversité des formats – pages HTML, documents PDF, bases de données - les rend peu lisibles. Les statisticiens de la Direction Générale des Collectivités Locales (DGCL) ont développé, à cette fin, un portail, Open collectivités, qui centralise «les études, statistiques et outils locaux utiles aux prises de décision, aux recherches ou au débat public ». Le portail Open Collectivité s’adresse aux agents publics issus de collectivités locales, départements de statistique publique ou d’administrations centrales et à la société civile : citoyen.ne.s, journalistes, chercheur.euse.s.
- Data Emploi, un outil pour décrypter le marché du travail sur chaque territoire. Pôle emploi a ouvert au public le portail Data Emploi qui agrège toutes les données disponibles de suivi du marché du travail, à jour, sur l’ensemble du territoire, bassin d’emploi par bassin d’emploi. Cet outil présente, grâce à des cartes interactives, de multiples indicateurs portant sur le marché du travail sur un territoire donné, tels que la dynamique de l’emploi sur le territoire, les secteurs qui recrutent le plus, le nombre de demandeurs d’emploi ou les types de contrats signés. Ces informations sont issues de la base de données de Pôle emploi (que l’opérateur, en lien permanent avec les acteurs économiques du territoire, agrège au quotidien) mais également de quelques données externes (Insee, Dares, etc.).
Références :
Comment standardiser les données ouvertes ?
Si la loi impose un principe d’ouverture généralisée, chaque service de l'Etat, chaque territoire publie les données selon ses compétences, son patrimoine de données et ses pratiques.
« D’un producteur à l’autre, les fichiers ne contiennent pas nécessairement les mêmes champs ou ne donnent pas le même niveau de détail », , observe Data Publica dans un dossier très complet consacré à la standardisation des données ouvertes. Les données, en outre, ne sont pas nommées de la même manière selon les territoires. Sur la cyclabilité par exemple, il faudra alternativement chercher « aménagements cyclables » ou « pistes cyclables » et on retrouvera rarement le mot clef « vélo » dans les descriptions des jeux de données alors que le terme vient spontanément sur le sujet. Au delà des différences de terminologie entre collectivités, il existe plus généralement un décalage (un vocabulary mismatch) entre les producteurs, qui publient des documents avec leur propre vocabulaire, et des utilisateurs formulant leur besoin avec un autre.
Depuis 2018, l’association OpenDataFrance, qui fédère les collectivités engagées dans une démarche d’ouverture des données, développe le Socle Commun des Données Locales (SCDL) pour homogénéiser la publication en open data de données essentielles produites par des acteurs territoriaux, aider les producteurs à améliorer la qualité des données qu’ils publient. Huit jeux de données préalablement sélectionnés comme prioritaires ont ainsi fait l’objet d’une démarche de standardisation.
Le Socle Commun des Données Locales a impulsé une dynamique dans l’administration d’État avec le lancement en juin 2019 de schema.data.gouv.fr, qui référence les standards français qui ont été adoptés par voie réglementaire ou conçus par la communauté des producteurs et réutilisateurs de données.
Les schémas de données permettent de décrire des modèles de données : quels sont les différents champs, comment sont représentées les données, quelles sont les valeurs possibles etc. Ils permettent, entre autres, de valider qu'un jeu de données se conforme à un schéma, de générer de la documentation automatiquement, de générer des jeux de données d'exemple ou encore de proposer des formulaires de saisie standardisés.
Plusieurs schémas de données ont ainsi vu le jour au cours des derniers mois, comme la Base Adresse Locale (BAL), DATAtourisme, les dispositifs d'aides, les données essentielles des marchés publics français, les équipements (spécification du modèle de données relatif aux équipements collectifs publics d'une collectivité), un schéma de données pour l'indice de réparabilité, un schéma permettant de décrire des projets de travaux d'infrastructure, des schémas pour les infrastructures de recharges pour véhicules électriques, pour les Itinéraires de randonnée, les lieux de covoiturage ainsi que pour les lieux de médiation numérique etc…
Références :