La révélation des données publiques à travers l’open data représente un pilier fondamental de la transparence démocratique et de l’innovation numérique. Parallèlement, la nécessité de préserver les informations personnelles des citoyens s’impose comme une exigence juridique et éthique incontournable. Ce double impératif place les organisations publiques et privées face à un dilemme constant: comment rendre accessibles des informations d’intérêt général tout en garantissant le respect de la vie privée? La France, avec la loi pour une République numérique de 2016 et le Règlement Général sur la Protection des Données (RGPD), s’inscrit dans une démarche d’équilibrage entre ces deux principes apparemment contradictoires mais potentiellement complémentaires.
Le cadre juridique de l’open data et ses implications sur les données personnelles
Le mouvement d’open data s’est progressivement institutionnalisé en France à travers plusieurs textes législatifs structurants. La loi CADA de 1978 a d’abord posé les bases du droit d’accès aux documents administratifs. Puis, la loi pour une République numérique de 2016 a considérablement renforcé les obligations de publication proactive des données publiques. Ce texte majeur instaure le principe d’ouverture des données par défaut pour les administrations, collectivités territoriales et organismes privés chargés d’une mission de service public.
Au niveau européen, la directive PSI (Public Sector Information) de 2003, révisée en 2013 puis en 2019 avec la directive Open Data, encadre la réutilisation des informations du secteur public. Cette dernière élargit substantiellement le champ des données concernées en incluant notamment les informations détenues par les entreprises publiques dans les secteurs des transports et des services d’utilité publique.
Face à cette dynamique d’ouverture, le RGPD et la loi Informatique et Libertés modifiée constituent un contrepoids protecteur. Ils imposent des restrictions significatives quant à la diffusion de données personnelles, définies comme toute information se rapportant à une personne physique identifiée ou identifiable. Le principe de minimisation des données prend ici tout son sens, obligeant les responsables de traitement à limiter la collecte et la diffusion aux seules informations strictement nécessaires.
Cette tension juridique se cristallise dans l’article L.312-1-2 du Code des relations entre le public et l’administration qui prévoit que les documents administratifs comportant des données personnelles ne peuvent être rendus publics qu’après avoir fait l’objet d’un traitement rendant impossible l’identification des personnes. Trois exceptions sont toutefois prévues: lorsqu’une disposition législative contraire existe, lorsque les personnes intéressées ont donné leur consentement, ou lorsque le document relève de l’article L.312-1-3 (documents relatifs à la vie publique).
L’articulation entre transparence et confidentialité
La CNIL et la CADA (Commission d’Accès aux Documents Administratifs) ont développé une doctrine commune pour articuler ces principes. Elles distinguent plusieurs catégories de données selon leur degré de sensibilité:
- Les données manifestement publiques par nature (organigrammes administratifs, identités des élus)
- Les données personnelles ordinaires nécessitant une évaluation au cas par cas
- Les données sensibles (santé, orientation sexuelle, opinions politiques) bénéficiant d’une protection renforcée
La jurisprudence du Conseil d’État et de la Cour de Justice de l’Union Européenne vient préciser cette articulation. Dans l’arrêt Manninen c. Commission (T-36/04), le Tribunal de l’Union européenne a considéré que l’accès à des documents administratifs pouvait être refusé lorsque la divulgation porterait atteinte à la protection des données personnelles, tout en exigeant une mise en balance concrète des intérêts en présence.
Les techniques d’anonymisation: enjeux et limites
L’anonymisation constitue la réponse technique privilégiée pour concilier open data et protection des données personnelles. Cette opération complexe vise à transformer des données personnelles de manière à rendre impossible toute réidentification des individus concernés. Selon l’avis du G29 (prédécesseur du Comité européen de la protection des données), une anonymisation efficace doit garantir trois critères cumulatifs: l’individualisation, la corrélation et l’inférence doivent être rendues impossibles.
Plusieurs techniques d’anonymisation sont actuellement utilisées, chacune présentant des avantages et inconvénients spécifiques. La randomisation modifie les valeurs des attributs pour réduire le lien entre les données et l’individu. Elle englobe des méthodes comme le bruit aléatoire (ajout de variations aléatoires aux données), la permutation (échange de valeurs entre enregistrements) et la confidentialité différentielle (approche mathématique garantissant que l’ajout ou le retrait d’un individu ne modifie pas significativement les résultats d’analyses).
La généralisation constitue une autre famille de techniques qui dilue les attributs des personnes concernées en modifiant les échelles ou ordres de grandeur. Elle comprend l’agrégation (regroupement de données individuelles en statistiques collectives), le k-anonymat (garantie qu’un individu ne peut être distingué d’au moins k-1 autres personnes) et ses extensions comme le l-diversité (diversification des valeurs sensibles dans chaque classe d’équivalence).
Les risques de réidentification
Malgré ces techniques sophistiquées, le risque de réidentification demeure une préoccupation majeure. De nombreuses études scientifiques ont démontré la vulnérabilité des données supposément anonymisées. En 1997, le chercheur Latanya Sweeney a prouvé qu’il était possible d’identifier 87% de la population américaine à partir de trois informations apparemment anodines: code postal, date de naissance et sexe. Plus récemment, des chercheurs du MIT ont réussi à réidentifier 95% des individus dans un jeu de données anonymisé à partir de seulement quatre points spatio-temporels.
L’affaire du Health Data Hub en France illustre parfaitement cette problématique. Cette plateforme nationale de données de santé a fait l’objet de vives critiques concernant ses garanties d’anonymisation, conduisant le Conseil d’État à exiger des mesures supplémentaires de protection en octobre 2020.
Face à ces défis, la CNIL recommande une approche contextuelle de l’anonymisation, prenant en compte:
- La nature des données et leur potentiel de réidentification
- Le contexte de publication et les données auxiliaires disponibles
- Les moyens raisonnablement susceptibles d’être utilisés pour réidentifier les personnes
Dans cette perspective, l’anonymisation doit être considérée comme un processus dynamique nécessitant une réévaluation régulière plutôt que comme un état définitif. Le concept de privacy by design prend ici toute sa pertinence, en intégrant les exigences de protection dès la conception des systèmes d’open data.
Les données à caractère personnel dans les jeux de données ouverts: études de cas sectorielles
La mise en œuvre concrète de l’équilibre entre open data et protection des données personnelles varie considérablement selon les secteurs d’activité. Chaque domaine présente des spécificités qui influencent l’arbitrage entre transparence et confidentialité.
Dans le domaine de la santé publique, l’ouverture des données représente un intérêt scientifique majeur tout en soulevant des questions éthiques fondamentales. La base SNDS (Système National des Données de Santé) constitue un exemple emblématique. Elle regroupe les données de l’Assurance Maladie, des hôpitaux et des causes médicales de décès. Son ouverture partielle, strictement encadrée par la loi de modernisation du système de santé de 2016, distingue trois régimes d’accès: les données en open data (agrégées et totalement anonymisées), les données sur demande d’autorisation, et les données accessibles uniquement dans le cadre de recherches spécifiques. L’affaire Doctolib, qui a suscité des débats sur le partage de données médicales avec des prestataires externes, illustre la sensibilité particulière de ce secteur.
Le secteur de la mobilité urbaine offre un autre cas d’étude pertinent. Les données de géolocalisation issues des applications de transport, vélos en libre-service ou trottinettes électriques représentent une ressource précieuse pour l’amélioration des politiques publiques de transport. La loi d’orientation des mobilités de 2019 impose aux opérateurs de transports le partage de leurs données. Toutefois, les traces GPS peuvent révéler des habitudes de déplacement permettant potentiellement d’identifier les individus. L’exemple du service Vélib’ à Paris montre comment l’agrégation spatiale et temporelle des données permet de préserver l’utilité statistique tout en limitant les risques d’identification.
Justice et transparence administrative
Le domaine judiciaire présente une tension particulièrement aiguë entre droit à l’information et protection de la vie privée. La loi pour une République numérique a instauré un principe d’open data des décisions de justice. Toutefois, sa mise en œuvre, précisée par le décret du 29 juin 2020, impose une anonymisation rigoureuse des décisions. Cet équilibre délicat a été illustré par la jurisprudence Léger (Conseil d’État, 2017), qui a reconnu un droit à l’oubli numérique pour les personnes mentionnées dans des décisions de justice, tout en préservant l’accès aux décisions anonymisées.
Dans le domaine fiscal, l’ouverture des données cadastrales et des valeurs foncières par la DGFiP (Direction Générale des Finances Publiques) permet une meilleure transparence du marché immobilier. Néanmoins, ces informations, même sans mention directe des noms des propriétaires, peuvent permettre par recoupement d’identifier les patrimoines individuels. La CNIL a ainsi émis des recommandations spécifiques pour l’application DVF (Demande de Valeurs Foncières), limitant notamment la granularité des données accessibles sans authentification.
Ces exemples sectoriels démontrent qu’il n’existe pas d’approche universelle pour résoudre la tension entre open data et protection des données personnelles. Chaque domaine nécessite une analyse spécifique des risques et bénéfices, ainsi que des solutions techniques et juridiques adaptées.
La responsabilité des acteurs de l’open data dans la protection des données personnelles
La mise à disposition de données ouvertes implique une chaîne d’acteurs dont les responsabilités juridiques doivent être clairement définies. Le RGPD attribue des obligations spécifiques à chaque intervenant selon son rôle dans le traitement des données.
Les producteurs de données (administrations publiques, collectivités territoriales, organismes privés chargés d’une mission de service public) sont généralement considérés comme responsables de traitement. À ce titre, ils doivent garantir la licéité de la publication et mettre en œuvre les mesures techniques et organisationnelles appropriées pour protéger les données personnelles. Cette responsabilité inclut la réalisation d’analyses d’impact relatives à la protection des données (AIPD) avant toute publication susceptible d’engendrer un risque élevé pour les droits et libertés des personnes physiques.
Dans l’arrêt Breyer c. Allemagne (C-582/14), la Cour de Justice de l’Union Européenne a précisé que la notion de responsable de traitement doit s’interpréter largement, incluant toute entité qui détermine les finalités et les moyens du traitement. Ainsi, une administration qui décide de publier des données en open data assume pleinement cette responsabilité, même si elle délègue certaines opérations techniques.
Les plateformes d’intermédiation comme data.gouv.fr occupent une position juridique complexe. Elles peuvent être qualifiées de sous-traitants lorsqu’elles hébergent des données pour le compte d’administrations, mais deviennent co-responsables du traitement lorsqu’elles participent activement à la détermination des finalités et moyens de diffusion. Le Conseil d’État, dans sa décision du 27 mars 2020 relative à la plateforme API Entreprise, a confirmé cette analyse en reconnaissant une responsabilité conjointe entre l’administration productrice et l’opérateur technique.
La responsabilité des réutilisateurs
Les réutilisateurs de données ouvertes (entreprises, chercheurs, citoyens) deviennent à leur tour responsables de traitement lorsqu’ils exploitent des jeux de données contenant des informations personnelles, même anonymisées. Ils doivent alors respecter l’ensemble des principes du RGPD, notamment la limitation des finalités et la minimisation des données.
La licence sous laquelle les données sont publiées joue un rôle déterminant dans l’encadrement des réutilisations. La Licence Ouverte développée par Etalab prévoit explicitement que le réutilisateur est tenu de se conformer à la législation en vigueur, notamment celle relative aux données personnelles. Toutefois, cette obligation générale peut s’avérer insuffisante pour garantir une protection effective.
Face à ce constat, certaines administrations ont développé des licences spécifiques pour les jeux de données sensibles. C’est notamment le cas de l’INSEE pour ses bases de micro-données, accessibles uniquement après signature d’une licence restrictive interdisant explicitement toute tentative de réidentification.
- La désignation d’un délégué à la protection des données (DPO) devient obligatoire pour les organismes publics
- L’adoption de chartes éthiques encadrant les pratiques d’open data se développe au sein des administrations
- La mise en place de comités d’éthique pour évaluer les risques liés à certaines publications sensibles
Le Conseil d’État, dans son étude annuelle de 2018 consacrée à la citoyenneté numérique, a souligné l’importance d’une gouvernance responsable des données ouvertes. Il préconise notamment l’adoption de codes de conduite sectoriels précisant les bonnes pratiques en matière d’anonymisation et de diffusion des données.
Perspectives d’évolution et pistes d’harmonisation
L’apparente contradiction entre open data et protection des données personnelles pourrait progressivement s’estomper grâce à des approches innovantes, tant juridiques que techniques. Au lieu d’opposer ces deux principes, il devient possible d’envisager leur complémentarité dans une perspective de gouvernance éthique des données.
Le concept d’open data par design émerge comme une méthodologie prometteuse. Il s’agit d’intégrer dès la conception des systèmes d’information les exigences d’ouverture future des données, en séparant clairement les données destinées à être publiées de celles devant rester confidentielles. Cette approche, défendue par la Commission européenne dans sa stratégie pour les données 2020-2025, rejoint le principe de privacy by design inscrit dans le RGPD.
Les technologies de confidentialité avancées offrent également des perspectives intéressantes. La confidentialité différentielle, développée initialement par Cynthia Dwork, permet de garantir mathématiquement qu’aucune information individuelle ne peut être extraite des résultats d’analyses statistiques, tout en préservant leur utilité globale. Cette approche, adoptée par l’INSEE pour certaines de ses publications et par des entreprises comme Apple et Google, représente une voie prometteuse pour concilier utilité statistique et protection de la vie privée.
Le chiffrement homomorphe constitue une autre piste technologique d’avenir. Cette technique cryptographique permet d’effectuer des calculs sur des données chiffrées sans nécessiter leur déchiffrement préalable. Bien que son application soit encore limitée par des contraintes de performance, elle pourrait à terme permettre des analyses sophistiquées sur des données sensibles sans compromettre leur confidentialité.
Vers une gouvernance partagée des données
Au-delà des aspects techniques, l’évolution du cadre juridique et institutionnel semble nécessaire. Le Parlement européen a adopté en avril 2023 le Data Governance Act, qui établit un cadre facilitant le partage volontaire de données entre entreprises, particuliers et administrations. Ce texte introduit notamment le concept d’altruisme des données, permettant aux citoyens de mettre leurs données personnelles à disposition pour des projets d’intérêt général.
Les communs numériques représentent une autre voie d’évolution prometteuse. Ce modèle de gouvernance, inspiré des travaux d’Elinor Ostrom, propose une gestion collective des données par les communautés concernées. Des initiatives comme OpenStreetMap ou WikiData démontrent la viabilité de cette approche pour certains types de données.
L’émergence des data trusts (fiducies de données) constitue une innovation juridique particulièrement intéressante. Ces structures indépendantes gèrent les données pour le compte de leurs détenteurs, garantissant à la fois leur protection et leur utilisation à des fins d’intérêt général. Le Royaume-Uni a été pionnier dans ce domaine, avec plusieurs expérimentations menées par l’Open Data Institute.
- Le développement de labels certifiant la qualité des processus d’anonymisation
- L’établissement de sandboxes réglementaires permettant d’expérimenter de nouvelles approches d’ouverture des données
- La création d’autorités sectorielles spécialisées dans la gouvernance des données
Ces évolutions dessinent progressivement les contours d’un nouveau paradigme où l’ouverture des données et la protection de la vie privée ne sont plus perçues comme antagonistes mais comme deux facettes complémentaires d’une gouvernance éthique et responsable des données. Ce changement de perspective nécessite toutefois une mobilisation continue des acteurs publics et privés, ainsi qu’une sensibilisation accrue des citoyens aux enjeux de la donnée.
Vers une éthique renouvelée des données ouvertes
L’équilibre entre open data et protection des données personnelles ne peut se résumer à une simple conformité légale. Il soulève des questions éthiques fondamentales concernant la valeur sociale des données, le consentement des individus et le partage équitable des bénéfices issus de leur exploitation.
Le concept de justice informationnelle, développé par les travaux de Luciano Floridi, offre un cadre théorique pertinent pour repenser cet équilibre. Il propose d’évaluer les politiques d’open data non seulement en termes d’efficacité technique ou économique, mais aussi selon leur contribution à une distribution équitable du pouvoir informationnel. Cette approche questionne notamment la concentration excessive des données entre les mains de quelques acteurs dominants, qu’ils soient publics ou privés.
La notion de consentement, pilier du RGPD, mérite d’être réexaminée dans le contexte de l’open data. Le modèle traditionnel du consentement individuel, explicite et préalable montre ses limites face à des traitements massifs de données aux finalités multiples et évolutives. Des formes alternatives de participation citoyenne à la gouvernance des données émergent, comme les panels citoyens qui ont été expérimentés par la ville de Barcelone pour orienter sa politique d’open data.
La fracture numérique constitue un autre enjeu éthique majeur. L’ouverture des données ne profite pleinement qu’aux acteurs disposant des compétences et ressources nécessaires pour les exploiter. Sans politique active d’accompagnement et de médiation, l’open data risque de renforcer les inégalités existantes plutôt que de les réduire. Des initiatives comme les Infolabs en France ou les Civic Tech Fellowships aux États-Unis visent à démocratiser l’accès aux compétences nécessaires pour participer pleinement à l’écosystème des données ouvertes.
Repenser la valeur sociale des données
La question de la valorisation économique des données personnelles anonymisées soulève également des interrogations éthiques. Lorsque des entreprises commerciales tirent profit de données issues du secteur public, parfois collectées auprès des citoyens dans un cadre obligatoire, comment garantir un juste retour à la collectivité? Le principe de tarification des données publiques, longtemps débattu, trouve désormais un nouvel écho avec des propositions de redevances modulées selon la nature de la réutilisation.
Le Comité National d’Éthique du Numérique, créé en France en 2019, a formulé plusieurs recommandations visant à promouvoir une approche éthique de l’open data. Il préconise notamment:
- L’adoption d’une approche différenciée selon la sensibilité des données et la vulnérabilité des populations concernées
- La mise en place de mécanismes de révision périodique des politiques d’ouverture pour tenir compte des évolutions technologiques et sociales
- Le développement de la recherche interdisciplinaire sur les impacts sociétaux de l’open data
La dimension internationale de ces enjeux ne peut être négligée. Les différences d’approches réglementaires entre l’Europe, les États-Unis et l’Asie créent des zones de friction mais aussi des opportunités de coopération. L’OCDE a adopté en 2021 une recommandation sur l’accès aux données du secteur public qui vise à harmoniser les pratiques tout en respectant les spécificités culturelles et juridiques de chaque région.
En définitive, l’avenir de l’équilibre entre open data et protection des données personnelles dépendra moins de solutions techniques ou juridiques isolées que d’une vision holistique plaçant l’humain au centre des politiques de données. Cette vision implique de reconnaître que les données, loin d’être de simples ressources neutres, sont le reflet de relations sociales complexes dont la gouvernance doit être pensée dans une perspective démocratique et inclusive.