March 14, 2023

Données synthétiques VS anonymes

"Synthétique" et "anonyme" sont deux termes souvent utilisés de manière interchangeable dans les discussions sur la confidentialité des données. Bien qu'ils ne soient pas incompatibles, cet article définit leurs caractéristiques ainsi que leurs différences.

Lorsqu'il s'agit d'utiliser des données personnelles pour des usages éthiques secondaires par rapport à l'objectif initial de la collecte, les données anonymes et les données synthétiques sont souvent utilisées sans différenciation. Cependant, il s'agit de deux types de données ayant leurs propres caractéristiques et qu'il ne faut pas confondre.

Définitions

Le règlement général sur la protection des données (RGPD) définit les données anonymes comme suit :

"des informations qui ne se rapportent pas à une personne physique identifiée ou
identifiable ou qui a été rendue anonyme de manière irréversible."

En d'autres termes, les données anonymes sont des données qui ne peuvent pas être utilisées pour identifier une personne, même lorsqu'elles sont combinées avec d'autres sources de données externes (un registre des électeurs par exemple). Ce type de données n'est pas soumis aux règles de protection des données du RGPD, car elles ne sont pas considérées comme des données personnelles. Lorsqu'elles sont anonymes, les personnes auprès desquelles les données sont collectées sont protégées contre toute réidentification. Cette propriété permet d'utiliser les données anonymes pour une variété d'usages secondaires, tels que la recherche, l'analyse statistique et le marketing, car l'utilisation de données anonymes ne nécessite pas le consentement de l'individu concerné. Cependant, il est important de noter que le processus d'anonymisation doit être effectué conformément aux directives strictes du RGPD afin de garantir la protection des données personnelles. Ces lignes directrices sont illustrées par les trois critères identifiés par le Conseil Européen de la Protection des Données (CEPD, ex G29) :

l’individualisation
la corrélation
l'inférence

Voir plus de détails dans cet article.

Données synthétiques: Données générées artificiellement qui imitent les caractéristiques des données réelles. Elles sont créées à l'aide d'algorithmes et de modèles statistiques pour simuler des données qui ressemblent à des données réelles sans contenir d'informations personnelles réelles. Les données synthétiques sont utilisées pour divers usages, notamment pour former des modèles de Machine Learning, tester des applications logicielles ou un environnement de production. L'un des principaux avantages des données synthétiques est qu'elles peuvent être générées à grande échelle, ce qui les rend idéales dans les scénarios où les données réelles sont soit coûteuses, soit difficiles à obtenir.

Données synthétiques VS anonymes

Le fait que les données synthétiques soient des données générées artificiellement pourrait indiquer que ces données sont anonymes par défaut. La possibilité de partager la méthode de génération plutôt que les données elles-mêmes semble être une garantie supplémentaire de respect de la vie privée et un changement de paradigme dans l'utilisation des données.

Cependant, les modèles génératifs peuvent également ne pas garantir la confidentialité des données d'apprentissage. En effet, les modèles génératifs peuvent mémoriser des détails spécifiques des données d'apprentissage, y compris la présence d'individus spécifiques ou d'informations personnelles, et incorporer ces informations dans les données synthétiques générées. Ce type d'atteinte à la vie privée est appelé Membership inference attack, lorsqu'un pirate tente de déterminer si les données d'une personne spécifique ont été utilisées pour former un modèle de Machine Learning. Cela peut entraîner de graves violations de la vie privée, en particulier avec des données sensibles.

En outre, les données anonymes ne sont pas toujours synthétiques. Par exemple, certaines méthodes d'anonymisation sont basées sur l'agrégation de données réelles. K-anonyma est probablement la plus connue de ces méthodes d'agrégation, ses raffinements étant l-diversité et t-closeness. Ces méthodes d'anonymisation reposent uniquement sur l'agrégation et ne peuvent être considérées comme synthétiques, car il s'agit uniquement d'une généralisation du contenu des données. Nous avons donc un exemple de données anonymes mais non synthétiques.

Néanmoins, il faut garder à l'esprit qu'une agrégation n'est pas toujours anonyme non plus. Imaginons un jeu de données contenant l'âge des individus. Une agrégation naïve dans des classes telles que 0-49, 50-99, 100-149 aboutirait probablement à très peu de personnes dans la troisième catégorie, ce qui permettrait une identification (trop) facile.

Essayons d'expliquer la confusion

La raison pour laquelle les données synthétiques sont souvent confondues avec les données anonymes pourrait être que la plupart des méthodes d'anonymisation - sinon toutes - qui ne reposent pas sur la création de données synthétiques présentent trop d'inconvénients pour être efficaces. Il peut s'agir d'un manque de confidentialité, d'utilité ou des deux.

Par exemple, une méthode d'agrégation perdra non seulement une partie de son utilité, mais modifiera également la structure des données. Cette méthode ne peut donc pas remplacer les données sensibles dans un pipeline. Nous vous recommandons cet article si vous souhaitez approfondir le sujet des méthodes d'anonymisation existantes.

Il explique pourquoi aujourd'hui, une personne souhaitant anonymiser des données utilisera probablement une méthode de génération de données synthétiques.

Chez Octopize, avec notre logiciel avatar, nous créons des données synthétiques et anonymes avatar qui ressemblent aux données originales mais qui sont fausses. Nous nous assurons, grâce à des métriques, que les directives du CEPD sont respectées tout en conservant la plus grande utilité des données.

En résumé, la confidentialité n'est pas considérée comme acquise lors du traitement des données synthétiques. La génération de données synthétiques privées est un sujet d'expertise de pointe, où certaines approches naïves tendent à exposer des informations sensibles. Cependant, lorsqu'elle est utilisée avec prudence, la synthèse de données anonymes est aujourd'hui le moyen le plus efficace de conserver un maximum d'utilité tout en préservant la vie privée.

Intéressé par des données synthétiques et anonymes ?
Contactez-nous : contact@octopize.io !

Rédaction : Gaël Russeil & Morgan Guillaudeux

‍

Données synthétiques VS anonymes

Définitions

Données synthétiques VS anonymes

Essayons d'expliquer la confusion

Autres articles