Comprendre le coeur de la méthode avatar

Après avoir publié un papier scientifique sur notre méthode, nous vous proposons un article pour comprendre le cœur de la méthode. Notez qu'il s'agit d'une explication sommaire, si vous voulez aller plus loin, n'hésitez pas à consulter notre article sur Nature Digital Medicine !

Comprendre le coeur de la méthode avatar

Dans cet article de blog, nous allons vulgariser notre article scientifique publié dans Nature Digital Medicine qui décrit les principes de notre méthode d'anonymisation avatar.

La méthode avatar est une approche unique de génération de données synthétiques qui préserve la structure et la pertinence statistique du jeu de données original tout en respectant la vie privée des individus. Cette technique utilise une approche centrée sur le patient en créant des simulations locales basées sur chaque individu, ce qui rend la simulation d’un avatar unique. Notre méthode est conçue pour répondre aux trois critères énoncés par le Comité européen de la protection des données (CEPD) pour évaluer la robustesse d'un processus d'anonymisation : l’individualisation, la corrélation et l'inférence.

Comparée à d'autres techniques telles que les arbres de décision et les GAN (Generative Adversarial Networks), la logiciel avatar démontre une utilité similaire dans la préservation de la structure et de la pertinence statistique du jeu de données d'origine. En outre, la logiciel avatar inclut des mesures de privacy qui évaluent les données avatar par rapport aux trois critères définis par le CEPD.

Explication du fonctionnement de la méthode

Notre méthode prend en entrée des données originales et produit des données synthétiques et anonymes de même taille et de même nature. Les données numériques restent numériques, les données catégorielles restent catégorielles, etc. Le cœur de la méthode est illustré dans le diagramme ci-dessous. Nous le décrivons plus en détail dans les paragraphes suivants.

a) Projection multidimensionnelle

Les données originales sont projetées dans un espace multidimensionnel approprié à l'aide de techniques de réduction des dimensions telles que l'analyse factorielle des données mixtes (FAMD), l'analyse en composantes principales (ACP) ou l'analyse des correspondances multiples (ACM). Les transformations utilisées doivent être réversibles, c'est-à-dire qu'il existe une transformation inverse qui permet de revenir aux données d'origine. Cette étape transforme les individus, qui sont initialement décrits par plusieurs caractéristiques numériques et catégorielles, en coordonnées numériques structurées qui facilitent le calcul des distances entre les individus. Elle réduit également la dimensionnalité du jeu de données afin de mettre en évidence les informations les plus pertinentes.

b) Calcul des k-voisins

Les distances entre voisins sont ensuite calculées entre tous les points de cet espace afin d'effectuer un algorithme de K-voisins les plus proches (KNN). Celui-ci définit une zone locale autour de chaque coordonnée - chacune étant la projection d'un individu à partir des données originales - définie par ses plus proches voisins.

c) Génération aléatoire de données avatar locaux

Pour chacune de ces zones locales, une simulation unique est tirée de manière pseudo-aléatoire, créant une nouvelle coordonnée à l'intérieur de la zone, que nous appelons l'avatar de la coordonnée d'origine. Cette simulation est influencée par la distance entre le point d'origine et chacun de ses voisins, par un poids aléatoire suivant une distribution exponentielle et par un facteur de contribution aléatoire pour chaque voisin. Cela permet aux simulations non-déterministes d’être un processus irréversible, ce qui est une condition nécessaire à la conservation de la vie privée.

d) Inversion de la transformation pour revenir à l'encodage d'origine
Une fois qu'une donnée synthétique a été générée pour chaque individu, les coordonnées de l'avatar sont inversées pour revenir à l'encodage original, en conservant le type des attributs originaux (catégoriques, numériques, etc.). Bien que nous ne soyons pas en mesure de récupérer les données originales à partir des données avatar, la structure de l'ensemble de données est préservée :

e) Calcul des paramètres de protection de la vie privée

Le Comité européen de la protection des données (CEPD) a défini trois critères qui doivent être respectés pour qu'un jeu de données soit considéré comme anonyme : l’individualisation, la corrélation et l'inférence. Le logiciel avatar comprend des métriques de mesure de la vie privée des données avatar en fonction de ces trois critères.

Pour en savoir plus sur nos métriques de protection de la vie privée, consultez notre article dédié.

Conclusion

La nature de la méthode avatar centrée sur le patient permet le calcul des mesures de confidentialité qui satisfont les critères du CEPD tout en maintenant un niveau élevé de préservation du signal. Son approche explicable permet de partager les données sans compromettre la vie privée, ce qui en fait un logiciel précieux pour générer des données synthétiques anonymes à des fins de recherche tout en préservant la vie privée des individus.

N'hésitez pas à lire notre article scientifique ou visionner notre webinar tech en replay pour plus d'informations sur la méthode avatar.

Rédaction : Gaël Russeil & Alban-Félix Barreteau

Inscrivez-vous à notre newsletter tech !