Un attaquant peut-il déterminer si vos données ont été utilisées ? Comprendre les attaques par inférence d'appartenance

Lorsqu'une organisation publie des données synthétiques, une question de confidentialité critique se pose : un attaquant peut-il deviner si le dossier d'une personne spécifique a servi à entraîner le modèle ? C'est tout l'enjeu des attaques par inférence d'appartenance (MIA). Cet article décrypte le fonctionnement de cette menace, comment la mesurer concrètement, et pourquoi elle est indispensable pour évaluer la sécurité de vos jeux de données.

Un attaquant peut-il déterminer si vos données ont été utilisées ? Comprendre les attaques par inférence d'appartenance

Lorsqu'une organisation publie des données synthétiques, une question naturelle se pose : quelqu'un peut-il déterminer si un individu spécifique faisait partie du jeu de données original utilisé pour les créer ? C'est précisément ce qu'une attaque par inférence d'appartenance (Membership Inference Attack, MIA) cherche à répondre. Il s'agit de l'une des menaces de confidentialité étudiées pour les modèles d'apprentissage automatique et les générateurs de données synthétiques, et est utile pour comprendre ce que « confidentialité » signifie réellement dans ce contexte.

Qu'est-ce qu'une attaque par inférence d'appartenance ?

Considérez un hôpital qui publie un jeu de données synthétiques dérivé d'une étude clinique sur une maladie rare. Un attaquant a accès au dossier médical d'un patient spécifique et se pose une question simple :

> Cette personne faisait-elle partie de l'étude originale ?

Si la réponse peut être devinée de manière fiable à partir des seules données synthétiques, le jeu de données fait fuire de l'information, même si aucun enregistrement synthétique ne correspond exactement à un enregistrement réel.

Ce type de fuite importe pour deux raisons :

- La participation peut être sensible en elle-même. Confirmer que quelqu'un a contribué à un jeu de données concernant une condition stigmatisée, un traitement spécifique ou un comportement particulier révèle déjà quelque chose sur cette personne, indépendamment des valeurs d'attributs réels.
- Elle est une manifestation de la mémorisation. Si un générateur conserve des traces subtiles de ses données d'entraînement, ce sont précisément ces traces qu'un attaquant exploite. Une méthode résistante qui n'a pas mémorisé ses données d'entrée est résistance aux attaques de MIA.

La MIA est également directement liée au risque de ré-identification définis par le CEPD dans son avis du RGPD sur l'anonymisation. Une MIA réussie est une instance concrète et mesurable d'individualisation.

Pourquoi les modèles génératifs peuvent révéler l'appartenance ?

Les modèles génératifs (qu'il s'agisse de GANs, de modèles de diffusion ou de méthodes basées sur les voisins les plus proches comme avatar) apprennent la structure des données à partir d'un jeu de données d'entraînement et produisent de nouveaux enregistrements qui y ressemblent. Le risque est que les échantillons produits ressemblent plus aux enregistrements _d'entraînement_ qu'à des enregistrements inédits (non-utilisés pour l'entrainement) de la même population.

Cette asymétrie est le signal d'appartenance. Intuitivement :

- Pour un individu d'entraînement, le générateur a « vu » son enregistrement et peut produire des points synthétiques qui lui sont proches.
- Pour un individu non-entraînement de la même population, le générateur ne les a jamais vus, donc les points synthétiques ne sont aussi proches que la distribution globale le permet.

Si cet écart est détectable, l'appartenance peut être déduite. S'il ne l'est pas, le générateur se comporte de la même façon qu'une personne ait ou non été dans le jeu d'entraînement, ce qui est la propriété informelle que des définitions comme la confidentialité différentielle tentent de capturer.

Comment la MIA est généralement mesurée ?

Différentes techniques de MIA existent dans la littérature, mais la plupart suivent la même recette à trois étapes :

1. Diviser les données réelles en ensemble d'_appartenance_ (utilisé pour entraîner le générateur) et ensemble de _non-appartenance_ (conservé).
2. Générer le jeu de données synthétiques uniquement à partir de l'ensemble d'appartenance.
3. Noter chaque enregistrement réel, à la fois les membres et les non-membres, avec une certaine fonction des données synthétiques, puis tester si les deux groupes de scores peuvent être distingués.

La fonction de notation varie selon les méthodes :

- Les attaques par modèles fantômes entraînent plusieurs générateurs auxiliaires sur des divisions connues de membres/non-membres, puis entraînent un classificateur pour prédire l'appartenance à partir des sorties du générateur ([Shokri et al., 2017] ; [Hayes et al., 2019 — LOGAN]). Puissantes mais coûteuses et exigeantes en connaissances.
- Les attaques basées sur la vraisemblance estiment une densité à partir des données synthétiques et signalent les enregistrements avec une vraisemblance inhabituellement élevée comme probablement membres ([DOMIAS, Van Breugel et al., 2023] ; [GAN-Leaks, Chen et al., 2020]).
- Les attaques basées sur la distance utilisent un score géométrique, typiquement la distance à l'enregistrement synthétique le plus proche.

La question finale est toujours la même : les scores des membres sont-ils systématiquement différents des scores des non-membres ? Le degré de séparation, généralement résumé par une AUC, est la mesure de la fuite d'information.

Ce que la métrique dit réellement

Quelle que soit la variante de MIA utilisée, la sortie doit être interprétée comme suit :

- Pas de séparation entre membres et non-membres → le générateur se comporte de la même façon que quelqu'un ait ou non été dans le jeu d'entraînement → pas de fuite d'appartenance détectable.
- Séparation forte → la sortie du générateur porte une signature claire de ses données d'entraînement → fuite d'appartenance élevée.
- Tout ce qui se situe entre les deux → un signal résiduel, quantifiable, dont l'impact pratique dépend du contexte.


Comment nous la calculons ?
Notre implémentation est basée sur la distance. Pour chaque enregistrement réel, nous calculons sa distance au point synthétique le plus proche dans un espace latent partagé (FAMD), puis la normalisons par la distance à l'enregistrement réel le plus proche dans le sous-ensemble opposé pour corriger les effets de densité locale. La séparation entre les distributions de distance des membres et des non-membres est résumée avec une statistique Mann–Whitney $U$, exprimée sous forme d'AUC et convertie en taux de protection. Les détails se trouvent dans la [documentation de la métrique].

À quoi ressemble un "bon" score de MIA

Un taux de protection légèrement inférieur à 100 % n'indique pas automatiquement une violation de confidentialité. Il indique qu'un attaquant qui dispose déjà d'un enregistrement candidat et seulement des données synthétiques peut, en moyenne, deviner l'appartenance légèrement mieux que le hasard. Que cela soit réellement problématique dépend de :

- La sensibilité de l'appartenance elle-même. Être dans une cohorte de diabétiques n'est pas la même chose que d'être dans une étude sur une condition stigmatisée.
- Les capacités réalistes de l'attaquant. L'adversaire dispose-t-il réellement d'enregistrements candidats ? De connaissances préalables ? Ou seulement des données synthétiques ?
- D'autres métriques de confidentialité. L'inférence d'appartenance est une facette de la confidentialité. Notre [catalogue complet de métriques de confidentialité] couvre les risques complémentaires : Hidden Rate, Local Cloaking et Column Direct Match Protection évaluent la proximité au niveau des enregistrements ; [Anonymeter] simule les trois risques de ré-identification du RGPD (individualisation, chainage, inférence). La métrique de MIA seule n'évolue pas tout le spectre de la confidentialité.
- Le coût en utilité d'une protection plus stricte. Pousser les métrique de confidentialité à 100% dégrade généralement l'utilité des données.

En pratique, le niveau acceptable est une décision, pas un seuil pré-défini, guidé par le modèle de menace, le cas d'usage et l'ensemble complet des métriques de confidentialité, pas uniquement par la MIA.

Forces et limites de la MIA

La MIA — et notre implémentation basée sur la distance — donne une réponse concrète, empirique, interprétable à une question concrète : _un attaquant peut-il déterminer si cet enregistrement a été utilisé ? Elle est simple à communiquer, rapide à calculer et comparable entre les générateurs.

Elle a aussi des limites :

- Elle nécessite un sous-ensemble non-membre, ce qui n'est pas toujours disponible en conditions de production.
- Elle mesure un modèle d'attaque spécifique. Un générateur robuste à la MIA basée sur la distance peut toujours être vulnérable à une attaque très différente, et vice versa.
- Elle est empirique, pas formelle. Contrairement à la confidentialité différentielle, elle ne fournit pas une garantie mathématique du pire cas.

En résumé

Une attaque par inférence d'appartenance demande si l'appartenance à un jeu d'entraînement peut être détectée à partir d'une d'un jeu de donnée synthétique. Elle formalise l'une des questions de confidentialité les plus intuitives — _« suis-je dedans ? »_ — et la transforme en une quantité mesurable. Différentes techniques l'implémentent, mais elles se réduisent toutes à la même idée : comparer le comportement des données synthétiques sur les personnes qu'elle a vues par rapport à celles qu'elle n'a pas vues. La métrique rapporte le degré de séparabilité de ces deux comportements, et un taux de protection élevé signifie que le générateur ne trahit pas son jeu d'entraînement.

Utilisée aux côtés d'autres métriques de confidentialité et d'un modèle de menace réaliste, la MIA est un élément parmi d'autres pour évaluer si un jeu de données synthétiques peut être publié en toute confidentialité.

Liens :

- Documentation de la métrique
- Catalogue complet des métriques de confidentialité
- Comparaison FastDP confidentialité-utilité
- Documentation technique
- Contact

Inscrivez-vous à notre newsletter !