Contactez-nous

Vous êtes intéressés par nos conseils, vous souhaitez nous envoyer votre candidature ou vous avez des commentaires ?

N'hésitez pas à nous contacter, nous vous répondrons rapidement.

Inscrivez-vous à notre newsletter !

FAQ

La méthode fonctionne-t-elle sur de petits jeux de données (quelques dizaines d’enregistrements) ?

Oui, la méthode supporte les petits jeux de données — avec quelques précautions :
Un faible nombre d’individus augmente le risque de réidentification du fait de l’unicité.
À niveau de confidentialité égal, moins de propriétés statistiques peuvent être préservées que dans un grand jeu de données.
Les données générées reflètent l’intervalle de confiance des données sources. Moins il y a d’enregistrements, plus cet intervalle est large, donc les résultats peuvent varier davantage d’une itération à l’autre.

Cette méthode peut-elle servir à l’augmentation de données ?

Oui. La méthode Avatar repose sur un processus local aléatoire, répétable pour générer plusieurs jeux synthétiques. Initialement conçue pour la confidentialité, cet aléatoire permet aussi l’augmentation et l’équilibrage des classes. Les enregistrements générés explorent l’espace des données originales sans introduire de valeurs hors intervalle (ex. âges entre 20 et 60 restent dans cette plage).

Peut-on préserver certains résultats exactement dans le jeu anonymisé ?

Oui, la méthode peut être configurée pour préserver certaines valeurs exactes. Cela impacte naturellement la confidentialité, mais cet impact est quantifié par les métriques du rapport, vous aidant à évaluer si le compromis est raisonnable dans votre contexte.

La méthode peut-elle conserver les caractéristiques de petits groupes d’individus ?

Oui — la méthode peut préserver des motifs rares mais non uniques dans les données. Les individus uniques sont automatiquement recentrés pour réduire le risque de réidentification, ce qui aide aussi à nettoyer les données. Cependant, si un petit groupe partage une caractéristique rare, vous pouvez préserver ce groupe en réglant le paramètre d’anonymisation k en dessous de la taille du groupe. Cela rend la méthode adaptée à l’analyse d’événements rares ou de sous-populations sans compromettre la confidentialité.

Est-ce qu'on peut conserver le lien entre donnée personnelle et avatar ?

Non, cela mettrait en échec l’anonymisation telle que défini par le RGPD. C’est un processus irréversible.

Quelle différence avec les concurrents ?

Nos métriques et notre rapport d'anonymisation qui vous permettent de prouver la conformité et l'utilité sont uniques. De plus, notre vitesse de calcul ainsi que la transparence et l'explicabilité de la méthode sont des points différenciants. Pour en savoir plus sur la méthode : https://www.nature.com/articles/s41746-023-00771-5

Est-ce qu'on peut anonymiser en flux ?

Nous avons déjà réalisé des projets d’anonymisation en flux avec succès. Le challenge consiste à anonymiser de petits volumes de données en gardant un maximum d’utilité. Pour relever ce challenge, nous avons développé une approche par batch.

Comment puis-je faire confiance à la robustesse de la méthode ?

Notre méthode est attestée conforme par la CNIL, publiée dans Nature Digital Medicine, et chaque génération de données synthétiques s’accompagne d’un rapport de qualité mesurant confidentialité et utilité. Nous croyons en la transparence, avec une partie de notre code accessible en open source. Lire l’article complet sur la robustesse et la transparence de notre approche.

La méthode permet-elle l’anonymisation de texte libre ?

Pas directement. Le texte libre est non structuré et il n’existe pas encore de cadre légal clair définissant ce qu’est un texte anonyme. Cependant, il est possible de structurer le texte via du NLP, d’anonymiser la version structurée avec Avatar, puis de régénérer du texte (si besoin) avec un modèle de langage.
Cela garantit que les données personnelles ne servent pas à entraîner un modèle.
Nous avons déjà implémenté ce flux de travail — contactez-nous pour en savoir plus.

Peut-on anonymiser des images avec cette méthode ?

Pas pour le moment. Il n’existe pas de définition légale claire de ce qui rend une image anonyme. Toutefois, vous pouvez anonymiser les données structurées liées à des images pseudonymisées, puis les réassocier ensuite via un appariement probabiliste. Ce cadre a été utilisé dans des cas réels — contactez-nous pour plus de détails.

Quand mes données sont-elles considérées comme anonymes ?

L’anonymat des données n’est pas un statut binaire — il dépend du contexte d’usage. Pour l’évaluer, il faut mesurer le risque résiduel de réidentification selon les critères définis par le CEPD. La méthode Avatar fournit des métriques automatiques et des seuils recommandés pour les cas stricts comme les données ouvertes. Si le risque est trop élevé, des protections supplémentaires peuvent être appliquées pour garantir la conformité.

Quel besoin pour le déploiement chez nous en terme d’infrastructures ?

Le déploiement est complètement industrialisé grâce à Docker et Kubernetes. Nos équipes s’adaptent à toutes les architectures en quelques heures.

Pourquoi la méthode avatar est-elle conforme vis-a-vis de la CNIL ?

La CNIL a évaluée avec succès notre méthode d'anonymisation sur la base de nos métriques de sécurité et d’utilité respectant les 3 critères énoncés par le CEPD pour définir une anonymisation (avis du 05/2014).

Pourquoi ne pas utiliser de modèles génératifs (GAN, LLM, etc.) pour créer des données synthétiques ?

Nous privilégions une approche statistique, transparente et explicable, plutôt que des modèles génératifs de type “boîte noire”.
Cela nous permet de maîtriser le signal statistique, de garantir la conformité réglementaire (évaluation du risque de réidentification incluse) et d’obtenir des résultats plus rapides, robustes et adaptables. Lire l'article complet sur notre choix d’approche statistique.

Pourquoi la méthode Avatar n’utilise pas de confidentialité différentielle ?

La confidentialité différentielle reste une approche intéressante mais imparfaite : difficile à paramétrer, dégradant souvent la qualité des données et coûteuse en calcul.
Nous avons préféré une méthode qui vérifie la confidentialité a posteriori, assure une conformité totale avec le CEPD et offre des garanties plus solides et mesurables. Lire notre article complet sur les limites de la confidentialité différentielle.

Quelle est la différence entre l'anonymisation et la pseudonymisation ?

La pseudonymisation masque l’identité d’une personne en remplaçant ses identifiants par un pseudonyme ou un code, mais conserve un lien réversible : il reste possible de retrouver la personne grâce à une clé. Ces données restent donc personnelles.

L’anonymisation, au contraire, rompt définitivement tout lien entre les données et l’individu. Les données deviennent alors non personnelles, car il est impossible de ré-identifier quelqu’un, même indirectement. Pour en savoir plus, consultez cet article complet dédié à la question.