Solutions

Octopize a développé un logiciel innovant pour utiliser les données personnelles via des données de synthèse anonymes, les données avatar. Les données avatar libèrent les usages secondaires des données, le partage des données devient plus simple, plus rapide et sécurisé.
Les usages sont larges :

Entraîner des modèles de Machine Learning / IA gen

Contexte :

Votre entreprise souhaite entraîner des modèles de Machine Learning / IA générative sur des données personnelles. Cependant, les contraintes légales (RGPD) ainsi que l’éthique ne le permettent pas. En effet, entraîner des IA avec des données personnelles compromet fortement la confidentialité des individus car les données personnelles peuvent être réidentifiantes. Vos projets d’IA sont donc complexifiés, ralentis voire impossible sans l’anonymisation.

Solution :

Notre logiciel d’anonymisation avatar offre une solution efficace, sécurisée et éthique. En effet, vous pouvez utiliser des données synthétiques anonymes générées par notre logiciel avatar pour entraîner vos modèles en toute conformité.

Résultats :

  • Conservez les mêmes informations statistiques que les données originales, en garantissant la qualité de vos modèles.
  • Supprimez le risque de ré-identification des individus.
  • Libérez le potentiel de vos projets d'IA en utilisant des données synthétiques anonymes.
Voir les cas clients

Valoriser les données

Contexte :

Votre entreprise ne peut pas accéder à des données personnelles en raison de la réglementation (RGPD) et de la protection de la vie privée.

Solution :

Le logiciel avatar permet de libérer ces données personnelles pour des usages secondaires tels que le développement de modèles d’intelligence artificielle, la valorisation scientifique ou la revente de données (Data Brocker).

Résultats :

  • Accédez aux données rapidement pour valoriser leur qualité informative et développer votre business.
  • Prenez rapidement des décisions fondées sur des données pertinentes en toute sécurité.
  • Améliorez vos connaissances (profilage) sans porter atteinte à la confidentialité des personnes.
Voir les cas clients

Partager les données

Contexte :

En raison du RGPD, le partage de données personnelles en dehors de votre entreprise et de l'Europe devient difficile. Cette réglementation peut ralentir vos projets.

Solution :

Grâce au logiciel avatar, vous générez des données synthétiques et anonymes qui sortent du cadre du RGPD. Cela vous offre la possibilité de partager ces données en toute sécurité dans le monde entier.

Résultats :

  • Vous pouvez partager les données avatar à forte valeur informative à vos partenaires.
  • Les données sont libérées pour les usages secondaires : vos projets internationaux sont ainsi facilités. 
Voir les cas clients

Évaluer la qualité des données

Contexte :

Votre département R&D souhaite exploiter des données collectées par d'autres organismes pour innover. Vous ne pouvez pas évaluer le potentiel et la qualité de ces données avant acquisition : il y a une asymétrie de l'information.

Solution :

Vous pouvez accéder au potentiel des données avant acquisition en utilisant les données avatar. Les données synthétiques avatar sont anonymes, ainsi elles sont plus rapidement partageables et peuvent permettre d'évaluer la pertinence de jeux de données en amont d'un partenariat.

Résultats :

  • Accédez aux données rapidement avec une garantie de ROI.
  • Évaluez le potentiel des données avant acquisition pour vos usages secondaires.
  • Résolvez ainsi l’asymétrie d'information entre vous et vos partenaires.
Voir les cas clients

Protéger les individus

Contexte :

Votre entreprise souhaite analyser des données pour mieux comprendre ses clients, leurs parcours, mais ne veut faire aucun compromis sur la confidentialité.

Solution :

Le logiciel avatar permet de protéger les individus à l'origine des données. Cette protection de la vie privée est documentée grâce à des métriques de confidentialité.

Résultats :

  • Analysez vos données (profilage) sans atteinte à la confidentialité des individus.
  • Documentez la preuve de cette confidentialité (retrouvez plus de détails dans notre documentation technique).
Voir les cas clients

Réaliser un projet de Science Ouverte

Contexte :

Vous voulez publier des données personnelles dans votre papier de recherche ou vous devez partager des données personnelles pour un projet académique (hackaton, open data). Le problème ? Vous ne pouvez pas collecter les consentements individuels requis pour cette nouvelle finalité.

Solution :

Les données avatar sortent du cadre du RGPD : elles ne sont plus considérées comme des données personnelles. Vous n’avez donc plus besoin de collecter de nouveaux consentements.

Résultats :

  • Partagez vos données anonymisées dans vos publications.
  • Organisez un hackathon (Machine Learning...) en conservant la qualité informative des données d'origine.
Voir les cas clients

Conserver les données sans durée limite de rétention

Contexte :

Vous souhaitez conserver des données personnelles que vous avez collectés mais vous êtes contraints par les limites de temps imposées par le RGPD.

Solution :

Les données de synthèse anonymes avatar vous permettent de conserver sans limite de temps vos données et leur qualité informative. En effet, les données avatar sortent du cadre du RGPD et ne sont donc plus contraintes par des restrictions de temps.

Résultats :

  • Conservez vos données (leur qualité & granularité) sans limite de temps.
Voir les cas clients

Tester les données dans votre environnement hors production

Contexte :

Votre base de données produite en interne est exposée à des risques de violation de la vie privée. Vous avez besoin d'anonymiser vos données pour les exploiter hors production (sans perdre la granularité et la forme initiale de la base de données). 

Solution :

Avec le logiciel avatar, vous rendez votre base de données anonyme tout en préservant la granularité, la qualité des données d'origine et les liens hiérarchiques.

Résultats :

  • Améliorez vos tests hors production en travaillant facilement sur votre base de données anonyme.
  • Évitez les fuites de données en arrêtant d'exploiter des données personnelles.
Voir les cas clients

FAQ

La méthode fonctionne-t-elle sur de petits jeux de données (quelques dizaines d’enregistrements) ?

Oui, la méthode supporte les petits jeux de données — avec quelques précautions :
Un faible nombre d’individus augmente le risque de réidentification du fait de l’unicité.
À niveau de confidentialité égal, moins de propriétés statistiques peuvent être préservées que dans un grand jeu de données.
Les données générées reflètent l’intervalle de confiance des données sources. Moins il y a d’enregistrements, plus cet intervalle est large, donc les résultats peuvent varier davantage d’une itération à l’autre.

Cette méthode peut-elle servir à l’augmentation de données ?

Oui. La méthode Avatar repose sur un processus local aléatoire, répétable pour générer plusieurs jeux synthétiques. Initialement conçue pour la confidentialité, cet aléatoire permet aussi l’augmentation et l’équilibrage des classes. Les enregistrements générés explorent l’espace des données originales sans introduire de valeurs hors intervalle (ex. âges entre 20 et 60 restent dans cette plage).

Peut-on préserver certains résultats exactement dans le jeu anonymisé ?

Oui, la méthode peut être configurée pour préserver certaines valeurs exactes. Cela impacte naturellement la confidentialité, mais cet impact est quantifié par les métriques du rapport, vous aidant à évaluer si le compromis est raisonnable dans votre contexte.

La méthode peut-elle conserver les caractéristiques de petits groupes d’individus ?

Oui — la méthode peut préserver des motifs rares mais non uniques dans les données. Les individus uniques sont automatiquement recentrés pour réduire le risque de réidentification, ce qui aide aussi à nettoyer les données. Cependant, si un petit groupe partage une caractéristique rare, vous pouvez préserver ce groupe en réglant le paramètre d’anonymisation k en dessous de la taille du groupe. Cela rend la méthode adaptée à l’analyse d’événements rares ou de sous-populations sans compromettre la confidentialité.

Est-ce qu'on peut conserver le lien entre donnée personnelle et avatar ?

Non, cela mettrait en échec l’anonymisation telle que défini par le RGPD. C’est un processus irréversible.

Quelle différence avec les concurrents ?

Nos métriques et notre rapport d'anonymisation qui vous permettent de prouver la conformité et l'utilité sont uniques. De plus, notre vitesse de calcul ainsi que la transparence et l'explicabilité de la méthode sont des points différenciants. Pour en savoir plus sur la méthode : https://www.nature.com/articles/s41746-023-00771-5

Est-ce qu'on peut anonymiser en flux ?

Nous avons déjà réalisé des projets d’anonymisation en flux avec succès. Le challenge consiste à anonymiser de petits volumes de données en gardant un maximum d’utilité. Pour relever ce challenge nous avons développé une approche par batch.

Comment puis-je faire confiance à la robustesse de la méthode ?

La confiance dans notre méthode repose sur trois piliers : la validation externe par des autorités scientifiques et réglementaires, des garanties internes intégrées à chaque processus, et la transparence de nos outils.
Notre objectif est simple : rendre impossible le partage involontaire de données mal anonymisées. 

Validation scientifique et réglementaire
 
Le cœur de la méthode Octopize a été rigoureusement examiné et validé par des tiers de confiance :
• Audité avec succès et attesté conforme par la CNIL.
• Évalué par les pairs et publié dans la prestigieuse revue scientifique Nature Digital Medicine.
Ces reconnaissances attestent de la solidité et de la rigueur de notre approche.

Des garanties à chaque anonymisation 
Chaque génération d'Avatars est accompagnée d'un rapport détaillé qui certifie la qualité du résultat sur deux aspects fondamentaux : la confidentialité et l'utilité.
1. Mesure de la confidentialité
Nous utilisons une combinaison de métriques pour assurer une protection maximale :
• Métriques uniques développées spécifiquement pour notre méthode afin de vérifier les 3 critères d'anonymisation du CEPD (Comité Européen de la Protection des Données).
• Métriques standards du marché, applicables à n'importe quel jeu de données synthétiques pour permettre des comparaisons.
Nous menons une R&D constante pour améliorer nos métriques, en veillant à ce qu'elles restent toujours aussi simples à interpréter que possible.

2. Mesure de l'utilité des données
Nous vérifions que les données synthétiques conservent leur valeur analytique à tous les niveaux de granularité :
• Unimodal : En comparant les distributions de chaque variable (ex: la répartition des âges).
• Bimodal : En analysant les corrélations entre paires de variables (ex: le lien entre âge et salaire).
• Multimodal : En étudiant les interactions plus complexes entre de multiples variables.

De plus, comme les Avatars conservent la même structure que les données originales, des métriques métiers peuvent être appliquées. Par exemple, il est facile de comparer la performance d'un modèle de prédiction (machine learning) entraîné sur les Avatars par rapport au même modèle entraîné sur les données d'origine.
Une approche transparente
Nous croyons en la transparence comme gage de confiance. C'est pourquoi nous avons rendu une partie de notre code accessible en open-source, notamment :
Les processeurs permettant de formater les données avant l'avatarisation.
La librairie réalisant l'étape de réduction de dimension.
Cette démarche permet à la communauté de vérifier par elle-même la qualité et la robustesse de nos outils.

La méthode permet-elle l’anonymisation de texte libre ?

Pas directement. Le texte libre est non structuré et il n’existe pas encore de cadre légal clair définissant ce qu’est un texte anonyme. Cependant, il est possible de structurer le texte via du NLP, d’anonymiser la version structurée avec Avatar, puis de régénérer du texte (si besoin) avec un modèle de langage.
Cela garantit que les données personnelles ne servent pas à entraîner un modèle.
Nous avons déjà implémenté ce flux de travail — contactez-nous pour en savoir plus.

Peut-on anonymiser des images avec cette méthode ?

Pas pour le moment. Il n’existe pas de définition légale claire de ce qui rend une image anonyme. Toutefois, vous pouvez anonymiser les données structurées liées à des images pseudonymisées, puis les réassocier ensuite via un appariement probabiliste. Ce cadre a été utilisé dans des cas réels — contactez-nous pour plus de détails.

Quand mes données sont-elles considérées comme anonymes ?

L’anonymat des données n’est pas un statut binaire — il dépend du contexte d’usage. Pour l’évaluer, il faut mesurer le risque résiduel de réidentification selon les critères définis par le CEPD. La méthode Avatar fournit des métriques automatiques et des seuils recommandés pour les cas stricts comme les données ouvertes. Si le risque est trop élevé, des protections supplémentaires peuvent être appliquées pour garantir la conformité.

Quel besoin pour le déploiement chez nous en terme d’infrastructures ?

Le déploiement est complètement industrialisé grâce à Docker et Kubernetes. Nos équipes s’adaptent à toutes les architectures en quelques heures.

Pourquoi la méthode avatar est-elle conforme vis-a-vis de la CNIL ?

La CNIL a évaluée avec succès notre méthode d'anonymisation sur la base de nos métriques de sécurité et d’utilité respectant les 3 critères énoncés par le CEPD pour définir une anonymisation (avis du 05/2014).

Pourquoi ne pas utiliser de modèles génératifs (GAN, LLM, etc.) pour créer des données synthétiques ?

Nous faisons délibérément le choix d’une approche statistique, transparente et explicable, plutôt que de recourir à des modèles génératifs, pour plusieurs raisons essentielles :

Compréhension et maîtrise du procédé
Les modèles génératifs produisent des données de manière opaque (black box). Or, dans le cadre de la génération de données synthétiques, il est crucial de préserver le signal statistique tout en contrôlant les transformations appliquées.
Notre méthode statistique permet de comprendre précisément comment les données sont générées. La compréhension amenant la maîtrise, la méthode avatar peut être adaptée finement à une grande diversité de formats de données, assurant ainsi l’obtention de résultats optimaux en termes de conservation du signal statistique.

Conformité réglementaire et évaluation du risque de réidentification
Réglementairement, une donnée synthétique n’est pas considérée comme anonyme. Par extension, tout modèle d’intelligence artificielle entraîné à partir de données personnelles est également considéré comme une donnée personnelle. Pour être considérée comme anonyme, le Comité Européen de la Protection des Données (CEPD) a identifié 3 critères d’évaluation de la donnée et la CNIL recommande une évaluation systématique et rigoureuse du risque de réidentification.
Notre approche, centrée sur l’individu, intègre nativement des scénarios d’attaques de l’état de l’art pour évaluer ce risque et fournir une preuve de conformité réglementaire.
Les modèles génératifs, en revanche, sont exposés à des attaques spécifiques supplémentaires telles que les membership inference attacks, où un attaquant peut tenter de déduire si une donnée d’entraînement était présente dans le modèle. À cet égard, le modèle doit être évalué au même titre que les données générées par ce dernier.

Performance et robustesse
Les méthodes génératives sont coûteuses en calcul, nécessitent des volumes de données importants et peuvent converger vers des résultats biaisés (optimums locaux). Notre approche statistique individu-centrique est :
efficiente (jusqu’à 25 fois plus rapide à puissance de calcul équivalente),
scalable, car elle s’applique aussi bien à de petites qu’à de grandes cohortes,
robuste, sans dépendre des fragilités propres aux algorithmes génératifs.

Pourquoi la méthode Avatar n’utilise pas de confidentialité différentielle ?

Bien que nous suivions de très près les avancées en matière de confidentialité différentielle, nous avons choisi de ne pas intégrer cette méthode directement dans notre technologie pour plusieurs raisons critiques. En pratique, elle présente des inconvénients majeurs en termes de garantie de confidentialité, de facilité d'utilisation et surtout, elle dégrade fortement la qualité (l'utilité) des données synthétiques. Nous privilégions une approche qui offre des garanties de confidentialité plus robustes et vérifiables.

Les limites de la confidentialité différentielle
1. Une garantie de confidentialité incomplèteLa confidentialité différentielle répond à une définition mathématique de la vie privée, mais elle ne garantit pas à elle seule une protection contre tous les scénarios de ré-identification. Elle ne permet pas, par exemple, de valider l'ensemble des critères d'anonymisation requis par le Comité Européen de la Protection des Données (CEPD).
2. Une utilisation complexe et risquée
Le paramètre clé de la confidentialité différentielle, l'epsilon (ϵ), est très difficile à paramétrer et à expliquer. Un mauvais réglage peut conduire à la génération de données beaucoup moins anonymes que prévu, sans que l'utilisateur s'en rende compte. Face à ce risque, il vaut mieux ne pas l'utiliser que de mal l'utiliser.
3. Un compromis défavorable entre confidentialité et utilité
L'intégration de la confidentialité différentielle dans la génération de données synthétiques tabulaires dégrade significativement l'utilité des données. Pour conserver une bonne qualité, certains acteurs ont été tentés d'augmenter artificiellement la valeur de l'ϵ, ce qui affaiblit considérablement la protection de la vie privée.
4. Un coût de calcul élevé
L'ajout d'une étape de confidentialité différentielle est gourmand en ressources de calcul, ce qui ralentit considérablement le processus de génération des données synthétiques.
L'approche alternative d'Octopize
Plutôt que d'intégrer une méthode aux garanties imparfaites, Octopize a développé une approche plus complète et sécurisée :
• Vérification de la confidentialité a posteriori : Nous vérifions le niveau de confidentialité à la fin du processus de génération des Avatars. Cette étape finale garantit qu'aucune donnée à risque n'est partagée involontairement.
Conformité totale avec les critères du CEPD : Notre méthode et nos métriques ont été spécifiquement conçues pour vérifier les trois critères clés de l'anonymisation définis par le CEPD, ce que la confidentialité différentielle seule ne peut pas accomplir.
Même si notre méthode n'utilise pas la confidentialité différentielle durant la génération, nous pouvons vérifier a posteriori si les Avatars générés respectent les propriétés d'un jeu de données différentiellement privé, offrant ainsi une garantie de confidentialité plus forte et plus transparente.