Nos solutions

Libérez le potentiel de vos données, sans compromettre la confidentialité.
Octopize vous accompagne à chaque étape de la valorisation de vos données, grâce à sa technologie avatar — des données de synthèse anonymes, fidèles aux propriétés statistiques d’origine.

Anonymiser vos données

Protégez vos données personnelles et répondez aux critères du RGPD.

Les données personnelles sont un moteur d’innovation, mais leur usage reste encadré.
Grâce à notre technologie, transformez vos jeux de données en données synthétiques anonymes, impossibles à relier à une personne réelle, tout en conservant leur valeur statistique.
Objectifs : garantir la conformité RGPD et permettre un partage ou un réusage sans risque.

Secteurs concernés : RH, santé, mobilité, banque/assurance…

Voir les cas clients

Désensibiliser vos données

Réduisez le risque d’inférence sur vos données stratégiques.

Certaines données, sans être personnelles, restent sensibles : données industrielles, opérationnelles, de défense ou de R&D.
Octopize propose une approche de désensibilisation qui réduit la probabilité de ré-identification ou de fuite d’informations critiques, tout en conservant les relations statistiques nécessaires à vos analyses.
Objectif : sécuriser vos données stratégiques tout en maintenant leur valeur opérationnelle.

Secteurs concernés : industrie, défense, banque/assurance…

Voir les cas clients

Augmenter vos données

Générez des données synthétiques pour booster vos performances.

La donnée est rare, coûteuse, parfois déséquilibrée. Grâce à notre méthode, augmentez vos jeux de données pour renforcer la puissance statistique de vos modèles d’IA et vos analyses.
Objectif : combler les manques, équilibrer les classes, ou simuler des cas rares — sans jamais exposer de données réelles.

Secteurs : tous secteurs manipulant des données massives.

Bénéfices :

  • amélioration des modèles IA,
  • exploration de scénarios inédits,
  • data augmentation éthique et sécurisée
Voir les cas clients

Auditer vos données

Mesurez, contrôlez et améliorez le niveau de protection de vos données.

Nos équipes réalisent des audits complets pour évaluer la robustesse de vos techniques d’anonymisation et de pseudonymisation.
Ces audits vous permettront d’identifier les risques d’inférence, quantifier les niveaux de protection et vous aider à renforcer la sécurité de vos traitements de données.
Objectif : garantir la transparence et la conformité de vos approches privacy.

Secteurs : tous secteurs manipulant des données personnelles ou stratégiques.

Voir les cas clients

🚀 Ensemble, faisons de vos données un levier d’innovation.

Octopize vous aide à tirer le meilleur de vos données, dans le respect des individus et de la réglementation. Sans données, pas d’innovation. Sans confiance, pas de données.

FAQ

La méthode fonctionne-t-elle sur de petits jeux de données (quelques dizaines d’enregistrements) ?

Oui, la méthode supporte les petits jeux de données — avec quelques précautions :
Un faible nombre d’individus augmente le risque de réidentification du fait de l’unicité.
À niveau de confidentialité égal, moins de propriétés statistiques peuvent être préservées que dans un grand jeu de données.
Les données générées reflètent l’intervalle de confiance des données sources. Moins il y a d’enregistrements, plus cet intervalle est large, donc les résultats peuvent varier davantage d’une itération à l’autre.

Cette méthode peut-elle servir à l’augmentation de données ?

Oui. La méthode Avatar repose sur un processus local aléatoire, répétable pour générer plusieurs jeux synthétiques. Initialement conçue pour la confidentialité, cet aléatoire permet aussi l’augmentation et l’équilibrage des classes. Les enregistrements générés explorent l’espace des données originales sans introduire de valeurs hors intervalle (ex. âges entre 20 et 60 restent dans cette plage).

Peut-on préserver certains résultats exactement dans le jeu anonymisé ?

Oui, la méthode peut être configurée pour préserver certaines valeurs exactes. Cela impacte naturellement la confidentialité, mais cet impact est quantifié par les métriques du rapport, vous aidant à évaluer si le compromis est raisonnable dans votre contexte.

La méthode peut-elle conserver les caractéristiques de petits groupes d’individus ?

Oui — la méthode peut préserver des motifs rares mais non uniques dans les données. Les individus uniques sont automatiquement recentrés pour réduire le risque de réidentification, ce qui aide aussi à nettoyer les données. Cependant, si un petit groupe partage une caractéristique rare, vous pouvez préserver ce groupe en réglant le paramètre d’anonymisation k en dessous de la taille du groupe. Cela rend la méthode adaptée à l’analyse d’événements rares ou de sous-populations sans compromettre la confidentialité.

Est-ce qu'on peut conserver le lien entre donnée personnelle et avatar ?

Non, cela mettrait en échec l’anonymisation telle que défini par le RGPD. C’est un processus irréversible.

Quelle différence avec les concurrents ?

Nos métriques et notre rapport d'anonymisation qui vous permettent de prouver la conformité et l'utilité sont uniques. De plus, notre vitesse de calcul ainsi que la transparence et l'explicabilité de la méthode sont des points différenciants. Pour en savoir plus sur la méthode : https://www.nature.com/articles/s41746-023-00771-5

Est-ce qu'on peut anonymiser en flux ?

Nous avons déjà réalisé des projets d’anonymisation en flux avec succès. Le challenge consiste à anonymiser de petits volumes de données en gardant un maximum d’utilité. Pour relever ce challenge, nous avons développé une approche par batch.

Comment puis-je faire confiance à la robustesse de la méthode ?

Notre méthode est attestée conforme par la CNIL, publiée dans Nature Digital Medicine, et chaque génération de données synthétiques s’accompagne d’un rapport de qualité mesurant confidentialité et utilité. Nous croyons en la transparence, avec une partie de notre code accessible en open source. Lire l’article complet sur la robustesse et la transparence de notre approche.

La méthode permet-elle l’anonymisation de texte libre ?

Pas directement. Le texte libre est non structuré et il n’existe pas encore de cadre légal clair définissant ce qu’est un texte anonyme. Cependant, il est possible de structurer le texte via du NLP, d’anonymiser la version structurée avec Avatar, puis de régénérer du texte (si besoin) avec un modèle de langage.
Cela garantit que les données personnelles ne servent pas à entraîner un modèle.
Nous avons déjà implémenté ce flux de travail — contactez-nous pour en savoir plus.

Peut-on anonymiser des images avec cette méthode ?

Pas pour le moment. Il n’existe pas de définition légale claire de ce qui rend une image anonyme. Toutefois, vous pouvez anonymiser les données structurées liées à des images pseudonymisées, puis les réassocier ensuite via un appariement probabiliste. Ce cadre a été utilisé dans des cas réels — contactez-nous pour plus de détails.

Quand mes données sont-elles considérées comme anonymes ?

L’anonymat des données n’est pas un statut binaire — il dépend du contexte d’usage. Pour l’évaluer, il faut mesurer le risque résiduel de réidentification selon les critères définis par le CEPD. La méthode Avatar fournit des métriques automatiques et des seuils recommandés pour les cas stricts comme les données ouvertes. Si le risque est trop élevé, des protections supplémentaires peuvent être appliquées pour garantir la conformité.

Quel besoin pour le déploiement chez nous en terme d’infrastructures ?

Le déploiement est complètement industrialisé grâce à Docker et Kubernetes. Nos équipes s’adaptent à toutes les architectures en quelques heures.

Pourquoi la méthode avatar est-elle conforme vis-a-vis de la CNIL ?

La CNIL a évaluée avec succès notre méthode d'anonymisation sur la base de nos métriques de sécurité et d’utilité respectant les 3 critères énoncés par le CEPD pour définir une anonymisation (avis du 05/2014).

Pourquoi ne pas utiliser de modèles génératifs (GAN, LLM, etc.) pour créer des données synthétiques ?

Nous privilégions une approche statistique, transparente et explicable, plutôt que des modèles génératifs de type “boîte noire”.
Cela nous permet de maîtriser le signal statistique, de garantir la conformité réglementaire (évaluation du risque de réidentification incluse) et d’obtenir des résultats plus rapides, robustes et adaptables. Lire l'article complet sur notre choix d’approche statistique.

Pourquoi la méthode Avatar n’utilise pas de confidentialité différentielle ?

La confidentialité différentielle reste une approche intéressante mais imparfaite : difficile à paramétrer, dégradant souvent la qualité des données et coûteuse en calcul.
Nous avons préféré une méthode qui vérifie la confidentialité a posteriori, assure une conformité totale avec le CEPD et offre des garanties plus solides et mesurables. Lire notre article complet sur les limites de la confidentialité différentielle.

Quelle est la différence entre l'anonymisation et la pseudonymisation ?

La pseudonymisation masque l’identité d’une personne en remplaçant ses identifiants par un pseudonyme ou un code, mais conserve un lien réversible : il reste possible de retrouver la personne grâce à une clé. Ces données restent donc personnelles.

L’anonymisation, au contraire, rompt définitivement tout lien entre les données et l’individu. Les données deviennent alors non personnelles, car il est impossible de ré-identifier quelqu’un, même indirectement. Pour en savoir plus, consultez cet article complet dédié à la question.