Solutions

Octopize a développé un logiciel innovant pour utiliser les données personnelles via des données de synthèse anonymes, les données avatar. Les données avatar libèrent les usages secondaires des données, le partage des données devient plus simple, plus rapide et sécurisé.
Les usages sont larges :

Entraîner des modèles de Machine Learning / IA gen

Contexte :

Votre entreprise souhaite entraîner des modèles de Machine Learning / IA générative sur des données personnelles. Cependant, les contraintes légales (RGPD) ainsi que l’éthique ne le permettent pas. En effet, entraîner des IA avec des données personnelles compromet fortement la confidentialité des individus car les données personnelles peuvent être réidentifiantes. Vos projets d’IA sont donc complexifiés, ralentis voire impossible sans l’anonymisation.

Solution :

Notre logiciel d’anonymisation avatar offre une solution efficace, sécurisée et éthique. En effet, vous pouvez utiliser des données synthétiques anonymes générées par notre logiciel avatar pour entraîner vos modèles en toute conformité.

Résultats :

  • Conservez les mêmes informations statistiques que les données originales, en garantissant la qualité de vos modèles.
  • Supprimez le risque de ré-identification des individus.
  • Libérez le potentiel de vos projets d'IA en utilisant des données synthétiques anonymes.
Voir les cas clients

Valoriser les données

Contexte :

Votre entreprise ne peut pas accéder à des données personnelles en raison de la réglementation (RGPD) et de la protection de la vie privée.

Solution :

Le logiciel avatar permet de libérer ces données personnelles pour des usages secondaires tels que le développement de modèles d’intelligence artificielle, la valorisation scientifique ou la revente de données (Data Brocker).

Résultats :

  • Accédez aux données rapidement pour valoriser leur qualité informative et développer votre business.
  • Prenez rapidement des décisions fondées sur des données pertinentes en toute sécurité.
  • Améliorez vos connaissances (profilage) sans porter atteinte à la confidentialité des personnes.
Voir les cas clients

Partager les données

Contexte :

En raison du RGPD, le partage de données personnelles en dehors de votre entreprise et de l'Europe devient difficile. Cette réglementation peut ralentir vos projets.

Solution :

Grâce au logiciel avatar, vous générez des données synthétiques et anonymes qui sortent du cadre du RGPD. Cela vous offre la possibilité de partager ces données en toute sécurité dans le monde entier.

Résultats :

  • Vous pouvez partager les données avatar à forte valeur informative à vos partenaires.
  • Les données sont libérées pour les usages secondaires : vos projets internationaux sont ainsi facilités. 
Voir les cas clients

Évaluer la qualité des données

Contexte :

Votre département R&D souhaite exploiter des données collectées par d'autres organismes pour innover. Vous ne pouvez pas évaluer le potentiel et la qualité de ces données avant acquisition : il y a une asymétrie de l'information.

Solution :

Vous pouvez accéder au potentiel des données avant acquisition en utilisant les données avatar. Les données synthétiques avatar sont anonymes, ainsi elles sont plus rapidement partageables et peuvent permettre d'évaluer la pertinence de jeux de données en amont d'un partenariat.

Résultats :

  • Accédez aux données rapidement avec une garantie de ROI.
  • Évaluez le potentiel des données avant acquisition pour vos usages secondaires.
  • Résolvez ainsi l’asymétrie d'information entre vous et vos partenaires.
Voir les cas clients

Protéger les individus

Contexte :

Votre entreprise souhaite analyser des données pour mieux comprendre ses clients, leurs parcours, mais ne veut faire aucun compromis sur la confidentialité.

Solution :

Le logiciel avatar permet de protéger les individus à l'origine des données. Cette protection de la vie privée est documentée grâce à des métriques de confidentialité.

Résultats :

  • Analysez vos données (profilage) sans atteinte à la confidentialité des individus.
  • Documentez la preuve de cette confidentialité (retrouvez plus de détails dans notre documentation technique).
Voir les cas clients

Réaliser un projet de Science Ouverte

Contexte :

Vous voulez publier des données personnelles dans votre papier de recherche ou vous devez partager des données personnelles pour un projet académique (hackaton, open data). Le problème ? Vous ne pouvez pas collecter les consentements individuels requis pour cette nouvelle finalité.

Solution :

Les données avatar sortent du cadre du RGPD : elles ne sont plus considérées comme des données personnelles. Vous n’avez donc plus besoin de collecter de nouveaux consentements.

Résultats :

  • Partagez vos données anonymisées dans vos publications.
  • Organisez un hackathon (Machine Learning...) en conservant la qualité informative des données d'origine.
Voir les cas clients

Conserver les données sans durée limite de rétention

Contexte :

Vous souhaitez conserver des données personnelles que vous avez collectés mais vous êtes contraints par les limites de temps imposées par le RGPD.

Solution :

Les données de synthèse anonymes avatar vous permettent de conserver sans limite de temps vos données et leur qualité informative. En effet, les données avatar sortent du cadre du RGPD et ne sont donc plus contraintes par des restrictions de temps.

Résultats :

  • Conservez vos données (leur qualité & granularité) sans limite de temps.
Voir les cas clients

Tester les données dans votre environnement hors production

Contexte :

Votre base de données produite en interne est exposée à des risques de violation de la vie privée. Vous avez besoin d'anonymiser vos données pour les exploiter hors production (sans perdre la granularité et la forme initiale de la base de données). 

Solution :

Avec le logiciel avatar, vous rendez votre base de données anonyme tout en préservant la granularité, la qualité des données d'origine et les liens hiérarchiques.

Résultats :

  • Améliorez vos tests hors production en travaillant facilement sur votre base de données anonyme.
  • Évitez les fuites de données en arrêtant d'exploiter des données personnelles.
Voir les cas clients

FAQ

Est-ce qu'on peut conserver le lien entre donnée personnelle et avatar ?

Non, cela mettrait en échec l’anonymisation telle que défini par le RGPD. C’est un processus irréversible.

Quelle différence avec les concurrents ?

Nos métriques et notre rapport d'anonymisation qui vous permettent de prouver la conformité et l'utilité sont uniques. De plus, notre vitesse de calcul ainsi que la transparence et l'explicabilité de la méthode sont des points différenciants. Pour en savoir plus sur la méthode : https://www.nature.com/articles/s41746-023-00771-5

Est-ce qu'on peut anonymiser en flux ?

Nous avons déjà réalisé des projets d’anonymisation en flux avec succès. Le challenge consiste à anonymiser de petits volumes de données en gardant un maximum d’utilité. Pour relever ce challenge nous avons développé une approche par batch.

Quel besoin pour le déploiement chez nous en terme d’infrastructures ?

Le déploiement est complètement industrialisé grâce à Docker et Kubernetes. Nos équipes s’adaptent à toutes les architectures en quelques heures.

Pourquoi la méthode avatar est-elle conforme vis-a-vis de la CNIL ?

La CNIL a évaluée avec succès notre méthode d'anonymisation sur la base de nos métriques de sécurité et d’utilité respectant les 3 critères énoncés par le CEPD pour définir une anonymisation (avis du 05/2014).

Pourquoi ne pas anonymiser via des méthodes génératives ?

Le fait que les données synthétiques soient des données générées artificiellement pourrait indiquer que ces données sont anonymes par défaut. La possibilité de partager la méthode de génération plutôt que les données elles-mêmes semblent être une garantie supplémentaire de respect de la vie privée et un changement de paradigme dans l’utilisation des données. Cependant, les modèles génératifs peuvent également ne pas garantir la confidentialité des données d’apprentissage. En effet, les modèles génératifs peuvent mémoriser des détails spécifiques des données d’apprentissage, y compris la présence d’individus spécifiques ou d’informations personnelles, et incorporer ces informations dans les données synthétiques générées. Ce type d’atteinte à la vie privée est appelé Membership inference attack, lorsqu’un pirate tente de déterminer si les données d’une personne spécifique ont été utilisées pour former un modèle de Machine Learning. Cela peut entraîner de graves violations de la vie privée, en particulier avec des données sensibles.