Nos publications scientifiques

October 16, 2024
Être ou ne pas être, quand les données synthétiques rencontrent la pharmacologie clinique : une étude ciblée sur la pharmacogénétique
Cet article compare trois méthodes de génération de données synthétiques — CT-GAN, TVAE et Avatar — appliquées à un ensemble de données pharmacogénétiques. Les résultats montrent que Avatar (k = 10) et CT-GAN offrent le meilleur équilibre entre utilité des données et confidentialité, avec des estimations proches des données réelles. Cette étude souligne le potentiel des données synthétiques pour la recherche pharmacologique, tout en identifiant des pistes d’optimisation pour les petits jeux de données.

April 5, 2023
Notebook pédagogique sur les utilisations des données synthétiques
Cet article présente la collaboration entre Octopize et le Health Data Hub autour d’un notebook pédagogique dédié à la génération et l’évaluation de données synthétiques en santé. Ce travail compare plusieurs approches pour mesurer à la fois la qualité et le niveau d’anonymat des données produites. La méthode Octopize se distingue par sa capacité à garantir la confidentialité tout en préservant la reproductibilité scientifique, quel que soit le cas d’usage.

October 23, 2020
La localisation des anévrismes intracrâniens est le principal facteur associé à la rupture dans la population ICAN
Cet article présente le projet français ICAN, un programme national visant à mieux comprendre les mécanismes de formation et de rupture des anévrismes intracrâniens. En combinant analyses génétiques à haut débit, imagerie et données cliniques, le projet cherche à identifier de nouveaux gènes et biomarqueurs prédictifs du risque d’anévrisme. Ces travaux ouvrent la voie au développement de nouveaux outils diagnostiques et thérapeutiques pour une meilleure prévention des anévrismes.

July 31, 2024
Application de données synthétiques anonymisées : le cas des données issues de la cohorte CONSTANCES
Cet article présente une validation scientifique à grande échelle de la méthode Avatar d’Octopize, appliquée à la cohorte CONSTANCES (plus de 160 000 individus). Les résultats montrent que les données synthétiques reproduisent fidèlement les associations statistiques des données réelles, avec des écarts minimes et une forte concordance des résultats. Cette étude confirme que les données avatar offrent une alternative fiable et conforme au RGPD pour partager et exploiter les données massives en toute sécurité.

October 1, 2025
Génération conforme au principe de « privacy by design » de deux essais cliniques virtuels sur la sclérose en plaques et leur publication sous forme d'ensembles de données ouvertes
Cet article présente l’utilisation de la méthode Avatar pour générer des essais cliniques randomisés synthétiques à partir de données réelles de patients atteints de sclérose en plaques. Les résultats montrent que cette approche permet de reproduire fidèlement les analyses cliniques tout en garantissant une confidentialité robuste, y compris face aux attaques d’inférence les plus complexes. Deux ensembles de données placebo anonymes et ouverts ont ainsi été publiés pour démontrer le potentiel du partage sécurisé de données de santé.

Architecture génétique des patients atteints de sclérose en plaques dans la cohorte nationale française OFSEP-HD
Cet article présente l’analyse génétique de la cohorte OFSEP-HD, regroupant plus de 2 600 patients atteints de sclérose en plaques suivis sur cinq ans. L’étude met en lumière la diversité génétique des patients et les limites des auto-déclarations d’origine, tout en proposant la création d’un jeu de données génétiques synthétiques et anonymes pour favoriser le partage et la recherche ouverte.

March 4, 2025
Exploiter les données longitudinales des patients pour améliorer le risque de mortalité hospitalière à un an
Cette étude introduit ELSTM, un réseau neuronal qui analyse l’historique complet des patients pour prédire plus précisément leur risque de mortalité à un an après admission. Pour favoriser la recherche tout en préservant la confidentialité, les auteurs ont également publié un jeu de données synthétiques reproduisant les caractéristiques réelles des patients.

August 25, 2021
Application d'une nouvelle méthode d'anonymisation des données d'électrocardiogramme (Chronos)
Cet article présente Chronos : une méthode d’anonymisation dédiée aux données temporelles, testée sur des signaux ECG.Elle génère des données synthétiques fidèles aux originales, avec seulement 3 % de différence de précision sur les modèles entraînés.Une approche qui protège les individus tout en préservant la qualité scientifique des données.

March 10, 2023
Génération de données synthétiques centrées sur le patient, aucune raison de risquer la réidentification dans l'analyse des données biomédicales
Ce papier présente la méthode Avatar d’Octopize. La méthode Avatar génère des données synthétiques qui conservent toute la richesse statistique des données réelles, tout en garantissant la confidentialité des individus.Conçue selon les critères du Comité européen de la protection des données, elle offre une approche centrée sur le patient et une anonymisation robuste, sans compromis entre utilité et protection.


