Nos publications scientifiques

October 16, 2024
Être ou ne pas être, quand les données synthétiques rencontrent la pharmacologie clinique : une étude ciblée sur la pharmacogénétique
L'utilisation de données synthétiques dans la recherche pharmacologique a suscité un intérêt considérable en raison de son potentiel pour répondre aux préoccupations en matière de confidentialité et promouvoir la science ouverte. Dans cette étude, nous avons mis en œuvre et comparé trois méthodes de génération de données synthétiques, CT-GAN, TVAE et une implémentation simplifiée d'Avatar, pour un ensemble de données pharmacogénétiques précédemment publié comprenant 253 patients avec une mesure par patient (non longitudinale). L'objectif de cette étude était d'évaluer les performances de ces méthodes en termes d'utilité des données et de compromis en matière de confidentialité. Nos résultats ont montré que CT-GAN et Avatar utilisés avec k = 10 (nombre de patients utilisés pour créer le modèle local de génération) offraient les meilleures performances globales en termes d'utilité des données et de préservation de la confidentialité. Cependant, la méthode TVAE a montré un niveau de performance relativement inférieur dans ces aspects. En termes d'estimation du rapport de risque, Avatar avec k = 10 a produit des estimations du rapport de risque les plus proches des données originales, tandis que CT-GAN a légèrement sous-estimé le rapport de risque et que TVAE a montré l'écart le plus significatif par rapport au rapport de risque original. Nous avons également étudié l'effet de l'application multiple des algorithmes pour améliorer la stabilité des résultats en termes d'estimation du rapport de risque. Nos résultats suggèrent que cette approche pourrait être bénéfique, en particulier dans le cas de petits ensembles de données, pour obtenir des résultats plus fiables et plus robustes. En conclusion, notre étude fournit des informations précieuses sur les performances des méthodes CT-GAN, TVAE et Avatar pour la génération de données synthétiques dans la recherche pharmacogénétique. L'application à d'autres types de données et d'analyses (basées sur les données) utilisées en pharmacologie devrait faire l'objet d'études plus approfondies.

April 5, 2023
Notebook pédagogique sur les utilisations des données synthétiques
Les données synthétiques constituent l'une des solutions pour la recherche sur les données de santé, car elles peuvent remplacer les données réelles. Cependant, il est important de garantir leur qualité. Afin de permettre à l'écosystème de s'approprier ce sujet, Octopize, une start-up spécialisée dans la génération de données synthétiques anonymes, et le Health Data Hub, la plateforme nationale de données de santé, ont collaboré pour produire un notebook pédagogique comparant différentes méthodes de génération de données synthétiques. Ce notebook fournit des outils permettant d'évaluer l'anonymat et la qualité des données synthétiques générées. La méthode de la start-up Octopize prouve à la fois l'anonymat et garantit la reproductibilité des analyses. De plus, elle peut être appliquée à n'importe quel cas d'utilisation, avec peu de difficulté pour former les données.

October 23, 2020
La localisation des anévrismes intracrâniens est le principal facteur associé à la rupture dans la population ICAN
CONTEXTE : Comprendre le mécanisme physiopathologique de la formation d'un anévrisme intracrânien (AI) est une condition préalable à l'évaluation du risque potentiel de rupture. À l'heure actuelle, il n'existe aucun biomarqueur ni outil diagnostique fiable permettant de prédire la formation ou l'évolution des anévrismes intracrâniens. OBJECTIF : Développer des outils diagnostiques et prédictifs du risque de formation et de rupture d'un AI. MÉTHODES : Le projet français ICAN est un programme de recherche national, multicentrique et non interventionnel. Tous les AI bifurqués typiques seront inclus. Pour les formes familiales, un dépistage supplémentaire des AI sera effectué chez les parents au premier degré. Grâce à une description précise du phénotype et à un dépistage génétique à haut débit, nous visons à identifier de nouveaux gènes impliqués dans les AI. Ces marqueurs génétiques potentiels seront testés sur de larges groupes de patients. Toutes les voies pertinentes identifiées seront explorées plus en détail dans une large cohorte de porteurs d'AI sporadique, qui sera bien documentée par des données cliniques, biologiques et d'imagerie. RÉSULTATS ATTENDUS : La découverte de facteurs de risque génétiques, une meilleure compréhension de la physiopathologie et l'identification des mécanismes moléculaires responsables de la formation de l'AI seront des bases essentielles pour le développement de biomarqueurs et l'identification de cibles thérapeutiques.

July 31, 2024
Application de données synthétiques anonymisées : le cas des données issues de la cohorte CONSTANCES
Les bases de données massives sont de plus en plus nombreuses. Cependant, la question de la sécurité des données et le risque de réidentification des données pseudonymisées limitent légitimement la libre circulation et le partage des données. Les données synthétiques constituent un outil puissant pour traiter le problème de la confidentialité à la racine, mais leur construction nécessite souvent des hypothèses sur la relation entre les variables d'intérêt. L'objectif de cette étude était de valider l'usage des données synthétiques par rapport aux associations statistiques d'une grande base de données synthétisée à l'aveugle. À partir des données extraites de la cohorte CONSTANCES représentant la population générale, un ensemble de données synthétiques « avatar » unique a été créé de manière aveugle à l'aide du logiciel de données synthétiques Octopize. Trois analyses d'intérêt ont été choisies pour comparer les associations trouvées dans les ensembles de données « brutes » et « avatar » : le risque d'accident vasculaire cérébral, par type et tous accidents vasculaires cérébraux confondus, les facteurs associés à la douleur au genou et les types de handicap associés à la douleur au genou. Des modèles logistiques ont été calculés et une comparaison qualitative et quantitative des associations a été effectuée. Résultats : Au total, 162 434 observations ont été incluses dans chaque ensemble. Sur les 19 variables utilisées, 3 présentaient une distribution non statistiquement significative entre les données brutes et les avatars, mais une seule catégorie de variables présentait une différence d'OR cliniquement significative (≥ 2 ou ≤ 0,5). Sur les 172 paires d'OR calculées dans les trois analyses principales, plus de 77 % présentaient une différence entre l'OR brute et l'OR de l'avatar ≤ 0,5. Moins de 7 % des paires d'OR présentaient une discordance sur la signification des associations (kappa = 0,82) et parmi ces paires d'OR, une seule présentait une différence d'OR supérieure à 0,5. Après avoir produit un ensemble de données synthétiques avatar d'une grande base de données aveugle, les associations trouvées sont fiables malgré l'utilisation de variables reconstruites. Non soumises aux contraintes du RGPD, les données synthétiques semblent être un atout majeur dans l'utilisation de données massives, même sans hypothèse de travail, et permettraient le partage de données malgré certaines limites.

October 1, 2025
Génération conforme au principe de « privacy by design » de deux essais cliniques virtuels sur la sclérose en plaques et leur publication sous forme d'ensembles de données ouvertes
Le partage des informations fournies par les données individuelles des patients est limité par les cadres réglementaires en raison de préoccupations liées à la confidentialité. L'intelligence artificielle générative pourrait générer des populations de patients virtuels partageables, en tant que substituts d'ensembles de données de référence sensibles. Une démonstration explicite de la confidentialité est exigée. Ici, nous avons déterminé si une technique de confidentialité dès la conception appelée « avatars » peut générer des essais cliniques randomisés (ECR) synthétiques. Nous avons généré 2 160 ensembles de données synthétiques à partir de deux ECR sur la sclérose en plaques (NCT00213135 et NCT00906399) avec différentes configurations afin de sélectionner un ensemble de données synthétiques offrant une confidentialité et une utilité optimales pour chacun. Plusieurs mesures de confidentialité ont été calculées, notamment la protection contre les attaques d'inférence d'appartenance basées sur la distance. Nous avons évalué l'utilité en comparant les distributions variables et en vérifiant que tous les critères d'évaluation rapportés dans les publications avaient les mêmes directions d'effet, se situaient dans les intervalles de confiance de 95 % rapportés et avaient la même signification statistique. La protection contre les attaques par inférence d'appartenance était la mesure de confidentialité la plus difficile à optimiser, mais la technique a permis d'obtenir une confidentialité robuste et une réplication des critères d'évaluation principaux. Grâce à des configurations de génération optimisées, nous avons pu sélectionner un ensemble de données dans chaque ECR reproduisant tous les critères d'efficacité des groupes placebo et de traitement commercial avec une confidentialité satisfaisante. Afin de démontrer le potentiel de partage des données de santé, nous avons publié les deux groupes placebo sous forme d'ensembles de données ouverts.

Architecture génétique des patients atteints de sclérose en plaques dans la cohorte nationale française OFSEP-HD
La sclérose en plaques (SEP) est une maladie inflammatoire auto-immune du système nerveux central (SNC) qui touche la gaine de myéline et affecte 2,8 millions de patients dans le monde, principalement dans les pays économiquement avancés. La cohorte multicentrique OFSEP-HD (Registre français de la sclérose en plaques - Haute définition) comprend 2 667 échantillons génétiques de patients atteints de SEP, avec un suivi clinique, biologique et d'imagerie sur 5 ans. Nous décrivons ici le profil génétique de la cohorte à partir des données générées par les puces de génotypage Affymetrix Precision Medicine Research Array (PMRA), qui ont permis de recueillir 888 799 variants génomiques, et jusqu'à 8,5 millions de variants après imputation. Notre analyse s'est concentrée sur l'ascendance génétique, l'analyse des mélanges et les antigènes leucocytaires humains (HLA), y compris l'inférence des haplotypes. L'analyse en composantes principales (ACP) a permis d'identifier sept groupes ancestraux comprenant 2 177 patients (85,6 %) d'ascendance européenne clairement définie. Nous avons observé 232 patients atteints de SEP d'ascendance génétique nord-africaine, alors que 120 d'entre eux (51,7 %) n'ont pas déclaré eux-mêmes être d'origine nord-africaine, ce qui souligne une fois de plus les limites des descripteurs de population auto-évalués. Afin de promouvoir le partage des données, nous avons mis en place la génération d'un ensemble de données synthétiques réaliste et anonyme en adaptant une méthodologie connue de génération de données synthétiques. Ce travail dévoile le paysage génétique et les profils hétérogènes de la cohorte OFSEP-HD et propose un ensemble de données génétiques synthétiques ouvertes pour des analyses plus approfondies.

March 4, 2025
Exploiter les données longitudinales des patients pour améliorer le risque de mortalité hospitalière à un an
Une prédiction précise de la survie à moyen terme après l'admission est nécessaire pour identifier les patients en fin de vie qui pourraient bénéficier de discussions plus précoces sur les objectifs des soins. Bien que des études antérieures aient exploité les données d'admission issues des dossiers médicaux électroniques (DME) pour prédire le score HOMR (risque de mortalité hospitalière à un an) (van Walraven, 2014 ; van Walraven et al., 2015 ; van Walraven et Forster, 2017 ; Wegier et al., 2019 ; Taseen et Ethier, 2021), elles se sont concentrées sur des admissions uniques, sans tenir compte des antécédents longitudinaux du patient et de leur impact sur le pronostic. Pour combler cette lacune, nous avons développé le réseau neuronal ELSTM (Ensemble Long Short-Term Memory), qui apprend à partir de multiples visites du même patient afin d'améliorer la précision du score HOMR. En outre, nous avons généré un ensemble de données synthétiques et l'avons rendu public afin d'encourager la recherche dans ce domaine tout en préservant la confidentialité des patients.

August 25, 2021
Application d'une nouvelle méthode d'anonymisation des données d'électrocardiogramme (Chronos)
Cet article présente Chronos, une méthode d'anonymisation axée sur les séries chronologiques. La méthode est testée sur des séries chronologiques d'électrocardiogrammes issues de la base de données MIT-BIH Arrhythmia Data Base et du Physikalisch Technische Bundesanstalt (PTB) Diagnostic ECG, avec des mesures empiriques de confidentialité fournies par la méthode avatar. Les propriétés de conservation du signal de la méthode sont également testées graphiquement et informatiquement en entraînant des algorithmes sur les ensembles de données originaux et anonymisés. Les modèles entraînés sur les données anonymisées atteignent une différence de précision de 3 % par rapport aux modèles originaux. La méthode produit des échantillons similaires aux données originales, tout en protégeant les individus derrière les données en produisant de nouvelles données synthétiques.

March 10, 2023
Génération de données synthétiques centrées sur le patient, aucune raison de risquer la réidentification dans l'analyse des données biomédicales
La méthode avatar est une approche unique de génération de données synthétiques qui préserve la structure et la pertinence statistique de l'ensemble de données original tout en respectant la vie privée des individus. Cette technique utilise une approche centrée sur le patient en créant des simulations locales sur chaque individu. La méthode est conçue pour répondre aux trois critères définis par le Comité européen de la protection des données (CEPD) pour évaluer la robustesse d'un processus d'anonymisation : individualisation, corrélation et inférence. Par rapport à d'autres techniques telles que les arbres de décision et les GAN (réseaux antagonistes génératifs), la méthode avatar présente une utilité similaire pour préserver la structure et la pertinence statistique de l'ensemble de données original. En outre, la méthode avatar comprend des mesures de confidentialité qui évaluent les données avatar par rapport aux trois critères définis par le CEPD.