Comment construire un modèle de Machine Learning avec des données anonymes ?

Découvrez comment construire un modèle de Machine Learning avec des données anonymes ! Avec le logiciel d'anonymisation des données avatar, les chercheurs ont désormais accès aux données pour le Machine Learning et peuvent les utiliser sans compromettre la confidentialité des patients. En trouvant le juste équilibre entre protection de la confidentialité et accessibilité des données, la recherche dans le domaine de la santé progresse tout en préservant la confiance des patients.

Comment construire un modèle de Machine Learning avec des données anonymes ?

Le Machine Learning, ou en français apprentissage automatique, a révolutionné la manière dont les ordinateurs exécutent les tâches en leur permettant d'apprendre à partir de modèles et de données sans programmation explicite. Cependant, l'accès aux données pour le Machine Learning présente des défis uniques en raison des préoccupations en matière de protection de la vie privée et des cadres réglementaires, ce qui est complexe et prend beaucoup de temps. En outre, un modèle formé à partir de données personnelles présente toujours un risque de ré-identification des données utilisées si le modèle devait être rendu public. Pour surmonter ces obstacles, Octopize a développé avatar, son logiciel d'anonymisation des données qui permet d'utiliser des données de santé pour l'entraînement de modèles sans compromettre la vie privée des patients. En trouvant un juste équilibre entre la protection de la confidentialité et l'accessibilité des données, les chercheurs peuvent exploiter les données de santé pour faire avancer la recherche dans le domaine de la santé tout en conservant la confiance des patients.

Le Machine Learning

Le Machine Learning est une approche puissante qui permet d'enseigner aux ordinateurs comment effectuer des tâches en apprenant à partir de données, sans être explicitement programmé. Il repose sur l'idée que les machines peuvent automatiquement améliorer leurs performances dans une tâche au fil du temps, en analysant et en reconnaissant des schémas dans de grandes quantités de données. Grâce à un processus d’entraînement, les algorithmes sont entraînés sur des données étiquetées afin d'identifier des schemas et de faire des prédictions ou de prendre des décisions. Cette technologie trouve des applications dans divers domaines tels que la reconnaissance d'images et de la parole, les systèmes de recommandation, les soins de santé, la finance et bien d'autres encore. Bien que le concept puisse sembler complexe, le Machine Learning nous simplifie les tâches en permettant aux ordinateurs d'apprendre et de prendre des décisions intelligentes, ce qui permet de faire progresser la technologie et d'améliorer notre vie quotidienne.

Difficultés

Cependant, à notre époque, il n'est pas facile d'accéder à la grande quantité de données nécessaires à l'entraînement du modèle. Deux obstacles principaux se distinguent : la difficulté d'accès aux données et le risque pour la confidentialité de l'individu.

Un accès qui prend du temps

L'accès aux données à des fins de Machine Learning peut être un processus long et complexe.

En particulier, pour les données de santé, dites sensibles, il s'agit d'obtenir les autorisations nécessaires, de s'assurer de la conformité avec les réglementations en matière de protection de la confidentialité (HIPAA ou RGPD) et d'établir des accords de partage de données sécurisés avec les organisations et institutions concernées. Les chercheurs et les data scientists doivent souvent passer par des processus d'examen complets et demander l'approbation des comités d'éthique ou des conseils d'examen institutionnels pour accéder aux données de santé et les utiliser. Ces comités évaluent les objectifs de la recherche, les risques potentiels pour la confidentialité des patients et l'adéquation des mesures de sécurité avant d'autoriser l'accès. Ce processus d'examen peut prendre beaucoup de temps, parfois des mois, voire plus, en fonction de la complexité et de la sensibilité des données.

Outre les préoccupations relatives à la protection de la confidentialité et les cadres réglementaires, la dispersion des données peut compliquer davantage l'accès aux données et leur intégration. Les données de santé sont généralement dispersées entre plusieurs établissements de soin, ce qui complique la collecte d'un jeu de données complet pour l'entraînement des modèles de Machine Learning. Des accords de partage des données doivent être conclus avec chaque organisation, et des problèmes de compatibilité et d'interopérabilité peuvent survenir en raison des différents formats de données, systèmes et protocoles utilisés, ce qui peut encore allonger le temps nécessaire avant d'obtenir l'accès aux données.

Dans l'ensemble, l'accès aux données de santé pour la formation au Machine Learning se heurte à des obstacles importants en raison des préoccupations en matière de protection de la confidentialité, des cadres réglementaires et de la complexité de l'intégration des données. Ces difficultés peuvent entraîner des processus fastidieux et des retards dans l'obtention de l'accès aux données de santé.

Menace pour la confidentialité des patients

Un autre obstacle majeur est lié aux préoccupations en matière de protection de la confidentialité associées aux données de santé. L'entraînement d'un modèle sur des informations sensibles relatives aux patients présente le risque de ré-identifier des individus, un attaquant pouvant, entre autres, déduire l'appartenance au jeu de données à l'aide des prédictions faites par le modèle. C'est ce qu'on appelle une attaque par inférence d'appartenance [1]. En effet, même si les données ne sont pas disponibles, le modèle a encodé toutes les informations des données, et sans protection adéquate contre des attaques spécifiques, il reste le risque sous-jacent d'obtenir des informations sur les données par le biais du modèle.

L'anonymisation comme solution

Pour surmonter ces difficultés et accélérer le processus d'accès aux données médicales pour la création de modèles de Machine Learning, des techniques d'anonymisation peuvent être employées.

Il n'y a aucune raison de risquer la ré-identification des patients si les mêmes performances peuvent être obtenues avec des données anonymisées plutôt qu'avec les données originales. [2]

Lorsqu'elle est correctement appliquée, l'anonymisation peut considérablement atténuer le risque de ré-identification et accélérer l'accès aux données car une grande partie des procédures peuvent être contournées du fait que les données ne soient plus liées à des patients réels.

Chez Octopize, nous avons développé avatar, un logiciel d'anonymisation unique qui protège la confidentialité des individus tout en conservant la qualité et l’utilité des données. L'anonymisation consiste à modifier ou à supprimer les informations identifiables du jeu de données afin de garantir la confidentialité des patients.

Nous disposons de métriques uniques pour prouver que le respect de la confidentialité est conforme aux réglementations européennes sur l’anonymisation (avis du CEPD du 10/2014) et de mesures garantissant que la majeure partie de l'utilité a été conservée après la transformation.

En outre, nous avons validé empiriquement que les modèles de Machine Learning formés sur des données synthétiques ont le même pouvoir prédictif que les modèles formés sur les données originales, notamment dans le secteur de la santé [2][3]. Ceci est illustré dans la figure ci-dessous [4].

Conclusion

En conclusion, l'accès aux données de santé pour la formation au Machine Learning pose des problèmes importants en raison des préoccupations relatives à la protection de la confidentialité et du cadre réglementaire, et il existe un risque d'atteinte à la confidentialité des personnes par le biais du modèle. Cependant, l'utilisation de techniques d'anonymisation telles que la méthode avatar garantit automatiquement la conformité avec les réglementations en matière de protection de la confidentialité, car les données anonymisées ne sont pas liées à un individu, et il n'y a pas de risque d'autres attaques, car toute attaque viserait les données anonymisées et non les données d'origine. Dans l'ensemble, les chercheurs peuvent gagner de précieux mois en exploitant les données de santé pour faire progresser la recherche dans le domaine des soins, tout en respectant la confidentialité et les normes éthiques, et en conservant la confiance du public.

Références :

[1] Shokri et. al, Membership Inference Attacks against Machine Learning Models,. https://doi.org/10.48550/arXiv.1610.05820

[2] Guillaudeux et. al, Patient-centric synthetic data generation, no reason to risk re-identification in biomedical data analysis, https://doi.org/10.1038/s41746-023-00771-5

[3] Bennis et.al, Application of a novel Anonymization Method for Electrocardiogram data, https://doi.org/10.1145/3485557.3485581

[4] Barreteau et. al, Génération de signaux anonymes à partir de données non anonymes par modèle de mélange linéaire local, GRETSI 2023, (bientôt disponible)


Rédaction : Tom Crasset

Inscrivez-vous à notre newsletter tech !