Numalis

Numalis

Étudier la robustesse des modèles entraînés sur des données synthétiques

Challenges

  • Prouver la robustesse et la fiabilité des modèles : Mesurer si l'utilisation de données avatars (synthétiques) garantit une précision identique à celle des données réelles pour classer des informations.
  • Traiter la donnée complexe en série temporelle : Démontrer l’efficacité de la méthode sur des données chronologiques sensibles, notamment pour l’analyse automatisée des battements cardiaques (ECG). (https://www.kaggle.com/datasets/shayanfazeli/heartbeat/data)

Maintien de la qualité statistique & de l'utilité

Les zones instables (zone jaune) pour les modèles d'origine et avatar sont identiques

Les corrélations du modèle d'origine sont maintenues dans le modèle Avatar

Résultats

  • Maintien des corrélations temporelles : Les propriétés morphologiques du signal ECG sont statistiquement conservées après avatarisation.
  • Le modèle entrainé sur des données avatar est toujours aussi robuste que celui entrainé sur des données originales.
  • Conformité RGPD :
    • Les deux modèles ont la même dynamique de robustesse. Si l'un est conforme, l'autre sera également considéré comme conforme.
    • L’utilisation d’Avatar permet le partage des signaux ECG entre centres de recherche sans contrainte juridique.
"Dans notre collaboration avec Octopize, nous avons étudié la robustesse de modèles entraînés sur des données avatars. Les analyses réalisées avec Saimple ont montré que les données avatars ne modifient ni le comportement du modèle ni ses performances. Les métriques obtenues sont restées comparables à celles des données originales. Ces résultats confirment que les données avatars constituent une alternative fiable pour entraîner des modèles tout en respectant les contraintes de confidentialité." - Noëmie Rodriguez, Data Scientist & Project Manager @Numalis