La méthode avatar utilise une approche centrée sur l'individu. Chaque observation originale génère une simulation stochastique locale menant à son avatar.
L'objectif de cette méthode est de créer un avatar (nouvel individu anonyme) pour chaque individu original afin de protéger les informations personnelles - potentiellement identifiantes - de ce dernier.
Considérons un jeu de données sensible de taille $(n, p)$, où $n$ est le nombre d'individus, avec $p$ variables.
Les individus sont projetés dans un espace multidimensionnel numérique. On peut représenter chaque individu $X_i$ par ses coordonnées:
$$ \begin{aligned}
X_1(x_{11},\, x_{12},&\, \ldots,\, x_{1p}) \\
X_2(x_{21},\, x_{22},&\, \ldots,\, x_{2p}) \\
\vdots \\
X_n(x_{2n},\, x_{n2},&\, \ldots,\, x_{np}) \\
\end{aligned}$$
Pour chaque individu $i$, on peut identifier ses $k$ plus proches voisins ordonnés du plus proche au plus éloignés $V_i$ = ($V_{i,0}$, ..., $V_{i,k}$), où chaque $V_{i,j}$ est un individu de $X$. Pour chaque $i$, on introduit la fonction $\phi_i$ qui à chaque élément $j$ de $0$ à $k$, associe l'indice de $V_{i,j}$ dans la matrice $X$. On a donc $X_{\phi(j)} = V_{i,j}$.
Lors de l'avatarisation, on obtiendra alors pour chaque $X_i$ un nouveau point $X_i’$ tel que:
$$X_i' = \sum_{j=0}^{k}w_{i,j} X_{\phi(j)}$$
Où:
- $\phi$ a été défini juste au dessus
- $k$ est le paramètre de la méthode d'avatarisation, définissant le nombre de voisins à considérer pour chaque point.
- $X_j$ est l'individu j
- $w_{i,j}$ sont les poids des $k$ plus proches voisins de l'individu $X_i$.
- $X_i’$ est le vecteur coordonnées de l'avatar de l'individu $X_i$.
Chaque $w_{i,j}$ peut être calculé selon:
$$w_{i,j} = \frac{P_j}{\sum_{t=0}^k P_t}$$
Chaque $P_t$ représente le poids attribué à chaque voisin du point calculé. En effet, chaque voisin contribue différemment à la nouvelle valeur du point en fonction de sa distance et d’autres paramètres par rapport à ce dernier. Par exemple, les points éloignés auront une contribution moindre comparée à celle des points proches. Pour plus d’information, voir la doc [1].
Suppression des valeurs aberrantes
Les valeurs aberrantes, ou outliers, sont des observations qui diffèrent significativement des autres données. Elles peuvent biaiser les modèles d'apprentissage ou autres modèles statistiques, et réduire leur précision. Dans un même temps, afin deprotéger les individus les plus particuliers, l’avatarisation a tendance à recentrer vers la masse des individus: on peut voir cette transformation comme une opération qui supprime les outliers. En éliminant les valeurs aberrantes, l’avatarisation pourrait améliorer les performances des modèles. Des données plus propres et plus cohérentes pourraient permettre aux modèles de mieux généraliser et d'obtenir de meilleures performances.
Démonstration
On modélise un jeu de donnée en tant que somme de donnée X avec un certain bruit N qui suit la loi normale.
On considère un jeu de données, où un bruit aléatoire a été ajouté aux valeurs originales, pouvant provenir d'erreurs de mesure, de variations environnementales ou d'anomalies de collecte. Les données réelles peuvent être réparties selon une certaine distribution. Lorsque du bruit, avec un grand écart type, est ajouté à ces données, elles sont alors susceptibles de contenir des valeurs aberrantes.
Ainsi, chaque point de l'espace peut être exprimé sous la forme:
$$Y_i = X_i + N_i$$
Avec $N_i (n_{i,0}, ..., n_{i,k})$ une variable aléatoire qui suit une loi normale, $N_i \sim (0,\sigma ^2)$. Plus $\sigma ^2$ est grand, plus le jeu donne présente des données aberrantes.
En appliquant l’avatarisation chaque $Y_i$ se transforme en $Z_i$ en suivant:
$$\begin{flalign}
Z_i &= \sum_{j=0}^k w_{i,j} Y_j \\
&= \sum_{j=0}^k w_{i,j} X_j + \sum_{j=0}^k w_{i,j} n_{i,j} \\
\end{flalign}
$$
Le nouveau point, obtenu par la somme pondérée des $X_j$ avec les poids $w_{i,j}$ , est le point avatarisé des données originales, c'est-à-dire le résultat de l'avatarisation des points originaux uniquement.
Comme l’avatarisation est une transformation qui homogénéise l’information, la nouvelle source de bruit ou de valeurs aberrantes $N'$ est potentiellement du bruit avatarisé: $N' = \sum_{j=0}^k w_{i,j} n_{i,j}$.
D'où la nécessité d'étudier ce terme et son impact sur le nouvel avatar.
Analyze de la variance du terme $N'$:
$V(\sum_{j=0}^k w_{i,j} n_{i,j})= \sum_{j=0}^k V(w_{i,j} n_{i,j})$ (les $N_i$ sont des variables aléatoires indépendantes)
$\quad \quad \quad \quad= \sigma^2 \sum_{j=0}^k w_{i,j}^2$ (hypothèse sur la loi normale de $N_i$)
Maintenant:
$$\begin{flalign}
\sum_{i=0}^k w_i^2 &= \sum_{i=0}^k (\frac{P_i}{\sum_{j=0}^kP_j})^2 \\
&= \frac{\sum_{i=0}^k P_i^2}{(\sum_{i=0}^k P_i)^2}< 1
\end{flalign}
$$
On aura alors:
$$
\sigma ^2 \sum_{j=0}^k w_{i,j}^2 < \sigma ^2
$$
D'où
$$
V(\sum_{j=0}^k w_{i,j} n_{i,j}) < V(N_i)
$$
Ainsi, en utilisant l'avatarisation, on peut dire que la variance du bruit des valeurs anonymisées est inférieure à celle du bruit des valeurs originales. Cela peut s’expliquer par un bruit réduit sur notre jeu de données, et par conséquent, les valeurs aberrantes seront efficacement éliminées.
En éliminant les valeurs aberrantes, nous améliorons donc la précision des modèles d'apprentissage ou statistique. Cela permet d'éviter que des données extrêmes ne biaisent les résultats, garantissant ainsi des prédictions plus fiables et une meilleure généralisation aux nouvelles données. En conséquence, les modèles sont plus robustes et performants.
Conclusion
Nous avons donc montré dans cet article en quoi l'avatarisation pouvait s'inscrire dans une méthode de pré-traitement visant à réduire le bruit des données d'apprentissage, afin de perfectionner la convergence du modèle à entrainer.
Note: le bruit a été défini comme suivant une loi normale dans cet article, ce qui est une modélisation potentiellement simpliste de la réalité.
Ressources:
[1] https://www.nature.com/articles/s41746-023-00771-5
Écrit par: Karl Saliba, Julien Petot & Gaël Russeil