ENSAI - CREST
https://marieetienne.github.io/MAF/
2025-11-03
$$
$$
Définition
\[I = \frac{1}{n} \sum_{i=1}^n d(x_i, g)^2, \] où \(g\) désigne le point qui résume le mieux l’ensemble des données.
C’est la quantité d’information contenue dans le nuage de points
ou
C’est la quantité d’information perdue lorsque l’on résume l’ensemble du nuages de points par le point \(g\)
Il faut donc une
une notion de distance
un point résumé
Quelle distance choisir et que représente \(g\) ?
On peut choisir la distance euclidienne \[d(x_i, g)^2 = \sum_{j=1}^p (x_{i}^j - g^j)^2.\]
\(g= (\bar{x^1}, \ldots, \bar{x^p})\) est un choix naturel et la distance euclidienne
D’autres choix sont possibles pour la distance, dont certaines adaptées aux variables qualitatives. Il faudra réfléchir à qui est \(g\) dans le cas de données qualitatives
le choix de la distance est le des différences entre ACP, AFC, ACM etc … A venir donc …
Definition
L’inertie par rapport à un point \(a \in {\mathbb{R}}^{p}\) est définie par
\[I_{\boldsymbol{a}} = \frac{1}{n} \sum_{i=1}^n d({x}_{i} - \boldsymbol{a})^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p  (x_i^k -a^k)^2\]
L’inertie par rapport à un point quantifie l’information perdue lorsque le jeu de données est résumé par ce point.
Quel est selon vous le point \(\boldsymbol{a}\) qui minimise l’inertie ?
\[argmin_{\boldsymbol{a}} I_{\boldsymbol{a}} = ??\]
BINGO !!!
Il s’agit du point \(\boldsymbol{g}=\boldsymbol{x_{\bullet}}=({x}_{\bullet}^1, \ldots, {x}_{\bullet}^p )^\top,\) avec \({x}_{\bullet}^k=\frac{1}{n} \sum_{i=1}^n x_{i}^k\), la valeur moyenne de la variable \(k\) sur l’ensemble des individus.
Si les variables étaient centrées, alors \(g=O\) l’origine sur repère.
\[\forall \boldsymbol{a}\in\mathbb{R}^p,\; I_\boldsymbol{a}=I_\boldsymbol{g} + \lVert\boldsymbol{a}- \boldsymbol{g}\rVert^2.\]
(preuve dans les notes de cours)
Rappel Definition
L’inertie du nuage de points représentés par \({\boldsymbol{X}}\) est l’inertie par rapport à son baycentre \[I = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - {g}\rVert^2 \]
Conséquence
Le meilleur résumé du nuage de points à un unique point est le barycentre du nuage de points, c’est à dire la moyenne sur chacune des dimensions.
La quantité d’information perdue lors de ce résumé est \(I\)
Si l’on souhaite accorder plus de poids à certains individus (par exemple poids du pays en fonction de sa population), on peut considérer le nuage de points pesants \((x_i, \omega_i)\) où \(\omega_i\) est le poids associé à l’individu \(i\), avec \(\sum_i \omega_i=1\)
Le barycentre est bien défini \(g\) comme le barycentre des points pondérés et l’inertie par rapport à un point \({\boldsymbol{a}}\) quelqueconque est donné par
\[I = \frac{1}{n} \sum_{i=1}^n \omega_i \lVert\boldsymbol{x}_{i} - {a}\rVert^2 \]
On a évoqué la distance Euclidienne mais toute autre distance est possible. Chaque choix de distance correspond à une méthode d’analyse factorielle différente.
Cours présenté sans les poids mais tout se généralise
Dans le cas de la distance euclidienne, on met en évidence un lien fort entre inertie et variance dans les données.
En effet :
\[ I = \frac{1}{n} \sum_{i=1}^n \left( \sum_{k=1}^p \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p \left( \frac{1}{n} \sum_{i=1}^n \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p Var(\boldsymbol{x}^{k})\]
Si les variables sont réduites, i.e de norme 1
\[I = p\]
Formellement, il nous faut
Définition
Une métrique \(M\) est une matrice de \(\mathbb{R}^{p\times p}\) symétrique, définie et positive. Elle permet de définir une distance entre les observations
Si \(x_1\in{\mathbb{R}}^p\) et \(x_2\in{\mathbb{R}}^p\), la distance entre \(x_1\) et \(x_2\) pour la métrique \(M\) est \[d_M(x_1,x_2) = \|x_1 - x_2\|_M \] où \[\|x_1 - x_2\|_M^2 = (x_1 - x_2)^\top M (x_1 - x_2).\]
[Que vaut \(M\) dans ce cas ?]{. question}
\[M= I_p\], en effet si \(x_1\in{\mathbb{R}}^p\) et \(x_2\in {\mathbb{R}}^p\),
alors \[x_1 -x_2 = \begin{pmatrix}x_1^1 -x_2^1 \\ \vdots \\ x_1^p -x_2^p\end{pmatrix},\] donc
\[(x_1 -x_2 )^\top (x_1 -x_2 )= \sum_{j=1}^p (x_1^j -x_2^j)^2.\]
On définir la matrice des données centrées \[\tilde{X} = X - \boldsymbol{1}_n g = \begin{pmatrix} x_1^1- g^1 & x_1^2- g^2 & \ldots & x_1^p- g^p \\
\vdots &&& \vdots\\
x_n^1- g^1 & x_n^2- g^2 & \ldots & x_n^p- g^p \end{pmatrix}\]
Alors \[I = \frac{1}{n}  tr(\tilde{X}^\top \tilde{X}).\]
On va supposer que les données sont centrées (quitte à effectuer le centrage) et donc \[X = \tilde{X}\] et \(g= O.\)
Definition
L’inertie par rapport à l’axe \(\Delta\) passant par \(g\) est définie par
\[I_{\boldsymbol{\Delta}} = \frac{1}{n} \sum_{i=1}^n d(\boldsymbol{x}_{i} - \boldsymbol{p_i}^{\Delta})^2 \quad \mbox{où }\ \boldsymbol{p_i}^{\Delta} \mbox{projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }\Delta.\]
L’inertie par rapport à l’axe \(\Delta\) quantifie l’information perdue lorsque l’on résume le nuage de points à son projeté sur \(\Delta\). On perd toute l’information “orthogonale”
Quelle est l’inertie par rapport à l’axe des abscisses ?
L’inertie par rapport à l’axe \(\Delta\) quantifie l’information perdue lorsque l’on résume le nuage de points à son projeté sur \(\Delta\). On perd toute l’information “orthogonale”
Identifier \(\Delta\) tel que \(I_{\Delta}\) soit minimale
Ce qui revient à identifier l’axe \(\Delta\) qui assure que la projection sur \(\Delta\) déforme le moins possible le nuage de points.
Dans le cadre de l’ACP, on veut construire une ensemble d’axes orthogonaux (une nouvelle base de \({\mathbb{R}}^p\)), de façon à ce que
Produit scalaire : Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), le produit scalaire est noté \(<\boldsymbol{x},\boldsymbol{y}>\) et \(<\boldsymbol{x},\boldsymbol{y}>=\sum_{i=1}^p x_i y_i = \boldsymbol{x}^\top \boldsymbol{y}.\)
Orthogonalité Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), on dit que \(\boldsymbol{x}\) et \(\boldsymbol{y}\) sont orthogonaux ( noté \(\boldsymbol{x}\perp \boldsymbol{y}\) ) si \(<\boldsymbol{x},\boldsymbol{y}> = {\boldsymbol{x}^\top \boldsymbol{y}=0.}\)
Projection orthogonale On note \(\boldsymbol{a}_u\) le projeté de \(\boldsymbol{a}\) sur la droite \(\Delta\) définie par son vecteur directeur unitaire \(\boldsymbol{u}\) et passant par l’origine \[\boldsymbol{a}_u = < \boldsymbol{a}, \boldsymbol{u} > \boldsymbol{u} = (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u}.\] Le vecteur \(\boldsymbol{a_u}\) est orthogonal à \(\boldsymbol{a}-\boldsymbol{a_u}\): \[< \boldsymbol{a_u}, \boldsymbol{a}-\boldsymbol{a_u}> = \left ((\boldsymbol{a}^\top \boldsymbol{u}) \boldsymbol{u}\right)^\top \left ( \boldsymbol{a} - (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u} \right)=(\boldsymbol{a}^\top \boldsymbol{u}) (\boldsymbol{u}^\top \boldsymbol{a}) - (\boldsymbol{a}^\top \boldsymbol{u})^2 \boldsymbol{u}^\top \boldsymbol{u} =0 \]
Que signifie projeter sur l’axe des abscisses ? sur l’axe des ordonnées ?
Il y a un lien fort entre coordonnées dans un système d’axes et projection.
Si on sait projeter sur un autre système orthogonal, on a les coordonnées.
Dans \({\mathbb{R}}^2\), on considère le sous espace vectoriel \(E\), tel que \[ E =\left \lbrace \boldsymbol{x}=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : x_1 = x_2 \right \rbrace \] \(E\) est la droite d’équation \(y=x\).
Qui est \(E^\perp\) ?
Soit \(\boldsymbol{x}\in E,\) et \(\boldsymbol{y}\in E^\perp,\) alors
\[\begin{align} 0 & = \boldsymbol{x}^\top \boldsymbol{y}\\ & = \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix}\\ & = x_1 y_1 + x_2 y_2 \\ & = x_1 (y_1 + y_2) \quad (\boldsymbol{x}\in E \Rightarrow x_1 =x_2) \\ \end{align}\]
\[E^\perp = \left \lbrace \boldsymbol{y}=\begin{pmatrix} y_1 & y_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : y_1 + y_2 = 0 \right \rbrace \]
Definition
L’inertie par rapport à un sous espace affine \(E\) passant par l’origine est définie par \[I_{E} = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - \boldsymbol{p_i}^{E}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -p^{k,E}_i)^2, \quad \mbox{où }\ \boldsymbol{p_i}^{E} = argmin_{\boldsymbol{y}\in E} d(\boldsymbol{y}, \boldsymbol{x}_{i}), \mbox{i.e. projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }E.\]
C’est l’inertie perdue lorsque l’on résume le nuage de points à sa projection sur le sous espace \(E\).
Soit \(E\) un sous espace vectoriel de \({\mathbb{R}}^p\), alors \[\class{alea}{I} = \class{rouge}{I_E} + \class{bleu}{I_{E^\perp}}.\]
Preuve
Un dessin vaut mieux qu’un long discours et Pythagore est ton ami !
\[\begin{align} \class{alea}{d(\boldsymbol{x}_{i}, O)^2} & = \class{alea}{\lVert \boldsymbol{x}_{i} \rVert^2} = {\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E + \boldsymbol{x}_{i}^E \rVert^2} \\ & = \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \lVert \boldsymbol{x}_{i}^E \rVert^2 \\ & = \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2. \\ \end{align}\]
\[\begin{align} I & = \frac{1}{n} \sum_{i=1}^n \class{alea}{\lVert \boldsymbol{x}_{i} \rVert^2} \\ & = \frac{1}{n} \sum_{i=1}^n \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2,\\ & \frac{1}{n}\sum_{i=1}^n \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2}+ \frac{1}{n} \sum_{i=1}^n \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2.\\ & = \class{rouge}{I_E} + \class{bleu}{I_{E^\perp}} \end{align}\]
Identifier le vecteur \(\boldsymbol{u_1}\) de \({\mathbb{R}}^p\), tel que \(I_{E_1}\) soit minimale avec \(E_1=\left \lbrace \lambda \boldsymbol{u_1}, \lambda \in {\mathbb{R}}\right\rbrace,\)
Dans \(E_1^\perp\), identifier le vecteur \(\boldsymbol{u_2}\) de \({\mathbb{R}}^p\), tel que \(I_{E_2}\) soit minimale avec \(E_2=\left \lbrace \lambda \boldsymbol{u_2}, \lambda \in {\mathbb{R}}\right\rbrace,\)
Dans \(\left ( E_1 \oplus E_2 \right)^\perp\), identifier le vecteur \(\boldsymbol{u_3}\) de \({\mathbb{R}}^p\), tel que ….
Finalement on aura la décomposition
\[I= I_{E_1} + I_{E_2} + \ldots + I_{E_p}, \quad \mbox{avec } I_{E_1} \leq I_{E_2} \leq \ldots \leq I_{E_p}\]
Mise en place de tous les outils de base
L’inertie = de l’information
on veut le plus d’information avec le moins de “variables possibles”
on va utiliser de l’algèbre linéaire
Il nous reste à comprendre comment trouver ce bon système d’axe