ENSAI - CREST
https://marieetienne.github.io/MAF/
2025-10-13
$$
$$
Definition 1
L’inertie par rapport à un point \(a \in {\mathbb{R}}^{p}\) est définie par
\[I_{\boldsymbol{a}} = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - \boldsymbol{a}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -a^k)^2\]
L’inertie par rapport à un point quantifie l’information perdue lorsque le jeu de données est résumé par ce point.
Quel est selon vous le point \(\boldsymbol{a}\) qui minimise l’inertie ?
\[argmin_{\boldsymbol{a}} I_{\boldsymbol{a}} = ??\]
BINGO !!!
Il s’agit du point \(\boldsymbol{g}=\boldsymbol{x_{\bullet}}=({x}_{\bullet}^1, \ldots, {x}_{\bullet}^p )^\top,\) avec \({x}_{\bullet}^k=\frac{1}{n} \sum_{i=1}^n x_{i}^k\), la valeur moyenne de la variable \(k\) sur l’ensemble des individus.
Puisque nous avons supposé que nos variables étaient centrées, \(G=O\) l’origine sur repère.
\[\forall \boldsymbol{a}\in\mathbb{R}^p,\; I_\boldsymbol{a}=I_\boldsymbol{g} + \lVert\boldsymbol{a}- \boldsymbol{g}\rVert^2.\]
Definition 2
L’inertie du nuage de points représentés par \({\boldsymbol{X}}\) est l’inertie par rapport à son baycentre \[I = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - {g}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -\bar{x}^k)^2\]
Conséquence
Le meilleur résumé du nuage de points à un unique point est le barycentre du nuage de points, c’est à dire la moyenne sur chacune des dimensions.
La quantité d’information perdue lors de ce résumé est \(I\)
\[ I = \frac{1}{n} \sum_{i=1}^n \left( \sum_{k=1}^p \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p \left( \frac{1}{n} \sum_{i=1}^n \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p Var(\boldsymbol{x}^{k})\] Si les variables sont réduites, i.e de norme 1
\[I = p\]
Definition 2
L’inertie par rapport à l’axe \(\Delta\) est définie par
\[I_{\boldsymbol{\Delta}} = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - \boldsymbol{p_i}^{\Delta}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -p^{k,\Delta}_i)^2, \quad \mbox{où }\ \boldsymbol{p_i}^{\Delta} \mbox{projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }\Delta.\]
{Rajouter un exemple avec des projections sur les axes de départ}[.rouge]
L’inertie par rapport à l’axe \(\Delta\) quantifie l’information perdue lorsque l’on résume le nuage de points à son projeté sur \(\Delta\).
Identifier \(\Delta\) tel que \(I_{\Delta}\) soit minimale
Ce qui revient à l’axe \(\Delta\) qui assure que la projection sur \(\Delta\) déforme le moins possible le nuage de points.
Dans le cadre de l’ACP, on veut construire une ensemble d’axes orthogonaux (une nouvelle base de \({\mathbb{R}}^p\)), de façon à ce que
Produit scalaire : Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), le produit scalaire est noté \(<\boldsymbol{x},\boldsymbol{y}>\) et \(<\boldsymbol{x},\boldsymbol{y}>=\sum_{i=1}^p x_i y_i = \boldsymbol{x}^\top \boldsymbol{y}.\)
Orthogonalité Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), on dit que \(\boldsymbol{x}\) et \(\boldsymbol{y}\) sont orthogonaux (noté \(\boldsymbol{x}\perp \boldsymbol{y}\)) si \(<\boldsymbol{x},\boldsymbol{y}> = \boldsymbol{x}^\top \boldsymbol{y}=0\).
Projection orthogonale On note \(\boldsymbol{a}_u\) le projeté de \(\boldsymbol{a}\) sur la droite \(\Delta\) définit par son vecteur directeur unitaire \(\boldsymbol{u}\) et passant par l’origine \[\boldsymbol{a}_u = < \boldsymbol{a}, \boldsymbol{u} > \boldsymbol{u} = (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u}.\] Le vecteur \(\boldsymbol{a_u}\) est orthogonal à \(\boldsymbol{a}-\boldsymbol{a_u}\): \[< \boldsymbol{a_u}, \boldsymbol{a}-\boldsymbol{a_u}> = \left ((\boldsymbol{a}^\top \boldsymbol{u}) \boldsymbol{u}\right)^\top \left ( \boldsymbol{a} - (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u} \right)=(\boldsymbol{a}^\top \boldsymbol{u}) (\boldsymbol{u}^\top \boldsymbol{a}) - (\boldsymbol{a}^\top \boldsymbol{u})^2 \boldsymbol{u}^\top \boldsymbol{u} =0 \]
Dans \({\mathbb{R}}^2\), on considère le sous espace vectoriel \(E\), tel que \[ E =\left \lbrace \boldsymbol{x}=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : x_1 = x_2 \right \rbrace \] \(E\) est la droite d’équation \(y=x\).
Qui est \(E^\perp\) ?
Soit \(\boldsymbol{y}\in E^\perp,\) alors
\[\begin{align} 0 & = \boldsymbol{x}^\top \boldsymbol{y}\\ & = \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix}\\ & = x_1 y_1 + x_2 y_2 \\ & = x_1 (y_1 + y_2) \quad (\boldsymbol{x}\in E \Rightarrow x_1 =x_2) \\ \end{align}\]
\[E^\perp = \left \lbrace \boldsymbol{y}=\begin{pmatrix} y_1 & y_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : y_1 + y_2 = 0 \right \rbrace \]
Definition 3
L’inertie par rapport à un sous espace vectoriel \(E\) est définie par \[I_{E} = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - \boldsymbol{p_i}^{E}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -p^{k,E}_i)^2, \quad \mbox{où }\ \boldsymbol{p_i}^{E} = argmin_{\boldsymbol{y}\in E} d(\boldsymbol{y}, \boldsymbol{x}_{i}), \mbox{i.e. projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }E.\]
C’est l’inertie perdue lorsque l’on résume le nuage de points à sa projection sur le sous espace \(E\).
Soit \(E\) un sous espace vectoriel de \({\mathbb{R}}^p\), alors \[I = I_E + I_{E^\perp}.\]
Preuve
Un dessin vaut mieux qu’un long discours et Pythagore est ton ami !
\[d(\class{alea}{\boldsymbol{x}_{i}}, O)^2 = d(\boldsymbol{x}_{i}, \class{bleu}{\boldsymbol{x}_{i}^E})^2 + d(\class{alea}{\boldsymbol{x}_{i}}, \class{rouge}{\boldsymbol{x}_{i}^{E^\perp}})^2.\]
\[\begin{align} I & = \frac{1}{n} \sum_{i=1}^n d(\class{alea}{\boldsymbol{x}_{i}}, O)^2 \\ & = \frac{1}{n} \sum_{i=1}^n d(\class{alea}{\boldsymbol{x}_{i}}, \class{bleu}{\boldsymbol{x}_{i}^E})^2 + \frac{1}{n} \sum_{i=1}^n d(\class{alea}{\boldsymbol{x}_{i}}, \class{rouge}{\boldsymbol{x}_{i}^{E^\perp}})^2 \\ & = \class{bleu}{I_E} + \class{rouge}{I_{E^\perp}} \end{align}\]
Identifier le vecteur \(\boldsymbol{u_1}\) de \({\mathbb{R}}^p\), tel que \(I_{E_1}\) soit minimale avec \(E_1=\left \lbrace \lambda \boldsymbol{u_1}, \lambda \in {\mathbb{R}}\right\rbrace,\)
Dans \(E_1^\perp\), identifier le vecteur \(\boldsymbol{u_2}\) de \({\mathbb{R}}^p\), tel que \(I_{E_2}\) soit minimale avec \(E_2=\left \lbrace \lambda \boldsymbol{u_2}, \lambda \in {\mathbb{R}}\right\rbrace,\)
Dans \(\left ( E_1 \oplus E_2 \right)^\perp\), identifier le vecteur \(\boldsymbol{u_3}\) de \({\mathbb{R}}^p\), tel que ….
…
Finalement on aura la décomposition
\[I= I_{E_1} + I_{E_2} + \ldots + I_{E_p}, \quad \mbox{avec } I_{E_1} \leq I_{E_2} \leq \ldots \leq I_{E_p}\]