L’inertie par rapport à un point quantifie l’information perdue lorsque le jeu de données est résumé par ce point.
Quel est selon vous le point \(\boldsymbol{a}\) qui minimise l’inertie ?
\[argmin_{\boldsymbol{a}} I_{\boldsymbol{a}} = ??\]
BINGO !!!
Il s’agit du point \(\boldsymbol{g}=\boldsymbol{x_{\bullet}}=({x}_{\bullet}^1, \ldots, {x}_{\bullet}^p )^\top,\) avec \({x}_{\bullet}^k=\frac{1}{n} \sum_{i=1}^n x_{i}^k\), la valeur moyenne de la variable \(k\) sur l’ensemble des individus.
Puisque nous avons supposé que nos variables étaient centrées, \(G=O\) l’origine sur repère.
\[\forall \boldsymbol{a}\in\mathbb{R}^p,\; I_\boldsymbol{a}=I_\boldsymbol{g} + \lVert\boldsymbol{a}- \boldsymbol{g}\rVert^2.\]
Conséquence
Le meilleur résumé du nuage de points se résumant à un point est le barycentre du nuage de points, c’est à dire la moyenne sur chacune des dimensions.