Une mesure de la quantité d’information

Marie-Pierre Etienne

ENSAI - CREST

https://marieetienne.github.io/MAF/

2025-11-03

Inertie par rapport à un point

L’inertie d’un nuage de points

Définition

\[I = \frac{1}{n} \sum_{i=1}^n d(x_i, g)^2, \]\(g\) désigne le point qui résume le mieux l’ensemble des données.

C’est la quantité d’information contenue dans le nuage de points

ou

C’est la quantité d’information perdue lorsque l’on résume l’ensemble du nuages de points par le point \(g\)

Il faut donc une

  • une notion de distance

  • un point résumé

Quelle distance choisir et que représente \(g\) ?

  • On peut choisir la distance euclidienne \[d(x_i, g)^2 = \sum_{j=1}^p (x_{i}^j - g^j)^2.\]

  • \(g= (\bar{x^1}, \ldots, \bar{x^p})\) est un choix naturel et la distance euclidienne

D’autres choix sont possibles pour la distance, dont certaines adaptées aux variables qualitatives. Il faudra réfléchir à qui est \(g\) dans le cas de données qualitatives

le choix de la distance est le des différences entre ACP, AFC, ACM etc … A venir donc …

L’inertie par rapport d’un nuage par rapport à un point quelconque

Definition

L’inertie par rapport à un point \(a \in {\mathbb{R}}^{p}\) est définie par
\[I_{\boldsymbol{a}} = \frac{1}{n} \sum_{i=1}^n d({x}_{i} - \boldsymbol{a})^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -a^k)^2\]

L’inertie par rapport à un point quantifie l’information perdue lorsque le jeu de données est résumé par ce point.

Quel est selon vous le point \(\boldsymbol{a}\) qui minimise l’inertie ?

\[argmin_{\boldsymbol{a}} I_{\boldsymbol{a}} = ??\]

BINGO !!!

Il s’agit du point \(\boldsymbol{g}=\boldsymbol{x_{\bullet}}=({x}_{\bullet}^1, \ldots, {x}_{\bullet}^p )^\top,\) avec \({x}_{\bullet}^k=\frac{1}{n} \sum_{i=1}^n x_{i}^k\), la valeur moyenne de la variable \(k\) sur l’ensemble des individus.

Si les variables étaient centrées, alors \(g=O\) l’origine sur repère.

\[\forall \boldsymbol{a}\in\mathbb{R}^p,\; I_\boldsymbol{a}=I_\boldsymbol{g} + \lVert\boldsymbol{a}- \boldsymbol{g}\rVert^2.\]

(preuve dans les notes de cours)

L’inertie du nuage de points

Rappel Definition

L’inertie du nuage de points représentés par \({\boldsymbol{X}}\) est l’inertie par rapport à son baycentre \[I = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - {g}\rVert^2 \]

Conséquence

Le meilleur résumé du nuage de points à un unique point est le barycentre du nuage de points, c’est à dire la moyenne sur chacune des dimensions.

La quantité d’information perdue lors de ce résumé est \(I\)

Des extensions

Poids des individus

Si l’on souhaite accorder plus de poids à certains individus (par exemple poids du pays en fonction de sa population), on peut considérer le nuage de points pesants \((x_i, \omega_i)\)\(\omega_i\) est le poids associé à l’individu \(i\), avec \(\sum_i \omega_i=1\)

Le barycentre est bien défini \(g\) comme le barycentre des points pondérés et l’inertie par rapport à un point \({\boldsymbol{a}}\) quelqueconque est donné par

\[I = \frac{1}{n} \sum_{i=1}^n \omega_i \lVert\boldsymbol{x}_{i} - {a}\rVert^2 \]

Choix de la distance

On a évoqué la distance Euclidienne mais toute autre distance est possible. Chaque choix de distance correspond à une méthode d’analyse factorielle différente.

  • euclidienne : ACP
  • euclidienne normalisée : ACP normée ou AFM selon le type de normalisation
  • distance du \(\chi\^2\) : AFC ou ACM

Cours présenté sans les poids mais tout se généralise

Lien entre inertie et variance

Dans le cas de la distance euclidienne, on met en évidence un lien fort entre inertie et variance dans les données.

En effet :

\[ I = \frac{1}{n} \sum_{i=1}^n \left( \sum_{k=1}^p \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p \left( \frac{1}{n} \sum_{i=1}^n \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p Var(\boldsymbol{x}^{k})\]

Si les variables sont réduites, i.e de norme 1

\[I = p\]

Où l’on commence à introduire l’algèbre linéaire

Formellement, il nous faut

  • une matrice \(X\) (dimension \(n\times p\)),
  • une distance, i.e une métrique (dimension \(p\times p\))
  • Optionnellement une matrice de poids \(D\)

Définition

Une métrique \(M\) est une matrice de \(\mathbb{R}^{p\times p}\) symétrique, définie et positive. Elle permet de définir une distance entre les observations

Si \(x_1\in{\mathbb{R}}^p\) et \(x_2\in{\mathbb{R}}^p\), la distance entre \(x_1\) et \(x_2\) pour la métrique \(M\) est \[d_M(x_1,x_2) = \|x_1 - x_2\|_M \]\[\|x_1 - x_2\|_M^2 = (x_1 - x_2)^\top M (x_1 - x_2).\]

[Que vaut \(M\) dans ce cas ?]{. question}

\[M= I_p\], en effet si \(x_1\in{\mathbb{R}}^p\) et \(x_2\in {\mathbb{R}}^p\),

alors \[x_1 -x_2 = \begin{pmatrix}x_1^1 -x_2^1 \\ \vdots \\ x_1^p -x_2^p\end{pmatrix},\] donc

\[(x_1 -x_2 )^\top (x_1 -x_2 )= \sum_{j=1}^p (x_1^j -x_2^j)^2.\]

On définir la matrice des données centrées \[\tilde{X} = X - \boldsymbol{1}_n g = \begin{pmatrix} x_1^1- g^1 & x_1^2- g^2 & \ldots & x_1^p- g^p \\ \vdots &&& \vdots\\ x_n^1- g^1 & x_n^2- g^2 & \ldots & x_n^p- g^p \end{pmatrix}\]
Alors \[I = \frac{1}{n} tr(\tilde{X}^\top \tilde{X}).\]

Et dans toute la suite

On va supposer que les données sont centrées (quitte à effectuer le centrage) et donc \[X = \tilde{X}\] et \(g= O.\)

Inertie par rapport à un sous espace affine

L’inertie par rapport à un axe passant par \(\boldsymbol{g}\)

Definition

L’inertie par rapport à l’axe \(\Delta\) passant par \(g\) est définie par

\[I_{\boldsymbol{\Delta}} = \frac{1}{n} \sum_{i=1}^n d(\boldsymbol{x}_{i} - \boldsymbol{p_i}^{\Delta})^2 \quad \mbox{où }\ \boldsymbol{p_i}^{\Delta} \mbox{projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }\Delta.\]

L’inertie par rapport à l’axe \(\Delta\) quantifie l’information perdue lorsque l’on résume le nuage de points à son projeté sur \(\Delta\). On perd toute l’information “orthogonale”

Quelle est l’inertie par rapport à l’axe des abscisses ?

L’inertie par rapport à l’axe \(\Delta\) quantifie l’information perdue lorsque l’on résume le nuage de points à son projeté sur \(\Delta\). On perd toute l’information “orthogonale”

Projeter en perdant un minimum d’information

Identifier \(\Delta\) tel que \(I_{\Delta}\) soit minimale

Ce qui revient à identifier l’axe \(\Delta\) qui assure que la projection sur \(\Delta\) déforme le moins possible le nuage de points.

Dans le cadre de l’ACP, on veut construire une ensemble d’axes orthogonaux (une nouvelle base de \({\mathbb{R}}^p\)), de façon à ce que

  • la projection sur le premier axe, soit le meilleur résumé du nuage de points en une dimension,
  • le deuxième axe est orthogonal au premier et représente “le deuxième meileur choix” …. dans un sens que l’on va définir
  • le troisième …

Où l’algèbre linéaire revient

Rappel projection orthogonale

  • Produit scalaire : Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), le produit scalaire est noté \(<\boldsymbol{x},\boldsymbol{y}>\) et \(<\boldsymbol{x},\boldsymbol{y}>=\sum_{i=1}^p x_i y_i = \boldsymbol{x}^\top \boldsymbol{y}.\)

  • Orthogonalité Soient deux élements \(\boldsymbol{x}\) et \(\boldsymbol{y}\) de \(\mathbb{R}^p\), on dit que \(\boldsymbol{x}\) et \(\boldsymbol{y}\) sont orthogonaux ( noté \(\boldsymbol{x}\perp \boldsymbol{y}\) ) si \(<\boldsymbol{x},\boldsymbol{y}> = {\boldsymbol{x}^\top \boldsymbol{y}=0.}\)

  • Projection orthogonale On note \(\boldsymbol{a}_u\) le projeté de \(\boldsymbol{a}\) sur la droite \(\Delta\) définie par son vecteur directeur unitaire \(\boldsymbol{u}\) et passant par l’origine \[\boldsymbol{a}_u = < \boldsymbol{a}, \boldsymbol{u} > \boldsymbol{u} = (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u}.\] Le vecteur \(\boldsymbol{a_u}\) est orthogonal à \(\boldsymbol{a}-\boldsymbol{a_u}\): \[< \boldsymbol{a_u}, \boldsymbol{a}-\boldsymbol{a_u}> = \left ((\boldsymbol{a}^\top \boldsymbol{u}) \boldsymbol{u}\right)^\top \left ( \boldsymbol{a} - (\boldsymbol{a}^\top \boldsymbol{u})\, \boldsymbol{u} \right)=(\boldsymbol{a}^\top \boldsymbol{u}) (\boldsymbol{u}^\top \boldsymbol{a}) - (\boldsymbol{a}^\top \boldsymbol{u})^2 \boldsymbol{u}^\top \boldsymbol{u} =0 \]

Remarque

Que signifie projeter sur l’axe des abscisses ? sur l’axe des ordonnées ?

  • Il y a un lien fort entre coordonnées dans un système d’axes et projection.

  • Si on sait projeter sur un autre système orthogonal, on a les coordonnées.

Où l’algèbre linéaire reste encore

  • Espace orthogonal Soit \(E\) un sous-espace vectoriel de \(\mathbb{R}^p\). On definit \(E^\perp=\{\boldsymbol{x}\in \mathbb{R}^p:\; \forall \boldsymbol{y}\in E,\; \boldsymbol{x}\perp \boldsymbol{y}\}\).

Dans \({\mathbb{R}}^2\), on considère le sous espace vectoriel \(E\), tel que \[ E =\left \lbrace \boldsymbol{x}=\begin{pmatrix} x_1 & x_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : x_1 = x_2 \right \rbrace \] \(E\) est la droite d’équation \(y=x\).

Qui est \(E^\perp\) ?

Soit \(\boldsymbol{x}\in E,\) et \(\boldsymbol{y}\in E^\perp,\) alors

\[\begin{align} 0 & = \boldsymbol{x}^\top \boldsymbol{y}\\ & = \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix}\\ & = x_1 y_1 + x_2 y_2 \\ & = x_1 (y_1 + y_2) \quad (\boldsymbol{x}\in E \Rightarrow x_1 =x_2) \\ \end{align}\]

\[E^\perp = \left \lbrace \boldsymbol{y}=\begin{pmatrix} y_1 & y_2 \end{pmatrix}^\top \in {\mathbb{R}}^2 : y_1 + y_2 = 0 \right \rbrace \]

L’inertie par rapport à un sous espace affine

Definition

L’inertie par rapport à un sous espace affine \(E\) passant par l’origine est définie par \[I_{E} = \frac{1}{n} \sum_{i=1}^n \lVert\boldsymbol{x}_{i} - \boldsymbol{p_i}^{E}\rVert^2 = \frac{1}{n} \sum_{i=1}^n\sum_{k=1}^p (x_i^k -p^{k,E}_i)^2, \quad \mbox{où }\ \boldsymbol{p_i}^{E} = argmin_{\boldsymbol{y}\in E} d(\boldsymbol{y}, \boldsymbol{x}_{i}), \mbox{i.e. projeté orthogonal de } \boldsymbol{x_i} \mbox{ sur }E.\]

C’est l’inertie perdue lorsque l’on résume le nuage de points à sa projection sur le sous espace \(E\).

Décomposition de l’inertie

Soit \(E\) un sous espace vectoriel de \({\mathbb{R}}^p\), alors \[\class{alea}{I} = \class{rouge}{I_E} + \class{bleu}{I_{E^\perp}}.\]

Preuve

Un dessin vaut mieux qu’un long discours et Pythagore est ton ami !

\[\begin{align} \class{alea}{d(\boldsymbol{x}_{i}, O)^2} & = \class{alea}{\lVert \boldsymbol{x}_{i} \rVert^2} = {\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E + \boldsymbol{x}_{i}^E \rVert^2} \\ & = \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \lVert \boldsymbol{x}_{i}^E \rVert^2 \\ & = \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2. \\ \end{align}\]

\[\begin{align} I & = \frac{1}{n} \sum_{i=1}^n \class{alea}{\lVert \boldsymbol{x}_{i} \rVert^2} \\ & = \frac{1}{n} \sum_{i=1}^n \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2} + \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2,\\ & \frac{1}{n}\sum_{i=1}^n \class{rouge}{\lVert \boldsymbol{x}_{i}- \boldsymbol{x}_{i}^E\rVert^2}+ \frac{1}{n} \sum_{i=1}^n \class{bleu}{\lVert \boldsymbol{x}_{i} - \boldsymbol{x}_{i}^{E^\perp}} \rVert^2.\\ & = \class{rouge}{I_E} + \class{bleu}{I_{E^\perp}} \end{align}\]

L’objectif en image

Principe de toutes les décompositions à venir

  1. Identifier le vecteur \(\boldsymbol{u_1}\) de \({\mathbb{R}}^p\), tel que \(I_{E_1}\) soit minimale avec \(E_1=\left \lbrace \lambda \boldsymbol{u_1}, \lambda \in {\mathbb{R}}\right\rbrace,\)

  2. Dans \(E_1^\perp\), identifier le vecteur \(\boldsymbol{u_2}\) de \({\mathbb{R}}^p\), tel que \(I_{E_2}\) soit minimale avec \(E_2=\left \lbrace \lambda \boldsymbol{u_2}, \lambda \in {\mathbb{R}}\right\rbrace,\)

  3. Dans \(\left ( E_1 \oplus E_2 \right)^\perp\), identifier le vecteur \(\boldsymbol{u_3}\) de \({\mathbb{R}}^p\), tel que ….

Finalement on aura la décomposition

\[I= I_{E_1} + I_{E_2} + \ldots + I_{E_p}, \quad \mbox{avec } I_{E_1} \leq I_{E_2} \leq \ldots \leq I_{E_p}\]

En quoi est ce utile ?

  • L’essentiel de l’information est portée par les premiers axes (puisque ce sont les axes sur lesquels on perd le moins d’information lorsqu’on projette)
    • facilité de visualisation
    • compression de l’information
  • Ce qui est plus complexe
    • donner un sens aux nouveaux axes

Conclusion

Bilan de ce cours

  • Mise en place de tous les outils de base

  • L’inertie = de l’information

  • on veut le plus d’information avec le moins de “variables possibles”

  • on va utiliser de l’algèbre linéaire

  • Il nous reste à comprendre comment trouver ce bon système d’axe