dbo : Demande biologique en oxygène ( \(mg.L^{-1}\) ).
Si on travaille sur une ACP normée, puisqu’il ya 4 descripteurs pour les caractéristiques physiques, et seulement 2 pour les caractéristiques écologiques, les varaibles physiques auront par construction plus de poids que les variables écologiques.
On s’intéresse aux notes des 30 élèves d’une classe. Le tableau de note complet contient
8 notes de mathématiques
4 notes d’anglais
3 notes d’histoire géographie
3 notes de français
1 note de dessin
On aimerait visualiser les notes à l’aide d’une méthode factorielle, notamment pour savoir si ce sont les mêmes élèves qui rencontrent des difficultés dans les différentes matières.
On normalise les données car les gammes de variation des notes dans les différentes matières sont assez différentes
Que se passe-t-il si on fait une ACP normée ?
Les mathématiques ont 8 fois plus de poids dans la détermination des axes que la note de dessin.
Est ce vraiment ce qu’on veut ?
(ça dépend qui “on” désigne)
Exemple tiré des cours de F. Husson
10 vins blancs du Val de Loire : 5 Vouvray - 5 Sauvignon • descripteurs sensoriels : acidité, amertume, odeur agrume, etc.
Equilibrer les contribution de chaque groupe de variables
Première idée
Rééquilibrer les variables entre groupes en attribuant à chaque variable \(k\) du groupe \(i\) un poids \(1/n_k\), où \(n_k\) est le nombre de variables dans le groupe \(k\).
Rééquilibrer les variables entre groupes en attribuant à chaque variable \(k\) du groupe \(i\) un poids \(1/n_k\), où \(n_k\) est le nombre de variables dans le groupe \(k\).
Problème
les deux variables écologiques sont presque parfaitement corrélées, l’information qu’elles portent se résume très bien avec un seul axe. Ainsi cet axe porte presque la même information que l’ensemble des variables, elles ont donc beaucoup de poids dans la création des axes finaux.
Les variables chimiques (pH, dureté, phosphate, nitrite et ammoniaque) sont moins corélées, l’information qu’elles portent se diffusent sur plusieurs axes et donc le poids de ces variables est réparti sur plusieurs axes.
La première idée n’est pas toujours la bonne !
On souhaiterait que l’axe résume aussi bien les différents types de variable, et donc que chaque groupe de variable ait un poids 1 pour le premier axe.
L’AFM en pratique
Pour chaque groupe de variable \(k\),
On calcule la 1ère valeur propre \(\lambda_{k1}\) du groupe de variable \(k\), (chaque variable ayant été normée)
Les points sont potentiellement pondérés avec la matrice de poids \(W \in {\mathbb{R}}^{n\times n}\),
on utilise la mérique \[M = Diag\left (\frac{1}{s_1^2 \lambda_{c_1}},\ldots ,\frac{1}{s_p^2 \lambda_{c_p}} \right)\]
où Diag désigne la matrice diagonale, le terme \(i\) est donné par \(\frac{1}{s_i^2 \lambda_{c_i},}\)\(s_i\) est l’écart type de la variable \(i\) et \(\lambda_{c_i}\) est la première valeur propre de la classe à laquelle appartient la variable \(i\).
On a notre tryptique \[(X, W, M)\]
En pratique
doubs_mfa <-MFA(doubs.env, group =c(4, 5, 2), # un vecteur qui spécifie le nombre de variable dans chaque groupe. Les variables doivent être organisées comme il fauttype =rep("s", 3), # pour indiquer que ce sont de svariables quanti que l'on souhaite normaliser et ce pour chaque groupencp=11, # on garde tous les axesname.group=c("Physique","Chimique","Ecologique"), graph =TRUE)#summary(doubs_mfa)# library(Factoshiny)# MFAshiny(doubs_mfa)
Bilan
Ce que vous pensez devoir retenir
On choisit de faire une AFM si on veut mettre l’accent sur les liens entre les groupes de variables
Pour ce faire, on veut que chaque groupe contribue de la même manière à construire des premmiers axes principaux
Pour normaliser l’importance de chaque groupe, on calcule la première valeur propre de chaque groupe et on normalise les données par la racine de cette vp, ou de manière équivalente on prend une métrique $M£ dans maquelle le terme \(M_{ii}\) contient la première valeur propre du groupe de variables auquel appartient \(i\).
La méthode est proche de l’ACP, c’est une ACP avec une métrique particulière.
On va inetrpéter les relations entre les groupes de variables.