Si une caractéristique est quantitative, alors on note dans une colonne la valeur mesurée sur l’individu.
Si une caractéristique \(j\) est qualitative,
soit on note sa modalité dans la colonne \(j\),
soit on utilise la représentation one hot encoding, qui consiste à représenter cette caractéristique qualitative sur autant de colonnes que de modalités et attribuer un \(1\) dans la colonne correspondant à la modalité de l’individu et 0 aux autres.
Données disponibles dans le package palmerpenguins mises à disposition par le Dr. Kristen Gorman et the Palmer Station, Antarctica LTER.
On a mesuré les caractéristiques morphologiques de divers manchots :
Les 3 premières lignes (parmi 333 )
# A tibble: 3 × 8
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
<fct> <fct> <dbl> <dbl> <int> <int>
1 Adelie Torgersen 39.1 18.7 181 3750
2 Adelie Torgersen 39.5 17.4 186 3800
3 Adelie Torgersen 40.3 18 195 3250
# ℹ 2 more variables: sex <fct>, year <fct>
species : 3 espèces possibles (Adelie, Chinstrap, Gentoo)
island : l’île sur laquelle le mancho a été observé (Biscoe, Dream, Torgersen)
Ecrire les 2 premières lignes de \(\Xbf\) pour l’exemple des manchots
Comment visualiser au mieux ces données pour faire apparaître les liens entre variables et identifier des resemblances entre individus ?
Voir c’est comprendre : comment représenter l’information contenue dans ce tableau ?
Idée 1 : on représente les liens des variables 2 à 2 – Focus sur les données quantitatives
Voir c’est comprendre : comment représenter l’information contenue dans ce tableau ?
Idée 1 : on a dit que c’était dangereux
Voir c’est comprendre : comment représenter l’information contenue dans ce tableau ?
Objectifs
Représenter sans perdre trop d’information,
Pour cela, on veut pouvoir
Quantifier la quantité d’information disponible ou perdue par une représentation
Comprendre quelles sont les informations redondantes (variables liées),
Idéalement des individus éloignés dans le nuage initial, restent éloignés dans la représentation
Formaliser le problème
Deux points de vue complémentaires
Le nuage des individus \(C^n\)
On peut considérer qu’un individu\(i\) est un vecteur \(\class{alea}{\boldsymbol{x}_{i}}\) dans un espace de dimension \(p\). Par convention tous les vecteurs sont des vecteurs colonnes, donc on peut écrire