Objectifs de la séance

  • Comprendre la notion de projection des variables sur un plan.
  • Utiliser Factoshiny pour effectuer une ACP.
  • Interpréter un cercle des corrélations.
  • Interpréter les premiers plans de l’ACP à l’aide du cercle des corrélations et nuage des individus projetés.

Exercices

Description du cercle des corrélations

La figure ci-dessous représente la projection de 5 variables sur le plan principal d’une ACP.

  • Que peut-on dire des corrélations entre les variables A-B, B-C, B-D et C-E ?

  • Quel est, approximativement, le pourcentage d’inertie associé au premier plan ?

Analyse de performances en décathlon

Les épreuves du décathlon couronnent des athlètes complets. Toutefois, chaque athlète possède ses points forts et ses points faibles. C’est à cette variabilité que nous nous intéressons ici. Pour cela, on a regroupé les résultats de 4 décathlons : les Jeux Olympiques d’Athènes en 2004, ceux de Rio en 2016, les championnats d’Europe 2018 et le decastar de Talence en 2018.

On dispose, pour chaque athlète, de ses performances à chacune des 10 épreuves, de son nombre de points (à chaque épreuve, un athlète gagne des points en fonction de sa performance) et de son classement final.

Les épreuves se déroulent dans l’ordre suivant : 100m, longueur,poids, hauteur, 400m le premier jour et 110m haies, disque, perche, javelot, 1500m le deuxième jour.

Nous avons conservé les 20 meilleurs athlètes pour chacun des décathlons dans le fichier suivant decathlon.csv.

Pour importer les données, utiliser les arguments row.names=1 et check.names=FALSE .

## Rows: 40
## Columns: 13
## $ X100m       <dbl> 10.85, 10.44, 10.50, 10.89, 10.62, 10.91, 10.97, 10.80, 10…
## $ Longueur    <dbl> 7.84, 7.96, 7.81, 7.47, 7.74, 7.14, 7.19, 7.53, 7.48, 7.49…
## $ Poids       <dbl> 16.36, 15.23, 15.93, 15.73, 14.48, 15.31, 14.65, 14.26, 14…
## $ Hauteur     <dbl> 2.12, 2.06, 2.09, 2.15, 1.97, 2.12, 2.03, 1.88, 2.12, 1.94…
## $ X400m       <dbl> 48.36, 49.19, 46.81, 48.97, 47.97, 49.40, 48.73, 48.81, 49…
## $ X110m.haies <dbl> 14.05, 14.13, 13.97, 14.56, 14.01, 14.95, 14.25, 14.80, 14…
## $ Disque      <dbl> 48.72, 50.11, 51.65, 48.34, 43.73, 45.62, 44.72, 42.05, 44…
## $ Perche      <dbl> 5.0, 4.9, 4.6, 4.4, 4.9, 4.7, 4.8, 5.4, 4.4, 5.1, 5.2, 5.4…
## $ Javelot     <dbl> 70.52, 69.71, 55.54, 58.46, 55.39, 63.45, 57.76, 61.33, 55…
## $ X1500m      <dbl> 280.01, 282.00, 278.11, 265.42, 278.05, 269.54, 264.35, 27…
## $ Rang        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3, 4, 5, 6, 7, 8, 9, …
## $ Points      <int> 8893, 8820, 8725, 8414, 8343, 8287, 8237, 8235, 8225, 8102…
## $ Competition <fct> JO04, JO04, JO04, JO04, JO04, JO04, JO04, JO04, JO04, JO04…

Une première impression sur les données

  • Décrire les données (variables ? individus ?) et préciser les objectifs d’une ACP effectuée sur ces données.

  • Que pouvez-vous dire à partir des données centrées-réduites (utiliser la fonction scale ) ? Pourquoi est-ce important dans cet exemple de centrer et réduire les données

  • Calculer la matrice des corrélations (avec la fonction cor et round pour arrondir les résultats).

##             X100m Longueur Poids Hauteur X400m X110m.haies Disque Perche
## X100m        1.00    -0.71 -0.29   -0.20  0.59        0.63  -0.23  -0.17
## Longueur    -0.71     1.00  0.25    0.33 -0.64       -0.53   0.26   0.26
## Poids       -0.29     0.25  1.00    0.11 -0.36       -0.49   0.62  -0.09
## Hauteur     -0.20     0.33  0.11    1.00 -0.17       -0.25   0.41  -0.06
## X400m        0.59    -0.64 -0.36   -0.17  1.00        0.66  -0.23  -0.06
## X110m.haies  0.63    -0.53 -0.49   -0.25  0.66        1.00  -0.50  -0.11
## Disque      -0.23     0.26  0.62    0.41 -0.23       -0.50   1.00   0.08
## Perche      -0.17     0.26 -0.09   -0.06 -0.06       -0.11   0.08   1.00
## Javelot     -0.05     0.12  0.42    0.26 -0.22       -0.31   0.44   0.19
## X1500m       0.02    -0.12 -0.13   -0.11  0.51        0.32  -0.06   0.11
##             Javelot X1500m
## X100m         -0.05   0.02
## Longueur       0.12  -0.12
## Poids          0.42  -0.13
## Hauteur        0.26  -0.11
## X400m         -0.22   0.51
## X110m.haies   -0.31   0.32
## Disque         0.44  -0.06
## Perche         0.19   0.11
## Javelot        1.00  -0.38
## X1500m        -0.38   1.00

Mettre en oeuvre une ACP

Utiliser le package ensuite la fonction Factoshiny du package Factoshiny pour mettre en oeuvre une Analyse en Composantes Principales de ce tableau de données.

  • Quelles variables doit-on utiliser pour construire l’ACP ? Ces variables sont appelées variables actives. Mettre les autres variables en illustratif.

Interprétation à l’aide du premier plan de l’ACP

  • Commenter les pourcentages d’inertie expliquée par le premier axe de l’ACP, par le plan principal. Selon quel point de vue est-il préférable que les 2 premiers axes n’expliquent pas trop l’inertie totale ?

  • Quels sont les 5 athlètes les mieux représentés sur le plan principal ?

  • Quels sont les athlètes qui contribuent le plus à la construction de la 1ère dimension de l’ACP ? Et à la 2ème ? Que signifie une contribution importante ?

  • À partir du cercle des corrélations, que pouvez-vous dire concernant les corrélations suivantes :

    • 100 m haies - 400 m
    • 100 m - Longueur
    • Disque - Poids
    • Disque - Longueur
    • Perche - 1500 m
  • Comparer les profils de MAYER et LELIEVRE. Puis ceux de Kaul et Duckworth. Que pouvez-vous dire sur la proximité entre Karpov et Clay ? Et celle entre Ziemek et Bernard ?

  • Interpréter les facteurs principaux de l’ACP (à l’aide du graphe des individus et du graphe des variables actives et illustratives).

Au delà des deux premières dimensions

  • A partir des 4 variables les mieux projetées sur l’axe 3, comparer les profils des athlètes qui sont opposés sur cet axe.

Pour finir

  • Dans quelles épreuves les vainqueurs des décathlons excellent-ils ? Certaines épreuves influent-elles peu la performance (le nombre de points) au décathlon ?

  • Comparer les performances réalisées aux quatre compétitions. Que pouvez-vous dire sur la performance moyenne lors de cette compétition ?

Le vocabulaire de la séance

Commandes R

  • cor
  • round
  • Factoshiny

Environnement R

  • Factoshiny

Statistique

  • ACP
  • Inertie
  • Axe et plan principal