Labs2 - Analyse en composante Principale et au-delà

Author
Affiliations

Marie-Pierre Etienne

ENSAI - CREST

https://marieetienne.github.io/MAF/

Published

December 19, 2024

Les méthodes d’analyse factorielles sont utiles pour l’exploration de données, soit en tant que telle soit dans une phase préparatoire à un travail de modélisation. Il est utile de disposer à la fois d’outils interractifs pour l’exploration, mais également de garder une trace de l’exploration avec un document bilan.

Nous allons dans ce TP utiliser un fichier TP2.qmd pour garder une trace des analyses faites mais nous pourrons en parallèle utiliser le potentiel d’une exploration plus interactive soit avec Factoshiny soit avec explor selon ce que vous préférez.

Dans ce TP nous allons explorer un premier exemple en détail avec une démarche bien guidée tandis que le second exemple a pour objectif de vous laisser face aux données en autonomie, pour vérifier que vous voyez comment aborder un jeu de données avec les méthodes d’analyse factorielle.

Le jour du dépassement

Description des données

Le jeu de données utilisé dans ce premier cas pratique provient du site web de Global Footprint Network. Il contient les résultats d’empreinte écologique et de biocapacité pour 184 pays.

Les données sont disponibles sur ce lien.

Quelques définitions

Le calcul de l’empreinte écologique et de la biocapacité nous aide à répondre à la question de recherche fondamentale : Quelle est la demande des êtres humains envers les surfaces biologiquement productives (empreinte écologique) par rapport à la quantité que la planète (ou la surface productive d’une région) peut régénérer sur ces surfaces (biocapacité) ?

  • Hectare global (gha) : C’est l’unité choisie pour exprimer toutes les quantités d’intérêt concernant la consommation/émission de carbone. Une unité de surface correspondant à la productivité moyenne d’un hectare de terres mondiales. Un hectare de terres agricoles vaudra plus d’hectares globaux qu’un hectare de désert.
  • Empreinte écologique (en gha par personne) : Le nombre de gha requis pour produire les besoins et absorber les déchets d’un pays.
  • Biocapacité (en gha) : La capacité d’un pays à produire ce dont il a besoin et à absorber ses déchets (réserve écologique).
  • Jour de dépassement : Jour de l’année où la demande d’un pays dépasse sa biocapacité annuelle.

Des détails supplémentaires sont disponibles ici

Objectifs

Les relations entre les différentes mesures de l’empreinte écologique et les caractéristiques des pays.

Chargement des Données

Analyse Exploratoire des Données

  • Pouvez vous indiquer le nombre de lignes et de colonnes

L’unité utilisé pour comparer est le Global Hectare (gha): Unité de surface qui correspondrait à la production moyenne d’un hectare du monde. Un hectare de champ vaudra donc plus de global hectare qu’un hectare de desert.

Le gha par personne correspondant à une production (ou cosommation) globale d’une unité, (ici un pays) divisé par le nombre d’habitants dans cette unité.

Les Variables disponibles sont

  1. life_expectancy : Espérance de vie moyenne (années).
  2. hdi : Indice de développement humain.
  3. per_capita_gdp : PIB par habitant (USD).
  4. region : Région géographique.
  5. income_group : Catégorie de revenu (HI : Haut, UM : Moyen supérieur, LM : Moyen inférieur, LI : Faible).
  6. pop : Population (en millions).
  7. total_prod : Production totale (gha par personne) la production du pays par habitant.
  8. total_cons : Consommation totale (gha par personne) la consommation par habitant.
  9. biocapacity : La production durable (gha par personne) par habitant, ce que peut fournir le pays ramené par habitant.
  10. number_of_countries_required : Nombre de pays nécessaires pour satisfaire la consommation (total_cons/biocapacity)
  11. number_of_earths_required : Nombre de terres dont on aurait besoin si tout le monde faisait comme dans le pays en question (nb gha par personnes du pays / 1.583 (nb de gha par habitant de la terre, ce chiffre est mis à jour chaque année))
  12. overshoot_day : Jour de dépassement (numéro du jour dans l’année).

Plus de détails peuvent être trouvés ici , mais on peut préciser de la manière suivante

Statistiques descriptives :

Proposez des résumés numériques pour chaque variable, ainsi qu’une étude des corrélations.

Pour le moment, on va supprimer les données manquantes (on verra par la suite comment gérer ce problème de manière plus satisfaisante). Pour ceci on peut utiliser drop_nadu package tidyverse ou na.omitde R Base.

Construire une ACP

  • Quel poids choisir pour les pays ?
  • Quelle métrique choisir ?
  • Quelles variables met-on en variables supplémentaires ?
  • Quelle est l’inertie portée par l’axe 1 ?, l’axe 2, l’axe 3 ?
  • Commentez la qualité de la représentation sur le plan (1-2), puis (1-3).

  • De quelles variables nous parle l’axe 1 ? l’axe 2 ? Pour répondre à cette question on regardera le cercle des corrélations mais aussi les contributions des variable sà la création des axes.

  • Que pensez vous du graphe des individus ? Quels sont les individus atypiques ? Quels sont le spays les mieux représentés ?

  • Comment l’ACP est-elle modifiée si on retire Singapour de l’analyse ?

De nombreuses variables nous parle de l’empreinte écologique, et les variables nous parlant du développemnt du pays sont moins nombreuses. On peuyt rééquilibrer l’importance des varaibles avec une méthodes vu en cours, la quelle ?

  • On souhaite identifier deux groupes de variables : les variables concernant l’empreinte carbone et les varaibles portant sur le développement du pays.

  • Faites 2 ACP différentes sur chacun de ces deux groupes. Quelle est la première valeur propre dans les deux cas.

  • Rappelez en quoi la méthode mentionnée plus haut est une ACP particulière. A partir de la fonction PCA et en utilisant l’option col.w mettez en oeuvre cette méthode.

  • On peut le faire directement, avec la fonction ̀MFA de FactoMineR. Reprenez l’analyse précédente avec ce nouvel équilibre entre les différentes variables équilibrées. Quelles sont les informations que vous pouvez retenir ?

Etude de la qualité de vie

Le fichier QteVie.csv provient de l’OCDE et concerne des indicateurs de qualité de vie en 2015. Pour les 34 pays de l’OCDE à cette date, plus la Russie et le Brésil, on dispose de 22 indicateurs regroupés en cinq thèmes, et d’une variable qualitative correspondant à la région. Les cinq thèmes sont les suivants, on donne entre parenthèses le nombre d’indicateurs par thème: Bien-être matériel (5); Emploi (5); Satisfaction (3); Santé et sécurité (6); Enseignement (3).

On souhaite identifier des similarités entre pays et plus précisément on souhaite entre autre apporter des éléments de réponse aux questions suivantes :

  • Quels pays se ressemblent du point de vue de l’ensemble des indicateurs tous thèmes confondus ?
  • Certains pays sont-ils particuliers?
  • Certains pays sont-ils particuliers pour un ou plusieurs thèmes?
  • La position relative des pays les uns par rapport aux autres est-elle la même d’un groupe d’indicateurs à l’autre?

Un premier aperçu des données

  • Ouvrez le fichier QteVie.csv pour identifier le séparateur de champs, le séparateur décimale, la présence éventuelle d’une colonne d’identifiant, la présence éventuelle de noms de colonnes, l’encodage du fichier (pour gérer les accents). On souhaite conserver le nom des variables tel qu’il est dans le fichier de données (argument check.names ce qui nécessite de respecter l’encodage encoding.

  • Avec des statistiques univariées, identifier la présence de pays atypiques.

  • Les variables d’un même thème sont-elles corrélées?

  • Les différents thèmes sont-ils corrélés?

Choisir une démarche d’analyse

Vous disposez de différents outils pour aller au delà des analyses uni ou bivariées. Parmi ceux-ci, pouvez-vous faire un bilan rapide de différentes approches possibles et choisir celle (ou celles) qui vous semble la (les) plus pertinente(s) ?

Mise en oeuvre

Résumez dans le compte-rendu du TP les motifs qui vous ont fait choisir une méthode, les résultats principaux et les éléments qui vous permettent d’étayer ces résultats (éléments graphiques ou numériques).

Attention on ne peut pas indiquer de variables quali supplémentraire dans MFA