library(tidyverse)
library(FactoMineR)
library(factoextra)
library(janitor)# fonction clean_names
dta_logement_conso <- read.csv(file = "logement_conso2023.csv", header = TRUE)Lab4 - Explorer un jeu de données complexes
$$
$$
Présentation de la séance
L’objectif est de mettre en oeuvre les méthodes d’AFC et d’ACM pour explorer deux jeux de données dinnéerents. Le premier porte sur les logements, le second sur l’exploration de la richesse écologique de sites suivis.
Typologie des logements
Nous souhaitons identifier les méthodes adéquates pour appréhender et visualiser un jeu de données sur la consommation énergétiques des EPCI ( Etablissements Publics de Coopération Intercommunale ) sur le territoire métropolitain en 2023.
Présentation des données
Les données sont disponibles sur ce lien Les variables disponibles dans ce jeu de données sont décrites ci dessous
Vous pouvez vous inspirer du code du précédent TP, disponible ici
Identification et informations géographiques
- Id : Identifiant unique pour chaque observation.
- OPERATEUR : Nom ou code de l’opérateur énergétique responsable.
- Code.EPCI : Code officiel de l’Établissement Public de Coopération Intercommunale (EPCI).
- Nom.EPCI : Nom de l’Établissement Public de Coopération Intercommunale.
- Code.Département : Code officiel du département.
- Nom.Département : Nom du département.
- Code.Région : Code officiel de la région.
- Nom.Région : Nom de la région.
Consommation énergétique
- Nb.sites : Nombre total de sites ou de compteurs pris en compte dans l’analyse.
- Conso.totale..MWh. : Consommation totale d’énergie, exprimée en mégawattheures (MWh), incluant tous les usages résidentiels.
- Conso.moyenne..MWh. : Consommation moyenne d’énergie par site ou unité (exprimée en MWh) (Conso.totale..MWh./ Nb.sites).
- Part.thermosensible…. : Proportion (%) de la consommation totale attribuée à des usages thermosensibles (chauffage, climatisation).
- Conso.totale.à.usages.thermosensibles..MWh. : Consommation totale spécifique aux usages thermosensibles (en MWh).
- Conso.totale.corrigée.de.l.aléa.climatique.à.usages.thermose : Consommation totale pour des usages thermosensibles corrigée des aléas climatiques (en MWh).
- Conso.moyenne.à.usages.thermosensibles..MWh. : Consommation moyenne pour des usages thermosensibles (en MWh).
- Conso.moyenne.corrigée.de.l.aléa.climatique.à.usages.thermos : Consommation moyenne pour des usages thermosensibles, corrigée des variations climatiques (en MWh), la consommation attendue si les températures avaient été les températeures moyennes attendues.
Caractéristiques socio-démographiques et du logement
- Nombre.d.habitants : Nombre total d’habitants dans la région ou le territoire.
- Taux.de.logements.collectifs : Proportion (%) de logements collectifs.
- Taux.de.résidences.principales : Proportion (%) de résidences principales parmi tous les logements.
- Superficie.des.logements..30.m2 : Nombre de logements de moins de 30 m².
- Superficie.des.logements.30.à.40.m2 : Nombre de logements entre 30 et 40 m².
- Superficie.des.logements.40.à.60.m2 : Nombre de logements entre 40 et 60 m².
- Superficie.des.logements.60.à.80.m2 : Nombre de logements entre 60 et 80 m².
- Superficie.des.logements.80.à.100.m2 : Nombre de logements entre 80 et 100 m².
- Superficie.des.logements..100.m2 : Nombre de logements de plus de 100 m².
Année de construction des résidences principales
- Résidences.principales.avant.1919 : Nombre de résidences principales construites avant 1919.
- Résidences.principales.de.1919.à.1945 : Nombre de résidences principales construites entre 1919 et 1945.
- Résidences.principales.de.1946.à.1970 : Nombre de résidences principales construites entre 1946 et 1970.
- Résidences.principales.de.1971.à.1990 : Nombre de résidences principales construites entre 1971 et 1990.
- Résidences.principales.de.1991.à.2005 : Nombre de résidences principales construites entre 1991 et 2005.
- Résidences.principales.de.2006.à.2015 : Nombre de résidences principales construites entre 2006 et 2015.
- Résidences.principales.après.2016 : Nombre de résidences principales construites après 2016.
Modes de chauffage
- Taux.de.chauffage.électrique : Proportion (%) de logements utilisant le chauffage électrique.
Sur une maille géographique donnée (EPCI), l’énergie annuelle totale correspond au volume d’électricité consommée sur une année par l’ensemble des sites (compteurs) pour le secteur résidentiel; l’énergie annuelle moyenne correspond au volume d’électricité consommée sur une année par l’ensemble des sites divisée par le nombre de sites.
Les données sont assemblées à partir du site data.gouv.fr et l’Observatoire des territoires.
Les définitions des modes de calcul sont disponibles sur le site d’ENEDIS
Quelques remarques préalables
Les variables 20 à 25, donnent des effectifs par EPCI, ceci peut constituer une table de contingence, mais elles peuvent aussi être aggrégées à l’échelle du département pour construire des profils de département.
la même remarque peut être faite pour les variables 26 à 32.
On va travailler par département, certains EPCI sont à cheval sur plusieurs départements, il faut faire des choix les concernant. L’objectif du TP étant de mettre en oeuvre les méthodes vues en cours, nous allons opter pour un choix drastique et discutable, consistant à associer l’EPCI au département sur le lequel il a la plus grosse population.
Les questions que l’on se pose
Ces données permmettent d’extraire des informations en rapport avec différente question.
- Peut on faire des typologies de département en terme d’habitat ?
- Ces données permettent-elles de faire des hypothèses sur le lien entre type d’habitat et consommation ? ou entre vétusté du parc immobilier et consommation ?
Mise en oeuvre
Importation des données
- Que fait la commande suivante
dta_logement_conso <- dta_logement_conso %>%
clean_names() %>% ## clean variable names
# gardez uniquement les colonnes utiles au TP (adaptez si besoin)
select(
id, operateur,
code_epci, nom_epci,
code_departement, nom_departement,
code_region, nom_region,
nb_sites, starts_with("conso"),
nombre_d_habitants,
taux_de_logements_collectifs,
taux_de_residences_principales,
starts_with("superficie_des_logements"),
starts_with("residences_principales_"),
taux_de_chauffage_electrique,
part_thermosensible
)- Combien y a t il de lignes au total ? Combien y a t il d’EPCI différents ?
Vers Une typologie des départements
- Expliquer le code suivant ligne à ligne
epci_unique_dta <- dta_logement_conso %>%
group_by(code_epci) %>%
slice_max(order_by = nombre_d_habitants, n = 1, with_ties = FALSE) %>%
ungroup()- Combien y’ a t il d’epci ?
nrow(epci_unique_dta)[1] 1233
Le code suivant construit la table de contingence.
- Expliquez le traitement différent des variables type superficie de logements et des variables taux de logement, notamment l’utilisation d’une moyenne pondérée.
dept <- epci_unique_dta %>%
group_by(code_departement, nom_departement, nom_region) %>%
summarise(
# effectifs logement par classes de surface
across(starts_with("superficie_des_logements"), ~ sum(.x, na.rm = TRUE)),
# effectifs logement par périodes de construction
across(starts_with("residences_principales_"), ~ sum(.x, na.rm = TRUE)),
across(starts_with("conso_total"), ~ sum(.x, na.rm = TRUE)),
conso_totale_m_wh = sum(conso_totale_m_wh, na.rm = TRUE),
# moyenne pondérée par nb_sites (important !)
conso_moyenne_m_wh = weighted.mean(conso_moyenne_m_wh, w = nb_sites, na.rm = TRUE),
part_thermosensible = weighted.mean(part_thermosensible, w = nb_sites, na.rm = TRUE),
taux_de_logements_collectifs = weighted.mean(taux_de_logements_collectifs, w = nb_sites, na.rm = TRUE),
taux_de_chauffage_electrique = weighted.mean(taux_de_chauffage_electrique, w = nb_sites, na.rm = TRUE),
nombre_d_habitants = sum(nombre_d_habitants, na.rm = TRUE),
nb_sites = sum(nb_sites, na.rm = TRUE),
.groups = "drop"
)AFC sur les surfaces des logements
On se focalise pour le moment sur les données suivantes
tab_surface <- dept %>%
select(code_departement, nom_departement, nom_region, starts_with("superficie_des_logements"), starts_with("taux"), starts_with("conso")) %>%
column_to_rownames("nom_departement") |> select(-code_departement)Réaliser un test ud chi-2 d’indépendance pour tester l’hypothèse d’indépandance entre le département et les surfaces de logements
On a vu dans le cours que la statistique de test du Chi-2 était liée à l’inertie calculée dans l’AFC. rappeler comment c’est lié et indiquer combien vaut \(n\) dans ce cas ?
8 . Réaliser une AFC à l’aide de la fonction CA. Combien vaut l’inertie totale. Vérifier la cohérence avec votre réponse récédente
Quel est le nombre d’axes principaux maximal ? Combien d’axes vous semblent pertinents ?
Quels sont les types de logement le plus contributif à l’axe 1 ? Quels sont les départements ? Quelle information représente l’axe 1 ?
Représenter sur le même graphique les lignes et les colonnes du tableau de contingence dont la qualité de représentation dépasse 0.8. Pour cela on peut s’aider de la structure suivante dans laquelle il faut juste précalculer les variables rows_keep et cols_keep
fviz_ca_biplot(
res_ca_surface,
select.row = list(name = rows_keep),
select.col = list(name = cols_keep),
repel = TRUE
)- On souhaite faire le lien avec des éventuelles variables supplémentaires. Quel graphique proposez vous ? Quelle information pouvons-nous en tirer ? (Indication plot avec l’option choix = “quanti.sup”).
Typologie de sites écologiques
Contexte
On s’intéresse à la caractérisation et à la typologie de sites écologiques décrits par des variables qualitatives liées au milieu, à la gestion et aux pressions anthropiques.
Chaque individu statistique correspond à un site d’observation (parcelle, zone naturelle, site suivi). Le jeu de données comporte 200 sites.
L’objectif de l’analyse est
- d’explorer la structure des données qualitatives,
- d’identifier les grands gradients écologiques,
Données
Le fichier [sites_acm.csv]((https://raw.githubusercontent.com/MarieEtienne/MAF/refs/heads/master/sites_acm.csv) contient les variables suivantes.
- Milieu : urbain / periurbain / rural
- Couverture : boise / prairial / agricole / mixte
- Gestion : fauche_tardive / fauche_frequente / paturage / aucune
- Pression : forte / moyenne / faible
- Eau : proche / eloigne
- Artificialisation : oui / non
- Usage : loisirs / agricole / conservation / mixte
On a également des informations sur * Richesse écologique : faible / moyenne / elevee (classe de richesse spécifique) * Region : Nord / Ouest / Sud / Est
Description des données
Donner le nombre d’individus et de variables.
Dans l’objectif de faire une typologie des sites, préciser quelles variables vous souhaitez considérer comme actives et lesquelles seront supplémentaires.
Identifier des éventuelles modalités rares
Aucune modalité n’est rare seule mais on s’attend à avoir des croisements peu fréquents dans la table de contingence par exemple artificialisation oui et gestion fauche_frequente..
Construire une typologie des sites
Mettre en place l’ACM
Que signifie ACM ?
Faire une ACM sur les données à l’aide de la fonction MCA, (prendre garde aux variables supplémentaires)
Présenter les valeurs propres et commenter la part d’inertie expliquée par les premiers axes.
Donner du sens aux axes
Pour les deux premiers axes :
Identifier les modalités les plus contributrices.
Identifier les modalités les mieux représentées (cos² élevés).
Visualisation
Représenter les modalités sur le plan factoriel (1,2). et discuter de leur organisation
Représenter les individus, colorés selon la variable Milieu.
5. Variables supplémentaires
Projeter les variables Richesse et Region sur le plan factoriel et commenter la position des différentes classes de richesse spécifique.
Discuter le rôle (ou l’absence de rôle) de la variable Region dans la structuration des données.