Télécharger les données de manchots de Palmers penguins.csv
disponibles sur l’onglet Scripts et données de la page d’accueil du module ainsi que le fichier TD1_script.R
dans le répertoire Téléchargement par défaut.
Créer un nouveau répertoire intitulé ds_TD
contenant les fichiers penguins.csv
et TD1_script.R
: ce répertoire est appelé répertoire de travail (working directory)
Créer un projet dans RStudio à partir du répertoire ds_TD
.
Ouvrir le fichier TD1_script.R
dans RStudio.
Remarque : le fichier TD1_script.R
est appelé script. C’est un fichier au format texte contenant des lignes de commandes organisées, dont l’interprétation réalise une analyse de données (production de graphiques ou de résultats numériques pour éclairer une problématique).
Les lignes qui commencent par #
ne sont pas interprétées par R. Elles permettent de faire des commentaires et donc de contextualiser le script. Dans le cadre du TD, il est utile d’utiliser ce mode de commentaires pour prendre des notes.
R
pour importer des donnéesExécuter la première ligne du script.
Exécuter la ligne suivante.
read.table
?La commande summary
appliquée à l’objet contenant les données importées, ici penguins
, permet d’obtenir une synthèse des données, variable par variable. Il est important de s’assurer que toutes les variables ont bien été importées et qu’elles l’ont été au bon format, soit quantitatif, soit catégoriel.
summary
pour vérifier que la nature des variables telle que vous l’appréciez est conforme à la nature des variables telle que déclarée dans R.R
est un logiciel collaboratif. Chacun peut contribuer à enrichir les fonctions de base en proposant un ensemble de fonctions appelé package. Pour utiliser un package, il faut l’installer (une seule fois avant une première utilisation) et le charger (dans toutes les sessions de travail prévoyant son utilisation).
tidyverse
à partir du menu.TD1_script.R
grâce à la fonction library( )
appliquée au package désiré :On peut utiliser une fonction du package tidyverse pour lire le fichier `penguins.csv’ au lieu d’une fonction de base.
library(tidyverse)
## Lecture tidy
<- read_delim(file = 'penguins.csv', delim = ';') penguins.dta
On souhaite traduire certains libellés des variables de l’anglais vers le français. C’est possible avec la fonction rename
(issue du package tidyverse
).
## R tidy
<- penguins.dta %>%
penguins.fr rename(longueur_bec = bill_length_mm,
epaisseur_bec = bill_depth_mm)
species
en espece, island
en ile, body_mass_g
en poids, flipper_length_mm
en longueur_nageoire, sex
en sexe et year
en annee (il faut éviter les caractères accentués et ne pas utiliser les espaces dans les noms de variables).De nombreuses fonctions de visualisation sont disponibles dans le package ggplot2
.
ggplot2
.La répartition des valeurs d’une variable qualitative peut être visualisée à l’aide d’un diagramme en bâtons (barplot).
R
puis l’exécuter.%>% ggplot() +
penguins.fr aes(x = espece) +
geom_bar()
La fonction aes
permet de spécifier ce qui est représenté. Ici aes( x = espece)
indique que la variable espece
sera représentée sur l’abscisse du graphique. L’ordonnée n’étant pas spécifiée, le comportement par défaut de la fonction geom_bar
sera utilisé et l’ordonnée correspond ainsi à l’effectif (le nombre d’individus) de chaque classe.
La distribution des valeurs d’une variable quantitative peut être représentée à l’aide d’un histogramme.
geom_histogram
).Par défaut, sans autre indication dans la fonction aes
, l’ordonnée de l’histogramme indique l’effectif de manchots par classe de valeurs. Dans la définition mathématique de l’histogramme, les aires de chaque barre sont proportionnelles aux fréquences (proportions d’individus dans chaque classe), l’ordonnée représentant alors une densité. Pour obtenir ce graphique, il faut modifier le comportement par défaut de la fonction aes
pour spécifier l’ordonnée explicitement avec un mot réservé ..density..
.
%>% ggplot() +
penguins.fr aes(x = longueur_bec) +
geom_histogram(aes(y = after_stat(density)))
Il est possible de modifier le nombre de classes de l’histogramme grâce à l’argument bins
de la fonction geom_histogram
.
La couleur de fond de l’histogramme peut être modifiée grâce à l’argument fill
.
%>% ggplot() +
penguins.fr aes(x = longueur_bec) +
geom_histogram(aes(y = after_stat(density)), fill = 'green')
La couleur peut être choisie plus harmonieusement et spécifiée sous format html. Par exemple :
%>% ggplot() +
penguins.fr aes(x = longueur_bec) +
geom_histogram(aes(y = after_stat(density)), fill = '#59C9A5')
Enfin, il est possible de modifier la couleur des traits
%>% ggplot() +
penguins.fr aes(x = longueur_bec) +
geom_histogram(aes(y = after_stat(density)), fill = '#59C9A5',
col = '#5C6D70')
Il est possible d’enregistrer l’objet graphique produit par R
:
<-penguins.fr %>% ggplot() +
p1 aes(x = longueur_bec) +
geom_histogram(aes(y = after_stat(density)))
p1
Il est facile d’ajouter un titre grâce à la fonction ggtitle.
+
p1 ggtitle('Distribution des longueurs de becs chez les manchots')
Il est essentiel de nettoyer (ne garder que les commandes pertinentes) et de sauvegarder le script final pour pouvoir le réutiliser lors d’une séance prochaine.
R
.