Pour chacune des situations ci dessous répondre aux 4 questions suivantes :
Indiquer l’individu statistique,
Indiquer la variable à expliquer et la variable explicative, en précisant leur nature.
Ecrire le modèle le plus complexe (M1).
Indiquer le modèle nul (M0) correspondant.
Durant 10 jours, on a noté pour 3 chaînes de production différentes les poids de volailles valorisés dans la journée. On a donc 10 mesures de poids pour chaque chaîne de production. On se demande si les différentes chaînes sont toutes aussi efficaces.
Pour évaluer l’impact de complément alimentaire sur la production de lait dans un élevage bovin, on réalise l’expérimentation suivante. On choisit au hasard 40 vaches dans l’élevage. 10 vaches recoivent uniquement du fourrage, 10 vaches recoivent du fourrage et le complément alimentaire, 10 vaches recoivent du fourrage et du soja, et les 10 dernières vaches reçoivent fourrage, soja et complément.
Le problème qui suit est inspiré d’un stage de fin d’études réalisé par une étudiante de la spécialisation Science des données du cursus d’ingénieur agro-alimentaire d’Agrocampus.
Un groupe industriel commercialisant du café souhaite comparer les cafés provenant de différents lieux de production à partir de leur profil de composition physico-chimique, dont une des composantes importantes est le taux de matière sèche (DM
). Pour cela, il s’appuie sur des données contenant le lieu de production, codé par un entier allant de 1
à 7
, de 240 mesures de café disponible sur l’onglet Scripts et données de la page d’accueil du module.
Importation du jeu de données
Importer le jeu de données cafe_DM.csv
disponible sur la page des jeux de données dans un objet nommé cafe
en utilisant un script TD5_script.R
que vous aurez créé dans votre répertoire de projet.
Utiliser la commande summary
pour obtenir un descriptif des données
R
traite la variable Localisation
, un entier compris entre 1 et 7, comme une variable quantitative. Il faut indiquer à R
que cette variable est en fait une variable qualitative, un facteur.
<- cafe %>%
cafe mutate(Localisation = as.factor(Localisation))
Visualisation des données
La commande suivante permet de calculer la moyenne de matière sèche pour chaque origine de café.
%>%
cafe group_by(Localisation) %>%
summarise(DM_mean = mean(DM))
## # A tibble: 7 × 2
## Localisation DM_mean
## <fct> <dbl>
## 1 1 90.4
## 2 2 90.3
## 3 3 89.7
## 4 4 91.4
## 5 5 90.1
## 6 6 90.0
## 7 7 90.5
Les lignes ci-dessous calculent la moyenne, l’écart type et certains quantiles pour chaque origine de café
<- cafe %>%
stat_desc group_by(Localisation) %>%
summarise(DM_mean = mean(DM),
DM_sd = sd(DM),
q05 = quantile(DM, probs = 0.05 ),
q50 = quantile(DM, probs = 0.5 ),
q95 = quantile(DM, probs = 0.95 )
)
Localisation | DM_mean | DM_sd | q05 | q50 | q95 |
---|---|---|---|---|---|
1 | 90.40 | 0.44 | 89.61 | 90.51 | 91.04 |
2 | 90.26 | 0.25 | 89.86 | 90.29 | 90.58 |
3 | 89.69 | 0.41 | 89.08 | 89.79 | 90.28 |
4 | 91.37 | 0.45 | 90.70 | 91.32 | 91.90 |
5 | 90.13 | 0.41 | 89.70 | 90.12 | 90.57 |
6 | 89.99 | 0.28 | 89.54 | 89.99 | 90.37 |
7 | 90.50 | 0.64 | 89.71 | 90.53 | 91.37 |
Ajustement du modèle
La fonction lm
permet d’ajuster le modèle d’analyse de la variance.
<- lm(DM~Localisation, data = cafe) DM_lm
Il peut être ajusté grâce à la commande suivante :
<- lm(DM~1, data = cafe) DM_lm0
Test de l’effet origine
On peut comparer les deux modèles grâce à la commande:
anova(DM_lm0, DM_lm)
## Analysis of Variance Table
##
## Model 1: DM ~ 1
## Model 2: DM ~ Localisation
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 239 67.132
## 2 233 35.029 6 32.104 35.59 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Enfin, les paramètres estimé dans le modèle complet sont obtenus grâce à la fonction summary
.
summary(DM_lm)
##
## Call:
## lm(formula = DM ~ Localisation, data = cafe)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.92961 -0.23612 0.03543 0.27781 1.10409
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 90.39711 0.05483 1648.561 < 2e-16 ***
## Localisation2 -0.13620 0.09375 -1.453 0.14763
## Localisation3 -0.70775 0.09375 -7.549 9.83e-13 ***
## Localisation4 0.96924 0.12071 8.029 4.83e-14 ***
## Localisation5 -0.26318 0.09920 -2.653 0.00853 **
## Localisation6 -0.40906 0.06926 -5.906 1.23e-08 ***
## Localisation7 0.10472 0.10450 1.002 0.31731
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3877 on 233 degrees of freedom
## Multiple R-squared: 0.4782, Adjusted R-squared: 0.4648
## F-statistic: 35.59 on 6 and 233 DF, p-value: < 2.2e-16
La suite de l’exercice vise à expliciter les diverses quantités qui apparaissent dans les sorties précédentes.
Les résidus quantifient pour chaque individu statistique l’écart entre la matière sèche prédite par le modèle ajusté et la matière sèche effectivement mesurée. Ils se calculent manuellement à l’aide de la suite de commande suivante :
<- cafe %>%
cafe_residuals group_by(Localisation) %>%
mutate(DM_mean = mean(DM), Residuals = DM -DM_mean)
La somme des carrés des écarts résiduels, notée RSS, est un indicateur de la qualité d’ajustement du modèle.
Comment calcule-t-on RSS ?
En déduire la valeur estimée de l’écart-type résiduel du modèle.
Donner l’expression du modèle nul (associé à l’absence de différences moyennes entre les lieux de production comme dans l’hypothèse \(H_{0}\) ) des taux de matière sèche. Quelle est la valeur estimée des paramètres de ce modèle ?
Que vaut la somme des carrés des écarts résiduels RSS\(_{0}\) mesurant la qualité d’ajustement du modèle nul ?
En déduire la valeur du coefficient R\(^{2}\) du modèle M\(_1\).
Quelle est l’expression de la statistique de test permettant de tester l’existence de différences moyennes entre les lieux de production ? Quelle est la valeur prise par cette statistique de test ?
Quelle est la distribution sous l’hypothèse H\(_{0}\), \(\mathcal{F}_{0}\), de la statistique de test \(F\) introduite à la question précédente ?
La fonction pf(q = .., df1 = .. , df2= .. , lower.tail = FALSE)
donne la probabilité qu’une variable aléatoire suivant une loi de Fisher de paramètre df1
, df2
dépasse la valeur q
.
Cette probabilité est la p-value.