Un laboratoire d’analyse souhaite mettre en évidence l’influence de la composition du lait sur le rendement fromager. Pour ce faire, il a mesuré sur un échantillon de n = 85 laits, la densité, le taux butyreux, le taux de protéine, le taux de caséine, l’extrait sec et le rendement fromager de chacun de ces laits.
lait.txt
.extractAIC(Mcomp)
En regardant la sortie summary
, indiquez quelle est la variable la moins importante d’un point de vue statistique ? Enlever cette variable et ajuster le sous modèle obtenu \(M_4\) et calculer son AIC.
La commmande step
va mettre en place le processus de sélection de variables descendantes automatiquement
# install package MASS install.packages("MASS")
<- MASS::stepAIC(Mcomp)
M_AIC summary(M_AIC)
<- MASS::stepAIC(Mcomp, k = log(nrow(fromages)))
M_BIC summary(M_BIC)
DENSITE | BUTYREUX | PROTEINE | CASEINE | EXTRAITSEC |
---|---|---|---|---|
1.03 | 37.7 | 35.7 | 28.5 | 127.1 |
A l’aide de la fonction predict
, déterminer l’intervalle de confiance associé à ce rendement moyen.
Déterminer l’intervalle de prédiction associé à l’estimation du rendement d’un tel lait.
On s’intéresse ici à des données de paléoclimatologie, i.e. la science qui étudie les climats passés et leurs variations. Cela permet de mieux comprendre les évolutions du climat actuelles et à quel point elles sont liées à l’homme. Le jeu de données (fourni par Joël Guiot) correspond à 700 relevés (dans 700 endroits différents du globe) qui mesurent le pourcentage de pollens de 31 espèces d’arbres. Ces relevés ont été effectués récemment (lors de ce siècle) et nous disposons donc aussi des relevés de variables climatiques, et notamment la température moyenne annuelle.
On donne également pour chaque relevé le macrosystème (on parle aussi de biomes) du prélèvement. 9 macrosystèmes différents sont possibles : COCO (cool conifer forest), COMX (cool mixed forest), COST (cool steppes), HODE (hot desert), TEDE (temperate deciduous forest), TUND (tundra), WAMX (warm mixed broad-leaved forest), WAST (warm steppes), XERO (xerophytic scrubs).
Les données sont diponibles dans le fichier.
On souhaite maintenant utiliser ce modèle pour prévoir la température moyenne annuelle dans les siècles précédents. On dispose pour cela des relevés d’une carotte glaciaire. Sur cette carotte, on peut, siècle par siècle, obtenir le pourcentage de chacun des 31 pollens. Ces échantillons remontent à 128 siècles et sont notés BPxx pour Before Present xx siècles : BP15 il y a 15 siècles (ceci est approximatif, la datation avant le présent est donnée dans la colonne age). Pour ces données, on ne dispose pas du macroécosystème, ni bien entendu du climat. L’objectif est justement d’essayer de prédire le climat au cours des siècles passés à partir de la composition en les différents pollens.
Les données du passé, pour lesquelles on veut faire des prévisions, sont diponibles dans le fichier. Pour importer ce jeu de données, on utilisera row.names=1 pour que la date correspond au nom de l’échantillon.