Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.871456 0.3667672 5.102571 1.619417e-06
ENSAI - CREST
https://marieetienne.github.io/statspat
2025-03-11
$$
$$
Ce cours est construit à partir du livre de Cressie (2015) et de l’article Ver Hoef, Hanks, and Hooten (2018)
On s’intéresse aux données de mort subite du nourrisson en Caroline du Nord en 1974 (exemple extrait du livre de Cressie (2015)). Les données sont disponibles dans le package sf
Les données sont ici des comptages par counties, mais on peut imaginer des prix au m2 par IRIS, des taux de chomage par IRIS etc ….
On cherche typiquement à ajuster un modèle de régression pour trouver des covariables liées au phénomène d’intérêt.
\[Y_t = \rho Y_{t-1} +\varepsilon_t\]
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.871456 0.3667672 5.102571 1.619417e-06
Variance de \(\hat{\mu}\) :
Cas indépendant \(Var(\hat{\mu})= n^{-1} \sigma^2\)
Cas corrélé \(Var(\hat{\mu})= n^{-1} \sigma^2 \left(1 + 2\left( \frac{\rho}{1-\rho}\right)\left( 1 -\frac{1}{n}\right) - 2 \left( \frac{\rho}{1-\rho}\right)^2 \left( \frac{1-\rho^{n-1}}{n}\right) \right)\)
Ici on sous estime l’incertitude
Processus spatial est défini sur une grille : pas de réalisation possible entre deux localisation.
on note \(D\) l’ensemble des points de la grille
On souhaite construire un modèle pour décrire la distribution du processus \(Z\) en tout point \(s\) de \(D\)
\[Z = BZ + \nu\]
Puisque \(Z - BZ = \nu\), \[ \Sigma_{SAR} = (I - B)^{-1} \Omega (I - B^T)^{-1} \]
\[ Z_i | Z_{-i} \sim N \left( \sum_{j \neq i} c_{ij} Z_j, \sigma^2 / m_{ii} \right) \]
\(Z_{-i}\) désigne l’ensemble des \(Z_j\) pour \(j\ne i\).
La matrice \(C\) est la matrice des poids spatiaux et on impose \(C_{ii}=0\) (on ne définit pas \(Z_i\) conditionnellement à lui même)
La matrice \(M\) est diagonal et ses termes diagonaux sont positifs.
Dépendance conditionnelle : chaque variable est conditionnée aux voisines
Matrice de covariance :
\[\Sigma_{CAR} = (I - C)^{-1} M\]
La loi conditionnelle de \(Z_i\) est une combinaison linéaire des autres variables.
Les valeurs de \(m_{ii}\) se sont pas toutes identiques
Ce n’est pas évident que ca définit une loi jointe qui existe
\[Z \sim \mathcal{N}(0, \Sigma_{CAR}), \quad \Sigma_{CAR} = (I-C)^{-1} M\] Puisque \(\Sigma_{CAR}\) doit être symétrique alors \[\frac{C_{ij}}{m_{ii}} =\frac{C_{ji}}{m_{jj}}\]
Dans Ver Hoef, Hanks, and Hooten (2018), on trouve une caractérisation intéressante qui permet de faire le lien entre SAR et CAR
Pour que \(\Sigma_{CAR}\) soit une matrice de covariance valide il faut
\((I-C)\) a ses valeurs propres positives
\(M\) est diagonal avec ses termes diagonaux positifs
\(C_{ii} = 0\) pour tout \(i\)
\(C_{ij}/m_{ii} = C_{ji}/m_{jj}\) pour tout i,j
En pratique, on choist la matrice \(B\) du modèle SAR sous la forme \(B = \rho_s W\) et
la matrice \(C\) du CAR sous la forme \(C=\rho_C W\).
La matrice \(W\) est une matrice de poids tels que
Soit \(Z\) une chaine de Markov alors
\[{\mathbb{P}}(Z_t, Z_{t-1}, \ldots Z_1 \vert Z_0) = \prod_{s=1}^t Q_s(Z_s; Z_{s-1})\] Quel est l’intérêt d’une chaîne de Markov dans le traitement de la dépendance
. . .
Les indépendances conditionelles \(Z_t\) et \(Z_{t-2}\) sont indépendant si on conditionne par \(Z_{t-1}\) et dans ce cas le terme \(\Sigma_{t, t-2}^{-1}=0\)
On veut copier l’idée pour les CAR
On souhaite définir un CAR sous la forme
\[Z_i \vert Z_{-i} \sim \mathcal{N}(\sum_{j, j\in V(i)} Z_j, \sigma^2/m_{ii})\]
Est-ce un modèle CAR valide ?
Reading layer `LDNSuicides' from data source
`/__w/statspat/statspat/data/LondonSuicide/LDNSuicides.shp'
using driver `ESRI Shapefile'
Simple feature collection with 32 features and 18 fields
Geometry type: POLYGON
Dimension: XY
Bounding box: xmin: 503568.2 ymin: 155850.8 xmax: 561957.5 ymax: 200933.9
CRS: NA
On est voisin si on se touche
On est voisin si on se touche
On a au plus 3 voisins
Théorème Ver Hoef, Hanks, and Hooten (2018) :
Tout modèle SAR peut s’écrire de manière unique comme un modèle CAR
Tout modèle CAR peut s’écrire de manière comme un modèle SAR mais cette écriture n’est pas unique
En général CAR et SAR ne sont utilisés que pour le bruit
on a donc des modèles
\(Y = X\beta + Z\) où \(Z\) a une structure SAR ou CAR.
Dans la pratique
On estime \(\tilde{\beta}\) comme si il n’y avait pas de dépendanc, et on calcule les résidus \(\tilde{Z} = Y- X \tilde{\beta}\).
on ajuste la structure de covariance sur les résidus
On en déduit une estimation de la covariance et on peut estimer les paramètres \(\beta\)
On compte le nombre de personnes atteintes de cancer soigné dans les hopitaux.
Chaque hopital est associé à un sercteur géographique, pour lequel on a des descripteurs environnementaux.
Quel modèle proposez vous ?