Données spatiales sur réseau

Marie-Pierre Etienne

ENSAI - CREST

https://marieetienne.github.io/statspat

2025-03-11

Introduction

Sources

Ce cours est construit à partir du livre de Cressie (2015) et de l’article Ver Hoef, Hanks, and Hooten (2018)

Exemple illustratif

On s’intéresse aux données de mort subite du nourrisson en Caroline du Nord en 1974 (exemple extrait du livre de Cressie (2015)). Les données sont disponibles dans le package sf

Les données sont ici des comptages par counties, mais on peut imaginer des prix au m2 par IRIS, des taux de chomage par IRIS etc ….

On cherche typiquement à ajuster un modèle de régression pour trouver des covariables liées au phénomène d’intérêt.

Pourquoi faire attention à la corrélation spatiale

Un exemple

\[Y_t = \rho Y_{t-1} +\varepsilon_t\]

            Estimate Std. Error  t value     Pr(>|t|)
(Intercept) 1.871456  0.3667672 5.102571 1.619417e-06

Variance de \(\hat{\mu}\) :

  • Cas indépendant \(Var(\hat{\mu})= n^{-1} \sigma^2\)

  • Cas corrélé \(Var(\hat{\mu})= n^{-1} \sigma^2 \left(1 + 2\left( \frac{\rho}{1-\rho}\right)\left( 1 -\frac{1}{n}\right) - 2 \left( \frac{\rho}{1-\rho}\right)^2 \left( \frac{1-\rho^{n-1}}{n}\right) \right)\)

Ici on sous estime l’incertitude

Quelques remarques

  • Processus spatial est défini sur une grille : pas de réalisation possible entre deux localisation.

  • on note \(D\) l’ensemble des points de la grille

  • On souhaite construire un modèle pour décrire la distribution du processus \(Z\) en tout point \(s\) de \(D\)

Les modèles spatiaux sur grille et leur estimation

Modèle SAR - Cadre Gaussien

\[Z = BZ + \nu\]

  • \(B\) : Matrice de poids spatiaux
  • \(\nu\) : Bruit normal \(\nu \sim N(0, \Omega)\)
    • \(\Omega\) est une matrice diagonale dont tous les termes diagonaux sont stritecement positifs.
    • Par convention les termes \(b_{ii}\) de la matrice sont nuls (les sites ne dépendent pas d’eux-mêmes)
  • Modèle simultané : chaque variable dépend directement de ses voisines

Puisque \(Z - BZ = \nu\), \[ \Sigma_{SAR} = (I - B)^{-1} \Omega (I - B^T)^{-1} \]

Remarques

  • La dépendance spatiale est due à B.
  • \(B\) n’est pas obligatoirement symétrique, en effet la forme quadratique \((I - B)^{-1} \Omega (I - B^T)^{-1}\) est symétrique même si \(B\) ne l’est pas
  • Il faut que \(I-B\) soit inversible

Modèle CAR

\[ Z_i | Z_{-i} \sim N \left( \sum_{j \neq i} c_{ij} Z_j, \sigma^2 / m_{ii} \right) \]

\(Z_{-i}\) désigne l’ensemble des \(Z_j\) pour \(j\ne i\).

  • La matrice \(C\) est la matrice des poids spatiaux et on impose \(C_{ii}=0\) (on ne définit pas \(Z_i\) conditionnellement à lui même)

  • La matrice \(M\) est diagonal et ses termes diagonaux sont positifs.

  • Dépendance conditionnelle : chaque variable est conditionnée aux voisines

  • Matrice de covariance :

\[\Sigma_{CAR} = (I - C)^{-1} M\]

Remarques

La loi conditionnelle de \(Z_i\) est une combinaison linéaire des autres variables.

Les valeurs de \(m_{ii}\) se sont pas toutes identiques

Ce n’est pas évident que ca définit une loi jointe qui existe

Modèle CAR

  • Existence du modèle CAR sous réserve que \((I-C)^{-1} M\) est définie positive (Besag (1974)) et alors

\[Z \sim \mathcal{N}(0, \Sigma_{CAR}), \quad \Sigma_{CAR} = (I-C)^{-1} M\] Puisque \(\Sigma_{CAR}\) doit être symétrique alors \[\frac{C_{ij}}{m_{ii}} =\frac{C_{ji}}{m_{jj}}\]

Dans Ver Hoef, Hanks, and Hooten (2018), on trouve une caractérisation intéressante qui permet de faire le lien entre SAR et CAR

Pour que \(\Sigma_{CAR}\) soit une matrice de covariance valide il faut

  • \((I-C)\) a ses valeurs propres positives

  • \(M\) est diagonal avec ses termes diagonaux positifs

  • \(C_{ii} = 0\) pour tout \(i\)

  • \(C_{ij}/m_{ii} = C_{ji}/m_{jj}\) pour tout i,j

Les matrices de poids

En pratique, on choist la matrice \(B\) du modèle SAR sous la forme \(B = \rho_s W\) et

la matrice \(C\) du CAR sous la forme \(C=\rho_C W\).

La matrice \(W\) est une matrice de poids tels que

  • \(W_{ij}\ne 0\) si \(i\) et \(j\) sont voisins

La notion de voisinage

Rappel Chaîne de Markov

Soit \(Z\) une chaine de Markov alors

\[{\mathbb{P}}(Z_t, Z_{t-1}, \ldots Z_1 \vert Z_0) = \prod_{s=1}^t Q_s(Z_s; Z_{s-1})\] Quel est l’intérêt d’une chaîne de Markov dans le traitement de la dépendance

. . .

Les indépendances conditionelles \(Z_t\) et \(Z_{t-2}\) sont indépendant si on conditionne par \(Z_{t-1}\) et dans ce cas le terme \(\Sigma_{t, t-2}^{-1}=0\)

On veut copier l’idée pour les CAR

Des exemples de voisinage sur une grille régulière

Impact du voisinage

On souhaite définir un CAR sous la forme

\[Z_i \vert Z_{-i} \sim \mathcal{N}(\sum_{j, j\in V(i)} Z_j, \sigma^2/m_{ii})\]

Est-ce un modèle CAR valide ?

Que faire dans le cas des counties – grille non régulière

Reading layer `LDNSuicides' from data source 
  `/__w/statspat/statspat/data/LondonSuicide/LDNSuicides.shp' 
  using driver `ESRI Shapefile'
Simple feature collection with 32 features and 18 fields
Geometry type: POLYGON
Dimension:     XY
Bounding box:  xmin: 503568.2 ymin: 155850.8 xmax: 561957.5 ymax: 200933.9
CRS:           NA

Que faire dans le cas des counties – grille non régulière

On est voisin si on se touche

Que faire dans le cas des counties – grille non régulière

On est voisin si on se touche

Que faire dans le cas des counties – grille non régulière

On a au plus 3 voisins

Relations entre CAR et SAR

Théorème Ver Hoef, Hanks, and Hooten (2018) :

  • Tout modèle SAR peut s’écrire de manière unique comme un modèle CAR

  • Tout modèle CAR peut s’écrire de manière comme un modèle SAR mais cette écriture n’est pas unique

Estmation des modèles CAR et SAR

En général CAR et SAR ne sont utilisés que pour le bruit

on a donc des modèles

\(Y = X\beta + Z\)\(Z\) a une structure SAR ou CAR.

Dans la pratique

  • On estime \(\tilde{\beta}\) comme si il n’y avait pas de dépendanc, et on calcule les résidus \(\tilde{Z} = Y- X \tilde{\beta}\).

  • on ajuste la structure de covariance sur les résidus

  • On en déduit une estimation de la covariance et on peut estimer les paramètres \(\beta\)

Que se passe t il si on n’est plus dans un cadre gaussien ?

On compte le nombre de personnes atteintes de cancer soigné dans les hopitaux.

Chaque hopital est associé à un sercteur géographique, pour lequel on a des descripteurs environnementaux.

Quel modèle proposez vous ?

Références

Besag, Julian. 1974. “Spatial Interaction and the Statistical Analysis of Lattice Systems.” Journal of the Royal Statistical Society: Series B (Methodological) 36 (2): 192–225.
Cressie, Noel. 2015. Statistics for Spatial Data. John Wiley & Sons.
Ver Hoef, Jay M., Ephraim M. Hanks, and Mevin B. Hooten. 2018. “On the Relationship Between Conditional (CAR) and Simultaneous (SAR) Autoregressive Models.” Spatial Statistics 25: 68–85. https://doi.org/https://doi.org/10.1016/j.spasta.2018.04.006.