ENSAI - CREST
https://marieetienne.github.io/statspat
2025-03-11
$$
$$
Ce cours est construit principalement à partir de celui de Lilane Bel et du livre de Gaetan, Guyon, et al. (2010)
La température en France
Si \(\widehat{\mu}\) est sans biais alors
Quelle est la conséquence de l’hypothèse de variance minimale ?
Utiliser la méthode du multiplicateur de Lagrange et montrer qu’on cherche à résoudre le système linéaire
\[\begin{pmatrix} c_{11} & c_{12} & \dots & c_{1n} & 1 \\ c_{21} & c_{22} & \dots & c_{2n} & 1 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ c_{n1} & c_{n2} & \dots & c_{nn} & 1 \\ 1 & 1 & \dots & 1 & 0 \end{pmatrix} \begin{pmatrix} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_n \\ m \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 0 \\ 1 \end{pmatrix}\]
Conclusion si \(c_{ij}\) connus, on peut estimer la moyenne
Encore faut il pouvoir estimer la covariance
on a souvent une seule réalisation du processus spatial
Il faut avoir des hypothèses de régularité spatial pour espérer dire des choses à partir d’une réalisation
Propriété Une fonction de covariance est semi définie positive i.e.
\[\forall a\in {\mathbb{R}}^n, \sum_{i,j}^n a_i a_j C(s_i, s_j)\geq 0\] Idée de preuve : Regarder \({\mathbb{V}\text{ar}}(\sum_{i=1}^n a_i Z(s_i))\)
Un processus de second ordre \(Z\) est stationnaire sur \(D\subset {\mathbb{R}}^d\) si
Un processus est isotrope si \(C(h)\) dépend uniquement de \(\|h\|\) i.e \[C(h) = C(\|h\|)\]
\(Z\) est un processus à accroissements stationnaires si les accroissements de \(Z\) sont stationnaires au second ordre, i.e. \[{\mathbb{E}}(Z(s + h) − Z(s)) = 0\] \[{\mathbb{V}\text{ar}}(Z(s + h) − Z(s)) = 2\gamma(h)\] La stationnarité du second ordre implique la stationnarité des accroissements.
La classe des processus à accroissement stations est donc plus ….. que la classe des processus de second ordre. ### Exemple
Que dire du mouvement Brownien sur \({\mathbb{R}}\)
Le semi-variogramme d’un processus à accroissements stattionnaire est défini comme : \[\gamma(h) = \frac{1}{2} {\mathbb{V}\text{ar}}(Z(s+h) - Z(s))\]
Pépitique : \(\gamma(h) = C\)
Exponentiel : \(\gamma(h) = C(1 - \exp(-\|h\|/\rho))\).
Sphérique : \[\gamma(h) = \begin{cases} C \left( \frac{3}{2} \frac{\|h\|}{\rho} - \frac{1}{2} \left(\frac{\|h\|}{\rho}\right)^3 \right) & \text{si } \|h\| \leq \rho \\ C & \text{si } \|h\| > \rho \end{cases}\]
Gaussien : \(\gamma(h) = C(1 - \exp(-\|h\|^2/\rho))\).
Puissance : \(\gamma(h) = C\left | h\right|^\alpha, \alpha < 2\)
Classe de Matèrn
\[ \gamma(h) = C\left [ 1 - \frac{1}{2^{\nu -1}\Gamma(\nu)}\left(\frac{\sqrt{2\nu }h}{\rho}\right)K_{\nu}\left(\frac{\sqrt{2\nu }h}{\rho}\right)\right]\] \(K_{\nu}\) fonction de Bessel modifiée de 3ème espèce, d’ordre \(\nu\)
\(\nu\) paramètre qui règle la régularité en 0.
Le palier : S’il est fini, le processus \(Z\) est stationnaire du second ordre et \[ C = \mbox{Var}(Z(s))\]
L’échelle : Règle la vitesse à laquelle le variogramme rejoint le palier. Donne une idée de l’horizon de dépendance du processus.
La portée est la distance à partir de laquelle la corrélation est nulle ou négligeable
La pépite donne la régularité du processus
\[\gamma(h) =\frac{1}{2} {\mathbb{V}\text{ar}}(Z(s+h) - Z(s)) = \frac{1}{2} {\mathbb{E}}( (Z(s+h) - Z(s))^2 )\]
On cherche donc à associer à chaque \(h\), \(0.5 {\mathbb{E}}( (Z(s+h) - Z(s))^2 )\), on va approcher cette espérance par \(0.5 \left (Z(s_i)- Z(s_j) \right)^2\)
\[\widetilde \gamma (d_k) = \frac{1}{2n_c}\sum_{(k-1)\delta \le \|s_i-s_j\| \le k\delta}(Z(s_i)-Z(s_j))^2 \]
* sans biais,
* sous des conditions de mélange, loi limite gaussienne, $\quad$ variance en $\frac{1}{n}$,
* ne nécessite pas l'estimation de la moyenne,
* si $Z$ est gaussien, somme de $\chi^2(1)$
\[\widetilde \gamma (d_k) = \left\{\frac{1}{2n_c}\sum_{i,j \in C(k)}(Z(s_i)-Z(s_j))^2\right\}^{1/4}\frac{1}{0.457 + \frac{0.494}{n_c}}\]
\(\gamma_{\rho,C,\nu,\tau}\) variogramme admissible, \((\rho,\nu, C, \tau)\) solution du problème \[\min_{\rho,C,\nu,\tau} \sum_{k=1}^K (\gamma_{\rho,C,\nu,\tau}(d_k) - \widetilde \gamma(d_k))^2\]
Autres méthodes possibles : max de vraisemblance, moindres carrés généralisés
On observe \(z(s_1),z(s_2),\ldots,z(s_n)\)} aux sites \(s_1,s_2,\ldots,s_n\) et on veut prédire \(g(Z(s))\), \(s\in D\)
Par exemple
Prédire \(Z(s_0)\) sachant \(Z(s_1)=z(s_1),\ldots,Z(s_n)=z(s_n)\)
Prédicteur optimal
Par la propriété de l’espérance conditionnelle, le prédicteur optimal est
\[p^{opt}_{s_0}(Z(s_1),\ldots,Z(s_n)) = \mbox{E}\big(Z(s_0)/Z(s_1),\ldots,Z(s_n)\big) \] puisqu’il minimise le risque quadratique \[\mbox{E}\big((Z(s_0)-\widehat{Z}(s_0))^2\big)\] Prédicteur linéaire optimal (BLUP) \[ p^* = \alpha + \sum_{i=1}^n\lambda_i Z(s_i)\] Si \(Z\) gaussien, \(p^{opt}=p^*\)
Solution
\[\begin{align} \lambda &= C^{-1}c \qquad C_{i,j} = \mbox{cov}\big(Z(s_i),Z(s_j)\big) \quad c_i = \mbox{cov}\big(Z(s_0),Z(s_i)\big)\\ \alpha = & \mbox{E}(Z(s_0)) - \sum_{i=1}^n\lambda_i \mbox{E}(Z(s_i)) \end{align}\]
Supposons \(C\) et \(m(s)\) connues \[\widehat{Z(s_0)} = \; c^T C^{-1}(Z-m) + m(s_0)\] Variance de krigeage \[\sigma^2_{SK} = \sigma^2(s_0) - c^TC^{-1}c\] Si \(s_0=s_i\), alors \[\widehat{Z(s_i)}=Z(s_i)\]
Il faut estimer \(C\) et \(m(s)\).
Hypothèses : \(Z(s) = X\beta + \epsilon(s)\),
On cherche \(\widehat{Z}(s_0) = \sum_{i=1}^n\lambda_iZ(s_i)\)} avec \[E(\widehat{Z}(s_0)) = E(Z(s_0)) \mbox{ et } E(\widehat{Z}(s_0) - Z(s_0))^2 \mbox{ minimum}\]
Covariance : \(C(h) = Cov(Z(s+h),Z(s))\), \(\boldsymbol{\Sigma}\) the covariance matrix (\(\Sigma_{ij}= C(s_j-s_i)\)), \(\boldsymbol{c_0}\) the covariance vector (\(c_j =C(s_o-s_j)\))
Proposition :
\[\widehat{Z}(s_0) = \left \lbrace \boldsymbol{c_0}^T \boldsymbol{\Sigma}^{-1} + (X_0 - X^T \boldsymbol{\Sigma}^{-1} \boldsymbol{c_0})^T (X^T \boldsymbol{\Sigma}^{-1} X)^{-1} X^T \boldsymbol{\Sigma}^{-1} \right\rbrace Z\] \[ \tau^2(s_0) = \sigma_0^2 - \mathbf{c_0}^T \mathbf{\Sigma}^{-1} \mathbf{c_0} + \left( X_0 - \mathbf{X}^T \mathbf{\Sigma}^{-1} \mathbf{c_0} \right)^T \left( \mathbf{X}^T \mathbf{\Sigma}^{-1} \mathbf{X} \right)^{-1} \left( X_0 - \mathbf{X}^T \mathbf{\Sigma}^{-1} \mathbf{c_0} \right)\]
Remarques
Voir le TD