1 Rappels d’Algèbre Linéaire

Soient \(m,n\geq 1\). Une matrice \(\boldsymbol{A}\) de taille \((m,n)\) ou \(m\times n\) (à coefficients réels) est une application de \(\{1,\dots,m\} \times \{1,\dots,n\}\) dans \(\mathbb{R}\).

Plus simplement, il s’agit d’un tableau de nombres rééls ayant \(m\) lignes et \(n\) colonnes. On note \(A_{ij}\) l’élément sur la ligne \(i\) et sur la colonne \(j\) de \(\boldsymbol{A}\).

##      [,1] [,2] [,3] [,4]
## [1,]    7    6    5    4
## [2,]    8    3    2    1

A est une matrice \(2\times4\) et \(A_{1,3}\) (par exemple) vaut 5 - correspondant à A[1,3].

## [1] 2 4
## [1] 5
## [1] 7 6 5 4
## [1] 5 2

Soit \(\boldsymbol{A}\) une matrice réelle de taille \((m,n)\). La matrice transposée notée \(\boldsymbol{A}^\top\) de taille \((n,m)\) est définie par \((\boldsymbol{A}^\top)_{ij}=A_{ji}\) pour \(i=1,\dots,n\) et \(j=1,\dots,m\).

(bien sûr \((\boldsymbol{A}^\top)^\top=\boldsymbol{A}\))

##      [,1] [,2]
## [1,]    7    8
## [2,]    6    3
## [3,]    5    2
## [4,]    4    1

Une matrice carrée \(\boldsymbol{A}\) de taille \((n,n)\) est dite symétrique si \(\boldsymbol{A}=\boldsymbol{A}^\top\).

Si \(\boldsymbol{x}\) et \(\boldsymbol{y}\) sont deux vecteurs de dimension \(n\) (deux matrices de taille \((n,1)\)), on note \(\boldsymbol{x}^\top y\) le produit scalaire entre \(\boldsymbol{x}\) et \(\boldsymbol{y}\) défini par \(\boldsymbol{x}^\top \boldsymbol{y}=\sum_{i=1}^n x_i y_i\).

##      [,1]
## [1,]   88

On note \(\| \boldsymbol{x}\|\) la norme euclidienne du vecteur \(\boldsymbol{x}\), donnée par \(\|\boldsymbol{x}\|^2 = \boldsymbol{x}^\top \boldsymbol{x} = \sum x_i^2\).

## [1] 7 6 5 4
## [1] 126

Pour une matrice carrée de taille \(n\), on appelle diagonale de \(\boldsymbol{A}\), notée \(\operatorname{diag}(\boldsymbol{A})\) la matrice de taille \((n,n)\) définie par \((\operatorname{diag}(\boldsymbol{A}))_{ii}=A_{ii}\) pour \(i=1,\dots,n\) et \(0\) sinon.

Soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices réelles de taille \((m,n)\) et \(\alpha,\beta\in R\) alors la matric \(\boldsymbol{C}= \alpha \boldsymbol{A}+\beta\boldsymbol{B}\) est une matrice réelle de taille \((m,n)\) et donnée par \(C_{ij} = \alpha A_{ij} +\beta B_{ij}\), \(i=1,\dots,m\), \(j=1,\dots,n\).

Soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices réelles de taille \((m,n)\) et \((n,p)\) respectivement alors la matrice \(\boldsymbol{C}\) de taille \((m,p)\) définie par le produit matriciel entre \(\boldsymbol{A}\) et \(\boldsymbol{B}\) est bien définie et on a \(\boldsymbol{C}=\boldsymbol{A} \boldsymbol{B}\), \(C_{ij} = \sum_{k=1}^n A_{ik} B_{kj}\) pour \(i=1,\dots,m\), \(j=1,\dots,p\).

Le produit matriciel n’est pas commutatif pour deux matrices quelconque de même taille: \(\boldsymbol{A} \boldsymbol{B} \neq \boldsymbol{B} \boldsymbol{A}\).

Soit \(\mathbb{I}_n\) la matrice de taille \((n,n)\) composée de 1 sur la diagonale et de 0 ailleurs. Alors, pour \(\boldsymbol{A}\) de taille \((n,n)\), \(\mathbb{I}_n\) est l’élément neutre tel que \(\boldsymbol{A} \mathbb{I}_n = \mathbb{I}_n \boldsymbol{A} = \boldsymbol{A}\).

Soient \(\boldsymbol{A}\), \(\boldsymbol{B}\) et \(\boldsymbol{C}\) trois matrices réelles de dimension concordante, alors

  • \((\boldsymbol{A} \boldsymbol{B}) \boldsymbol{C} = \boldsymbol{A} ( \boldsymbol{B} \boldsymbol{C})\) (associativité du produit)
  • \(\boldsymbol{A}(\boldsymbol{B} +\boldsymbol{C}) = \boldsymbol{A} \boldsymbol{B} + \boldsymbol{A} \boldsymbol{C}\) (distributivité du produit)
  • \((\boldsymbol{A} \boldsymbol{B})^\top = \boldsymbol{B}^\top \boldsymbol{A}^\top\).
##      [,1] [,2]
## [1,]    1    3
## [2,]    2    4
##      [,1] [,2]
## [1,]    1    3
## [2,]   -2    1
##      [,1] [,2]
## [1,]    3   -1
## [2,]   -1    2
##      [,1] [,2]
## [1,]   -5    6
## [2,]   -6   10
##      [,1] [,2]
## [1,]   -5   11
## [2,]   -4   16
##      [,1] [,2]
## [1,]   -5   11
## [2,]   -4   16

Une matrice symétrique réelle \(\boldsymbol{A}\) de taille \((n,n)\) est dite définie positive (resp. semi-définie positive) si \(\forall \boldsymbol{x} \in \mathbb{R}^n\), \(\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} >0\) (resp. \(\geq 0\))

Toute matrice \(\boldsymbol{A}\) qui peut s’écrire sous la forme \(\boldsymbol{A} =\boldsymbol{B}^\top \boldsymbol{B}\) est semi-définie positive positive

Soit \(\boldsymbol{A}\) une matrice carrée de taille \((n,n)\). La trace d’une matrice est définie par \[ \operatorname{trace} (\boldsymbol{A}) = \sum_{i=1}^n A_{ii} \] On a

  • pour trois matrices \(\boldsymbol{A},\boldsymbol{B},\boldsymbol{C}\), \(\operatorname{trace}(\boldsymbol{A}\boldsymbol{B}\boldsymbol{C}) = \operatorname{trace}(\boldsymbol{B}\boldsymbol{C}\boldsymbol{A}) \neq \operatorname{trace}(\boldsymbol{B}\boldsymbol{A}\boldsymbol{C})\).
  • \(\operatorname{trace}(\boldsymbol{A}^\top \boldsymbol{A}) \geq 0\)
  • \(\operatorname{trace}(\boldsymbol{A}^\top \boldsymbol{A}) = 0 \Leftrightarrow \boldsymbol{A}^\top \boldsymbol{A} = \mathbf 0 \Leftrightarrow \boldsymbol{A} =\mathbf 0.\)

Le déterminant d’une matrice carrée \(\boldsymbol{A}\) de taille \((n,n)\) est noté \(\mathrm{det}(\boldsymbol{A})\) ou \(|\boldsymbol{A}|\) est le réel dont la valeur absolue mesure le volume du parallélépipède engendré par les colonnes de \(\boldsymbol{A}\). La formule générale est \[ |\boldsymbol{A}| = \sum_{\sigma \in S_n} \mathrm{sgn}(\sigma) \prod_{i=1}^n A_{i\sigma_i} \]\(S_n\) est l’ensemble des permutations de \(\{1,\dots,n\}\) et où \(\mathrm{sgn}(\sigma)\) désigne la signature de \(\sigma \in \{-1,1\}\) (la signature d’une permutation vaut 1 si le nombre de transpositions est pair et vaut -1 sinon).

## [1] 17
## [1] 17
## [1] 17

Soit \(\boldsymbol{A}^{ij}\) la matrice de taille \((n-1,n-1)\) correspondant à la matrice \(\boldsymbol{A}\) à laquelle ont été supprimées les \(i\)ème ligne et \(j\)ème colonne, alors \(|\boldsymbol{A}| = \sum_{i=1}^n (-1)^{i+j} A_{ij} |\boldsymbol{A}^{ij}|\)

  • \(\det(\mathbb{I}_n)=1\)
  • \(\det(\boldsymbol{A}^\top) = \det (\boldsymbol{A})\)
  • \(\det(\alpha \boldsymbol{A}) = \alpha^n \det(\boldsymbol{A})\)
  • Pour deux matrices carrées de taille identique, \(\det(\boldsymbol{A}\boldsymbol{B}) = \det(\boldsymbol{A})\det(\boldsymbol{B})\)
  • Soit \(\boldsymbol{C}\) la matrice obtenue en permutant deux lignes ou deux colonnes de \(\boldsymbol{A}\), alors \(\det(\boldsymbol{C})=-\det(\boldsymbol{A})\).
## [1] 0
## [1] 17
## [1] 0
##      [,1] [,2] [,3]
## [1,]    1    4    0
## [2,]    2    3    8
## [3,]    0   -1    5
## [1] -17

Théorème de Sylvester: soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices de taille \((m,n)\) et \((n,m)\) respectivement alors \[ \det( \mathbb{I}_m + \boldsymbol{A} \boldsymbol{B}) = \det( \mathbb{I}_n + \boldsymbol{B} \boldsymbol{A}). \]

Soit \(\boldsymbol{A}\) une matrice carrée de taille \((n,n)\) dont le déterminant est non nul, alors \(\boldsymbol{A}\) est dite non singulière et il existe une matrice inverse (de même taille) notée \(\boldsymbol{A}^{-1}\) vérifiant \(\boldsymbol{A} \boldsymbol{A}^{-1} = \boldsymbol{A}^{-1}\boldsymbol{A} = \mathbb{I}_n\). Ses coefficients sont donnés par \[ (\boldsymbol{A}^{-1})_{ij} = (-1)^{i+j} \frac{|\boldsymbol{A}^{ij}|}{|\boldsymbol{A}|} \]

En dimension 2, on a la formule simple \[ \left( \begin{array}{cc} A_{11} & A_{12} \\ A_{21} &A_{22}\end{array} \right)^{-1} = (A_{11}A_{22}-A_{12}A_{21})^{-1} \left(\begin{array}{cc} A_{22} & -A_{12} \\ -A_{21} & A_{11} \end{array} \right) \]

## [1] 36
##      [,1]          [,2]         [,3]
## [1,]    1 -1.040834e-17 1.387779e-17
## [2,]    0  1.000000e+00 0.000000e+00
## [3,]    0 -5.551115e-17 1.000000e+00
##      [,1] [,2] [,3]
## [1,]    1    0    0
## [2,]    0    1    0
## [3,]    0    0    1
##      [,1] [,2] [,3]
## [1,]    1    0    0
## [2,]    0    1    0
## [3,]    0    0    1

Soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices inversibles de taille \((n,n)\) alors

  • \((\boldsymbol{A}^{-1})^\top = (\boldsymbol{A}^\top)^{-1}\) (et donc \(\boldsymbol{A}^{-1}\) est symétrique ssi \(\boldsymbol{A}\) est symétrique).
  • \((\boldsymbol{A}^{-1})^{-1} = \boldsymbol{A}\).
  • \((\boldsymbol{A}\boldsymbol{B})^{-1} = \boldsymbol{B}^{-1} \boldsymbol{A}^{-1}\)
  • \(\det(\boldsymbol{A}^{-1}) = \displaystyle{\frac{1}{\det(\boldsymbol{A})}}\)
## [1] 0.02777778
## [1] 0.02777778

Soient \(n_1\) et \(n_2\) tels que \(n=n_1+n_2\). Une matrice \((n,n)\) peut être écrite de la façon suivante \[ \boldsymbol{A} =\left(\begin{array}{cc} \boldsymbol{A}_{11} & \boldsymbol{A}_{12} \\ \boldsymbol{A}_{21} &\boldsymbol{A}_{22}\end{array}\right) \]\(\boldsymbol{A}_{11}\), \(\boldsymbol{A}_{12}\), \(\boldsymbol{A}_{21}\) et \(\boldsymbol{A}_{22}\) sont de taille \((n_1,n_1)\), \((n_1,n_2)\), \((n_2,n_1)\) et \((n_2,n_2)\).

  • Soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices par blocs de taille identique, alors la matrice \(\boldsymbol{C}= \boldsymbol{A}\boldsymbol{B}\) est aussi une matrice par blocs dont les termes sont définis (dans le cas de 4 blocs) par \(\boldsymbol{C}_{ij} = \sum_{k=1}^2 \boldsymbol{A}_{ik}\boldsymbol{B}_{kj}\) pour\(i,j=1,2\).
  • \(|\boldsymbol{A}| = |\boldsymbol{A}_{11}| |\boldsymbol{A}_{22} -\boldsymbol{A}_{21} \boldsymbol{A}^{-1}_{11} \boldsymbol{A}_{12}|\) si \(\boldsymbol{A}_{11}\) est inversible.
  • Soit \(\boldsymbol{A}\) une matrice par blocs inversible alors \[{\displaystyle \boldsymbol{A}^{-1} =\left(\begin{array}{cc} \boldsymbol{A}_{11}^{-1} + \boldsymbol{A}_{11}^{-1} \boldsymbol{A}_{12}\boldsymbol{A}_{22,1}^{-1} \boldsymbol{A}_{21} \boldsymbol{A}_{11}^{-1} & -\boldsymbol{A}_{11}^{-1} \boldsymbol{A}_{12} \boldsymbol{A}_{22,1}^{-1} \\ -\boldsymbol{A}_{22,1}^{-1} \boldsymbol{A}_{21} \boldsymbol{A}_{11}^{-1} & \boldsymbol{A}_{22,1}^{-1} \end{array} \right) }\]\(\boldsymbol{A}_{22,1}= \boldsymbol{A}_{22}-\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1} \boldsymbol{A}_{12}\).

Les vecteurs \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\) de \(\mathbb{R}^n\) sont dit linéairement indépendants si \(\forall \mathbf a \in \mathbb{R}^p\), \(\sum_{i=1}^p a_i \boldsymbol{x}_i=0 \Leftrightarrow a_1=\dots=a_p=0\). Si \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\) sont linéairement indépendants alors \(p\leq n\).

On appelle rang d’une matrice \(\boldsymbol{A}\) et on note \(\operatorname{rang}(\boldsymbol{A})\) le nombre maximal de colonnes qui sont linéairement indépendantes.

Une matrice \(\boldsymbol{A}\) de taille \((n,p)\) est dite de plein rang si \(\operatorname{rang}(\boldsymbol{A})=\min(n,p)\).

Une matrice \(\boldsymbol{A}\) de taille \((p,p)\) est dite inversible ssi \(\operatorname{rang}(\boldsymbol{A})=p\).

Si \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\) sont des vecteurs linéairement indépendants de \(\mathbb{R}^n\), ils sont la base de l’espace vectoriel \[ \mathcal V(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p) = \{ \boldsymbol{y} \in \mathbb{R}^n: \boldsymbol{y} = \sum_{i=1}^p a_i \boldsymbol{x}_i, \mathbf a\in \mathbb{R}^p\}. \]

  • La dimension de cet espace vectoriel est \(p\). Sous forme matricielle, \(\boldsymbol{y} = \boldsymbol{x} \mathbf a\)\(\boldsymbol{x}=(\boldsymbol{x}_1, \dots,\boldsymbol{x}_p )\) est donc une matrice de taille \((n,p)\).
  • \(\mathbf a\) est la coordonnée de \(\boldsymbol{y}\) dans la base \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\).
  • Si \(\boldsymbol{u}_1,\dots,\boldsymbol{u}_p\) est une autre base de \(\mathcal V(\boldsymbol{x})\), alors il existe une matrice inversible de taille \((p,p)\) dite de changement de base telle que \((\boldsymbol{u}_1,\dots,\boldsymbol{u}_p) = (\boldsymbol{x}_1,\dots,\boldsymbol{x}_p) \boldsymbol{A}\)\(\boldsymbol{A}\) est de taille \((p,p)\). En fait les colonnes de \(\boldsymbol{A}\) donnent les coordonnées de \(\boldsymbol{u}_i\) dans l’ancienne base \(\boldsymbol{u}_i = \sum_{j=1}^p A_{ji} \boldsymbol{x}_j\).
  • Si \(\mathbf a\) est la coordonnée de \(\boldsymbol{y}\) dans la base de \(\boldsymbol{x}\), alors \(\boldsymbol{A}^{-1}\mathbf a\) est la coordonnée de \(\boldsymbol{y}\) dans la base des \(\boldsymbol{u}\).

Les valeurs propres d’une matrice carrée de taille \((p,p)\), \(\boldsymbol{A}\), sont les solutions de l’équation \(\chi_\boldsymbol{A}(\lambda)=|\boldsymbol{A}-\lambda \mathbb{I}_p|=0\). En fait, \(\chi_\boldsymbol{A}(\lambda)\) s’appelle le polynôme caractéristique de degré \(p\) en \(\lambda\); les racines de ce polynôme peuvent donc être complexes. De plus, certaines valeurs propres peuvent avoir une multiplicité supérieure à 1.

A chaque valeur propre, on peut associer un vecteur propre \(\boldsymbol{u}_i\) vérifiant \(\boldsymbol{A} \boldsymbol{u}_i = \lambda_i \boldsymbol{u}_i\). Le vecteur propre n’est pas défini de manière unique, puisque \(c \boldsymbol{u}_i\) est aussi un vecteur propre de \(\lambda_i\) pour tout réel \(c\) non nul.

Une matrice réelle carrée \(\boldsymbol{A}\) est dite diagonalisable s’il existe une matrice inversible \(\boldsymbol{P}\) et une matrice diagonale \(\boldsymbol{D}\) à coefficients réels satisfaisant la relation~: \(\boldsymbol{A} = \boldsymbol{P} \boldsymbol{D} \boldsymbol{P}^{-1}\). Et dans ce cas chaque vecteur colonne de \(\boldsymbol{P}\) est un vecteur propre de \(\boldsymbol{A}\).

Si une matrice carrée \(\boldsymbol{A}\) diagonalisable admet une valeur propre nulle, alors nécessairement \(\det(\boldsymbol{A})=0\).

Soit \(\boldsymbol{A}\) une matrice carrée de taille \((p,p)\) diagonalisable alors, \(\operatorname{rang}(\boldsymbol{A})= p - m_0\)\(m_0\leq p\) est la multiplicité de la valeur propre 0 (éventuellement nulle).

Une matrice carrée de taille \((p,p)\), \(\boldsymbol{P}\) est orthogonale si et seulement si : \(\boldsymbol{P}\) est à coefficients réels, est inversible et son inverse est égale à sa transposée : \(\boldsymbol{P}^{-1}= \boldsymbol{P}^\top\), et donc \(\boldsymbol{P} \boldsymbol{P}^\top =\mathbb{I}_n\).

Les vecteurs colonnes d’une matrice orthogonale sont orthogonaux.

Une matrice orthogonale est une transformation rigide; elle préserve les longueurs et les angles: \(\|\boldsymbol{P} \boldsymbol{x}\|= \|\boldsymbol{x}\|\) et \((\boldsymbol{P}\boldsymbol{x})^\top (\boldsymbol{P} \boldsymbol{y})=\boldsymbol{x}^\top \boldsymbol{y}\).

Soit \(\boldsymbol{A}\) une matrice symétrique réelle de taille \((p,p)\), alors il existe une matrice orthogonale \(\boldsymbol{P}\) (c’est-à-dire \(\boldsymbol{P}^{-1}=\boldsymbol{P}^\top\)) et une matrice \(\boldsymbol{D}\) diagonale \(\boldsymbol{D}=\operatorname{diag}(\lambda_i, i=1,\dots,p)\), telle que \[ \boldsymbol{A} = \boldsymbol{P} \boldsymbol{D} \boldsymbol{P}^\top \] Et dans ce cas, les éléments de \(\boldsymbol{D}\) sont les valeurs propres de \(\boldsymbol{A}\) et les vecteurs colonnes de \(\boldsymbol{P}\) les vecteurs propres associés.

Théorème d’encadrement des valeurs propres d’une matrice symétrique: Soit \(\boldsymbol{A}\) une matrice réelle symétrique de taille \((p,p)\) et soient \(\lambda_1\leq \lambda_2\leq \dots \leq \lambda_p\) ses valeurs propres ordonnées. Alors, pour tout \(\boldsymbol{x}\in \mathbb{R}^p\) \[ \lambda_1 \leq \frac{\boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^\top \boldsymbol{x}} \leq \lambda_p. \]

Une matrice \(\boldsymbol{A}\) réelle symétrique est définie positive (resp. semi-définie positive) si et seulement si toutes ses valeurs propres sont toutes positives (resp. positives ou nulles).

##      [,1] [,2] [,3]
## [1,]   -2   -3   -4
## [2,]   -1   -8   -3
##      [,1] [,2] [,3]
## [1,]    5   14   11
## [2,]   14   73   36
## [3,]   11   36   25
## eigen() decomposition
## $values
## [1]  9.566163e+01  7.338365e+00 -1.444161e-15
## 
## $vectors
##            [,1]       [,2]        [,3]
## [1,] -0.1900915  0.4585891  0.86807906
## [2,] -0.8624949 -0.5004045  0.07548514
## [3,] -0.4690073  0.7343646 -0.49065338
##      [,1] [,2] [,3]
## [1,]    5   14   11
## [2,]   14   73   36
## [3,]   11   36   25
##            [,1]        [,2]       [,3]
## [1,] -0.1900915 -0.86249486 -0.4690073
## [2,]  0.4585891 -0.50040445  0.7343646
## [3,]  0.8680791  0.07548514 -0.4906534
##            [,1]        [,2]       [,3]
## [1,] -0.1900915 -0.86249486 -0.4690073
## [2,]  0.4585891 -0.50040445  0.7343646
## [3,]  0.8680791  0.07548514 -0.4906534

Soit \(\boldsymbol{y}\) un vecteur de \(\mathbb{R}^n\). Sa projection sur \(\mathcal V(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p)\) est le vecteur \(\hat{\boldsymbol{y}} = \boldsymbol{x}\hat{\mathbf a}\) minimisant \(\|\boldsymbol{y} -\boldsymbol{x} \mathbf a\|\). La solution de ce problème donne \(\hat{\mathbf a} = (\boldsymbol{x}^\top \boldsymbol{x})^{-1} \boldsymbol{x}^\top \boldsymbol{y}\) et le projeté est \(\hat{\boldsymbol{y}} = \boldsymbol{x} \hat{\mathbf a}\).

La matrice \(\mathcal{P} = \boldsymbol{x} ( \boldsymbol{x}^\top \boldsymbol{x})^{-1} \boldsymbol{x}\) est appelée projecteur ou matrice de projection sur \(\{\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\}\) et on a \(\hat{ \boldsymbol{y}} = \mathcal{P} \boldsymbol{y}\).

Déterminons le projeté orthogonal de \(\boldsymbol{y}=(1,-1,0)^\top\) sur les vecteurs \(\boldsymbol{x}_1=(1,1,0)^\top\) et \(\boldsymbol{x}_2=(3,0,1)^\top\) :

## [1] -0.8181057  0.5454202
##            [,1]
## [1,] -0.8181818
## [2,]  0.5454545

Soient \(\boldsymbol{x}_1,\dots,\boldsymbol{x}_p\), \(p\) vecteurs de \(\mathbb{R}^n\) et soit \(Q\subset\{1,\dots,p\}\) un sous-ensemble d’indices. On note \(\hat y_Q\) le projeté orthogonal de \(y\) sur l’espace \(\mathcal V_Q\) engendré par les vecteurs \(\boldsymbol{x}_j\) pour \(j\in Q\) et on note \(\boldsymbol{x}_Q=(\boldsymbol{x}_j, j\in Q)\) la matrice de taille \((n,\#Q)\). Alors on a les propriétés suivantes:

  • \(\hat y_Q = \boldsymbol{x}_Q( \boldsymbol{x}_Q^\top \boldsymbol{x}_Q)^{-1} \boldsymbol{x}_Q^\top \boldsymbol{y}\).
  • La matrice de projection est égale à \(\mathcal{P}_Q = \boldsymbol{x}_Q ( \boldsymbol{x}_Q^\top \boldsymbol{x}_Q)^{-1} \boldsymbol{x}_Q^\top\).
  • La matrice \(\mathcal{P}_Q\) est idempotente et symétrique. En particulier \(\mathcal{P}_Q \boldsymbol{x}_Q=\boldsymbol{x}_Q\).
  • Si \(Q\subset Q^\prime \subset\{1,\dots,p\}\), alors \(\mathcal{P}_Q \mathcal{P}_{Q^\prime}= \mathcal{P}_{Q^\prime} \mathcal{P}_Q = \mathcal{P}_Q\).
  • La matrice \(\mathcal{P}^\perp_Q=\mathbb{I}_n-\mathcal{P}_Q\) est aussi une matrice de projection. Il s’agit du projecteur orthogonal sur \(\mathcal V_Q^\perp\), l’orthogonal de \(\mathcal V_Q\).
  • \(\mathcal{P}_Q\mathcal{P}_Q^\perp = \mathcal{P}_Q^\perp \mathcal{P}_Q=0\) et en particulier, \(\mathcal{P}_Q^\perp \boldsymbol{x}_Q=0\).
##      [,1] [,2]
## [1,]    1    3
## [2,]    0    4
## [3,]    1    2
##           [,1]       [,2]       [,3]
## [1,] 0.5151515  0.1212121  0.4848485
## [2,] 0.1212121  0.9696970 -0.1212121
## [3,] 0.4848485 -0.1212121  0.5151515
##           [,1]       [,2]       [,3]
## [1,] 0.5151515  0.1212121  0.4848485
## [2,] 0.1212121  0.9696970 -0.1212121
## [3,] 0.4848485 -0.1212121  0.5151515
##            [,1]        [,2]       [,3]
## [1,]  0.4848485 -0.12121212 -0.4848485
## [2,] -0.1212121  0.03030303  0.1212121
## [3,] -0.4848485  0.12121212  0.4848485
##               [,1]          [,2]          [,3]
## [1,] -8.326673e-17 -1.387779e-16  5.551115e-17
## [2,]  9.714451e-17  2.081668e-16  2.775558e-17
## [3,]  0.000000e+00 -2.012279e-16 -5.551115e-17

Si \(\boldsymbol{A}\) est une matrice idempotente alors

  • \(\operatorname{rang}(\boldsymbol{A})=\operatorname{trace}(\boldsymbol{A})\).
  • Les valeurs propres de \(\boldsymbol{A}\) valent soit 0 soit 1.

Théorème de Cochran: soit \(\boldsymbol{A}=\boldsymbol{A}_1+\dots+\boldsymbol{A}_k\). Alors les deux énoncés suivants sont équivalents

  • \(\boldsymbol{A}\) est idempotente et \(\operatorname{rang}(\boldsymbol{A})= \sum_{i=1}^k \operatorname{rang}(\boldsymbol{A}_i)\).
  • \(\boldsymbol{A}_i\) est idempotente pour tout \(i\) et \(\boldsymbol{A}_i\boldsymbol{A}_j=0\) pour tout \(i\neq j\).

2 Rappels de Statistiques

2.1 Probabilities

Un vecteur aléatoire \(\boldsymbol{X}=(X_1,\dots,X_d)\) de dimension \(d\) admet pour fonction de répartition \[ F(\boldsymbol{x})=F(x_1,\dots,x_d)=\mathbb{P}[X_1\leq x_1,\dots,X_d\leq x_d] \] Si les composantes sont absolument continues, la densité associée est \[ f(\boldsymbol{x})=f(x_1,\dots,x_d)=\frac{\partial^n F(x_1,\dots,x_d)}{\partial x_1\dots\partial x_d} \] Soit \(\boldsymbol{X}\) un vecteur aléatoire admettant une densité ou fonction de masse, de dimension \(d\), alors la densité marginale de \(X_i\) (\(i=1,\dots,d\)) est définie par \[ f_{X_i}(x_i ) = \int_{\mathbb{R}^{n-1}} f_{\boldsymbol{X}}(x_1,\dots,x_d) d x_1 \dots d x_{i-1} d x_{i+1} \dots d x_d \] dans le cas absolument continu.

Soit \(I,J \subset \{1,\dots,d\}\) tels que \(I\cap J =\emptyset\) et \(I\cup J=\{1,\dots,d\}\). Pour \(\boldsymbol{x}\in \mathbb{R}^d\) on note \(\boldsymbol{X}_I\) et \(\boldsymbol{x}_J\) les vecteurs associées aux composantes d’indices \(I\) et \(J\) respectivement.

La distribution conditionnelle de \(\boldsymbol{X}_I\) sachant \(\boldsymbol{X}_J=\boldsymbol{x}_J\) est donnée par \[ f_{\boldsymbol{X}_I}(\boldsymbol{x}_I) = \frac{f_\boldsymbol{X}(\boldsymbol{x})}{f_{\boldsymbol{X}_J}(\boldsymbol{x}_J)} \] pour \(\boldsymbol{x}_J\) tel que \(f_{\boldsymbol{X}_J}(\boldsymbol{x}_J)>0\), dans le cas absolument continu.

Soient \(\boldsymbol{X}\) et \(\boldsymbol{Y}\) deux vecteurs aléatoires de dimension \(d\) et \(d^\prime\).

  • L’espérance de \(\boldsymbol{X}\), notée \(\mathbb{E}(\boldsymbol{X})\) est définie (si elle existe) par \(\mathbb{E}(\boldsymbol{X})= \left( \mathbb{E}(\boldsymbol{X}_1),\dots,\mathbb{E}(\boldsymbol{X}_d)\right)^\top\).
  • La matrice de covariance (appelée aussi matrice de variance-covariance de \(\boldsymbol{X}\)) est déifinie (si elle existe) par la matrice de taille \((d,d)\) \[ \operatorname{Var}(\boldsymbol{X}) = \mathbb{E} \left( (\boldsymbol{X}-\mathbb{E}(\boldsymbol{X})) (\boldsymbol{X}-\mathbb{E}(\boldsymbol{X}))^\top\right). \] Ainsi le terme \(ij\) de cette matrice représente la covariance entre \(X_i\) et \(X_j\).
  • De la même façon, on définit la covariance entre \(\boldsymbol{X}\) et \(\boldsymbol{Y}\) par la matrice de taille \((d,d^\prime)\) \[ \operatorname{Cov}(\boldsymbol{X},\boldsymbol{Y}) = \mathbb{E} \left( (\boldsymbol{X}-\mathbb{E}(\boldsymbol{X})) (\boldsymbol{Y}-\mathbb{E}(\boldsymbol{Y}))^\top\right). \]

La matrice de variance-covariance est nécessairement une matrice symétrique semi-définie positive.

Soit \(\boldsymbol{Y}\) un vecteur aléatoire de dimension \(d\), de moyenne \(\boldsymbol{\mu}\) et de matrice de covariance \(\boldsymbol{Sigma}\). Soient \(\boldsymbol{A}\) et \(\boldsymbol{B}\) deux matrices réeeles de taille \((d,p)\) et \((d,q)\) et enfin soit \(\mathbf a \in \mathbb{R}^p\) alors

  • \(\operatorname{Var}(\boldsymbol{Y}) = \mathbb{E}(\boldsymbol{Y}\boldsymbol{Y}^\top) - \boldsymbol{\mu} \boldsymbol{\mu}^\top\).
  • \(\mathbb{E} \left( \boldsymbol{A}^\top \boldsymbol{Y} + \mathbf a \right) =\boldsymbol{A}^\top \boldsymbol{\mu} + \mathbf a\).
  • \(\operatorname{Var} \left( \boldsymbol{A}^\top \boldsymbol{Y} + \mathbf a \right) = \boldsymbol{A}^\top \boldsymbol{\Sigma} \boldsymbol{A}\).
  • \(\operatorname{Cov}\left( \boldsymbol{A}^\top \boldsymbol{Y}, \boldsymbol{B}^\top \boldsymbol{Y} \right) = \boldsymbol{A}^\top \boldsymbol{\Sigma} \boldsymbol{B}\).

Soit \(\boldsymbol{A}\) une matrice réelle symétrique de taille \((d,d)\) et \(\boldsymbol{Y}\) un vecteur aléatoire de moyenne \(\boldsymbol{\mu}\) et de matrice de covariance \(\boldsymbol{\Sigma}\), alors \[ \mathbb{E} \left( \boldsymbol{Y}^\top \boldsymbol{A} \boldsymbol{Y}\right) = \boldsymbol{\mu}^\top \boldsymbol{A} \boldsymbol{\mu} + \operatorname{trace}( \boldsymbol{A} \boldsymbol{\Sigma}). \]

2.2 Lois Usuelles

2.2.1 Loi binomiale

\[{\displaystyle f(k)=\mathbb {P} (X=k)={n \choose k}\,p^{k}(1-p)^{n-k}} \] de moyenne \(\mathbb{E}[X]=np\) et de variance \(\text{Var}[X]=np(1-p)\)

2.2.2 Loi de Poisson

\[{\displaystyle f(k)= {\frac {\lambda ^{k}}{k!}}\mathrm {e} ^{-\lambda }} \] de moyenne \(\mathbb{E}[X]=\lambda\) et de variance \(\text{Var}[X]=\lambda\)

2.2.3 Loi Exponentielle

La fonction de répartition est donnée par : \[ {\displaystyle F(x)=\left\{{\begin{matrix}1-e^{-\lambda x}&{\text{si}}\;x\geqslant 0\\0&{\text{si}}\;x<0\end{matrix}}\right.} \] et la densité \({\displaystyle \lambda e^{-\lambda x}\boldsymbol{1}_{\mathbb {R} _{+}}(x)}\). La moyenne est \({\displaystyle \mathbb {E} (X)={\frac {1}{\lambda }}}\) et la variance \({\displaystyle \text{Var}(X)={\dfrac {1}{\lambda ^{2}}}}\)