site de Fabien Torre


Pense-bêtes en Statistiques

Des éléments de base en statistiques et des procédures de test.

Des carrés dans la formule de l'écart-type ?

J'ai toujours trouvé bizarre la formule de l'écart-type : pourquoi utiliser les carrés des observations $x_i$ ? L'âge du capitaine au carré, ça n'a pas sens. Du coup, on est obligé ensuite de prendre la racine carrée pour retrouver un résultat qui respecte l'unité des observations.

\begin{displaymath}
\sqrt{\frac{\sum_{i=1}^{n} (x_{i}-\overline{x})^{2}}{n}}
\end{displaymath}

On pourrait utiliser l'écart absolu moyen :

\begin{displaymath}
\frac{\sum_{i=1}^{n} \vert x_{i}-\overline{x} \vert}{n}
\end{displaymath}

Il faut revenir à la base : nous avons un ensemble d'observations $\chi = \{ x_{i} \}_{i=1 \dots n}$ et nous voulons déterminer pour cet ensemble une valeur centrale $c(\chi)$ et une dispersion $d(\chi)$ autour de cette valeur centrale.

Supposons la dispersion calculée par la formule :

\begin{displaymath}
d(\chi) = \sqrt{\frac{\sum_{i=1}^{n} (x_{i}-c(\chi))^{2}}{n}}
\end{displaymath}

Assez logiquement, on voudrait que, pour des $x_{i}$ fixés, le choix de $c(\chi)$ minimise la dispersion $d(\chi)$. On cherche donc la valeur de $c(\chi)$ qui annule la dérivée de $d\chi)$ :

\begin{displaymath}
d(\chi) = \sqrt{\frac{1}{n} \times \sum_{i=1}^{n} \left( x_{i}^{2} -2 \times x_{i} \times c(\chi) + c(\chi)^{2} \right) }
\end{displaymath}

donc

\begin{displaymath}
\begin{array}{ll}
\frac{\delta d(\chi)}{\delta c(\chi)} = 0 ...
...ow 2 \times c(\chi) - 2 \times \overline{x} = 0 \\
\end{array}\end{displaymath}

et par conséquent :

\begin{displaymath}
\frac{\delta d(\chi)}{\delta c(\chi)} = 0 \Rightarrow c(\chi) = \overline{x}
\end{displaymath}

Ainsi, c'est le choix de l'écart-type comme mesure de dispersion qui amène à choisir la moyenne comme valeur centrale.

Menons le même raisonnement avec comme mesure de dispersion :

\begin{displaymath}
d(\chi) = \frac{\sum_{i=1}^{n} \vert x_{i}-c(\chi) \vert}{n}...
...)} (x_{i}-c(\chi)) + \sum_{i: x_{i}<c(\chi)} (c(\chi)-x_{i}) )
\end{displaymath}
\begin{displaymath}
\frac{\delta d(\chi)}{\delta c(\chi)}
= \frac{1}{n} \times \...
...{i: x_{i}>c(\chi)} (+1) + \sum_{i: x_{i}<c(\chi)} (-1) \right)
\end{displaymath}

Pour annuler cette dérivée, il faut choisir la valeur centrale $c(\chi)$ de telle manière que exactement la moitié des $x_{i}$ lui soient supérieurs et les autres inférieurs. C'est la définition de la médiane.

En conclusion, plus que sur la mesure de dispersion elle-même, le choix porte sur un couple (valeur centrale,mesure de dispersion) : (moyenne,écart-type) ou (médiane,écart-absolu-moyen).

Calculer la moyenne et l'écart-type en même temps

La formule classique de la variance oblige à disposer de la moyenne. Il est cependant possible de calculer les deux en même temps : il suffit de faire simultanément la somme des valeurs observées et la somme de leurs carrés.

    s  = 0;
    s2 = 0;

    for i=1 to n do begin
	s  = s  + x[i];
	s2 = s2 + x[i]*x[i];
    end;

    moyenne  = s/n;
    variance = s2/n - moyenne*moyenne;
    ecart    = racine(variance);

La démonstration est laissée au lecteur (c'est facile !).

Corrélation des rangs entre deux ordres

Nous présentons deux méthodes classiques pour déterminer la corrélation des rangs entre deux ordres :

  • le coefficient de corrélation des rangs de Spearman ;
  • le coefficient de corrélation des rangs de M. G. Kendall.

Les brèves descriptions qui suivent sont tirées de

Probabilités, Analyse de Données et Statistique,
G. Saporta,
Chapitre 7, pages 141 à 145.

Une implémentation commode est fournie avec le langage R.

Précisons immédiatement que ces deux coefficients varient entre -1 (les deux classements sont inversés l'un par rapport à l'autre) et 1 (les classements sont identiques), en passant par 0 (les classements sont indépendants).

Dans la suite, on considère $n$ objets $\{ o_{1}, \ldots, o_{n}\}$ pour lesquels on dispose de deux classements $C_{1}$ et $C_{2}$. On notera $C_{1}[o_{i}]$ et $C_{2}[o_{i}]$ les positions de l'objet $o_{i}$ dans les deux classements.

Le coefficient de corrélation des rangs de Spearman

Ici, on compare pour chaque objet ses rangs dans les deux classements :

\begin{displaymath}
c_{s} = 1 - \frac{6 \times \sum_{i=1}^{n} \left( C_{1}[o_{i}] - C_{2}[o_{i}] \right)^{2}}{n \times (n^{2} - 1)}
\end{displaymath}

Pour savoir si la valeur trouvée est significative, on se reporte à la table du coefficient de Spearman.

Le coefficient de corrélation des rangs de M. G. Kendall

Cette fois, on compte le nombre de couples $(o_{i},o_{j})$ pour lesquels les deux classements s'accordent sur le fait que $o_{i}$ est avant $o_{j}$. Soit $R$ ce nombre.

\begin{displaymath}
c_{k} = \frac{4 \times R}{n \times (n-1)} - 1
\end{displaymath}

Pour savoir si la valeur trouvée est significative, on utilise que la distribution de $c_{k}$ est approximable par une loi de Laplace-Gauss (approximation satisfaisante dès que $n \geq 8$) :

\begin{displaymath}
c_{k} \sim LG\left( \sqrt{\frac{2(2n+5)}{9n(n-1)}} \right)
\end{displaymath}

Corrélation entre deux comportements


Fabien Torre Valid HTML5! Valid CSS!
Accueil > Pense-bêtes > Technique > Statistiques
(contenu mis à jour )
site de Fabien Torre, université de Lille

Description

Survoler un lien de navigation pour lire sa description ici...


Une photo au hasard

En Corse.

Vizzavona et Vero.

(le 17 juillet 2008)

Maisons de Vero.