Pense-bêtes en Statistiques

Des éléments de base en statistiques et des procédures de test.

Des carrés dans la formule de l'écart-type ?

J'ai toujours trouvé bizarre la formule de l'écart-type : pourquoi utiliser les carrés des observations $x_i$ ? L'âge du capitaine au carré, ça n'a pas sens. Du coup, on est obligé ensuite de prendre la racine carrée pour retrouver un résultat qui respecte l'unité des observations.

$\begin{displaymath} \sqrt{\frac{\sum_{i=1}^{n} (x_{i}-\overline{x})^{2}}{n}} \end{displaymath}$

On pourrait utiliser l'écart absolu moyen :

$\begin{displaymath} \frac{\sum_{i=1}^{n} \vert x_{i}-\overline{x} \vert}{n} \end{displaymath}$

Il faut revenir à la base : nous avons un ensemble d'observations $\chi = \{ x_{i} \}_{i=1 \dots n}$ et nous voulons déterminer pour cet ensemble une valeur centrale $c(\chi)$ et une dispersion $d(\chi)$ autour de cette valeur centrale.

Supposons la dispersion calculée par la formule :

$\begin{displaymath} d(\chi) = \sqrt{\frac{\sum_{i=1}^{n} (x_{i}-c(\chi))^{2}}{n}} \end{displaymath}$

Assez logiquement, on voudrait que, pour des $x_{i}$ fixés, le choix de $c(\chi)$ minimise la dispersion $d(\chi)$ . On cherche donc la valeur de $c(\chi)$ qui annule la dérivée de $d\chi)$ :

$\begin{displaymath} d(\chi) = \sqrt{\frac{1}{n} \times \sum_{i=1}^{n} \left( x_{i}^{2} -2 \times x_{i} \times c(\chi) + c(\chi)^{2} \right) } \end{displaymath}$

donc

$\begin{displaymath} \begin{array}{ll} \frac{\delta d(\chi)}{\delta c(\chi)} = 0 ... ...ow 2 \times c(\chi) - 2 \times \overline{x} = 0 \\ \end{array}\end{displaymath}$

et par conséquent :

$\begin{displaymath} \frac{\delta d(\chi)}{\delta c(\chi)} = 0 \Rightarrow c(\chi) = \overline{x} \end{displaymath}$

Ainsi, c'est le choix de l'écart-type comme mesure de dispersion qui amène à choisir la moyenne comme valeur centrale.

Menons le même raisonnement avec comme mesure de dispersion :

$\begin{displaymath} d(\chi) = \frac{\sum_{i=1}^{n} \vert x_{i}-c(\chi) \vert}{n}... ...)} (x_{i}-c(\chi)) + \sum_{i: x_{i}<c(\chi)} (c(\chi)-x_{i}) ) \end{displaymath}$

$\begin{displaymath} \frac{\delta d(\chi)}{\delta c(\chi)} = \frac{1}{n} \times \... ...{i: x_{i}>c(\chi)} (+1) + \sum_{i: x_{i}<c(\chi)} (-1) \right) \end{displaymath}$

Pour annuler cette dérivée, il faut choisir la valeur centrale $c(\chi)$ de telle manière que exactement la moitié des $x_{i}$ lui soient supérieurs et les autres inférieurs. C'est la définition de la médiane.

En conclusion, plus que sur la mesure de dispersion elle-même, le choix porte sur un couple (valeur centrale,mesure de dispersion) : (moyenne,écart-type) ou (médiane,écart-absolu-moyen).

Calculer la moyenne et l'écart-type en même temps

La formule classique de la variance oblige à disposer de la moyenne. Il est cependant possible de calculer les deux en même temps : il suffit de faire simultanément la somme des valeurs observées et la somme de leurs carrés.

    s  = 0;
    s2 = 0;

    for i=1 to n do begin
	s  = s  + x[i];
	s2 = s2 + x[i]*x[i];
    end;

    moyenne  = s/n;
    variance = s2/n - moyenne*moyenne;
    ecart    = racine(variance);

La démonstration est laissée au lecteur (c'est facile !).

Corrélation des rangs entre deux ordres

Nous présentons deux méthodes classiques pour déterminer la corrélation des rangs entre deux ordres :

le coefficient de corrélation des rangs de Spearman ;
le coefficient de corrélation des rangs de M. G. Kendall.

Les brèves descriptions qui suivent sont tirées de

Probabilités, Analyse de Données et Statistique,
G. Saporta,
Chapitre 7, pages 141 à 145.

Une implémentation commode est fournie avec le langage R.

Précisons immédiatement que ces deux coefficients varient entre -1 (les deux classements sont inversés l'un par rapport à l'autre) et 1 (les classements sont identiques), en passant par 0 (les classements sont indépendants).

Dans la suite, on considère $n$

objets $\{ o_{1}, \ldots, o_{n}\}$ pour lesquels on dispose de deux classements $C_{1}$ et $C_{2}$ . On notera $C_{1}[o_{i}]$ et $C_{2}[o_{i}]$ les positions de l'objet $o_{i}$ dans les deux classements.

Le coefficient de corrélation des rangs de Spearman

Ici, on compare pour chaque objet ses rangs dans les deux classements :

$\begin{displaymath} c_{s} = 1 - \frac{6 \times \sum_{i=1}^{n} \left( C_{1}[o_{i}] - C_{2}[o_{i}] \right)^{2}}{n \times (n^{2} - 1)} \end{displaymath}$

Pour savoir si la valeur trouvée est significative, on se reporte à la table du coefficient de Spearman.

Le coefficient de corrélation des rangs de M. G. Kendall

Cette fois, on compte le nombre de couples $(o_{i},o_{j})$ pour lesquels les deux classements s'accordent sur le fait que $o_{i}$ est avant $o_{j}$ . Soit $R$ ce nombre.

$\begin{displaymath} c_{k} = \frac{4 \times R}{n \times (n-1)} - 1 \end{displaymath}$

Pour savoir si la valeur trouvée est significative, on utilise que la distribution de $c_{k}$ est approximable par une loi de Laplace-Gauss (approximation satisfaisante dès que $n \geq 8$ ) :

$\begin{displaymath} c_{k} \sim LG\left( \sqrt{\frac{2(2n+5)}{9n(n-1)}} \right) \end{displaymath}$

site de Fabien Torre