Chapitre 15 Les mesures de dispersion

Les mesures de tendance centrale (mode, moyenne et médiane) ne permettent pas de déterminer si une série de données est principalement située autour de son centre, ou si au contraire elle est très dispersée.

Les mesures de dispersion, elles, permettent de déterminer si une série de données est centralisée autour de sa moyenne, ou si elle est au contraire très dispersée.

Les mesures de dispersion sont l’étendue, la variance, l’écart-type et le coefficient de variation.

15.1 L’étendue

La première mesure de dispersion, l’étendue, est la différence entre la valeur maximale et la valeur minimale.

L’étendue ne tenant compte que du maximum et du minimum, elle est grandement influencée par les valeurs extrêmes. Elle est donc une mesure de dispersion peu fiable.

La fonction range permet de calculer l’étendue d’une variable en langage R.

Par exemple, pour calculer l’étendue de la variable carat de la base de données diamonds, nous avons:

range(diamonds$carat)
#> [1] 0.20 5.01

Nous pouvons donc calculer l’étendue de la variable carat en soustrayant les deux valeurs obtenues par la fonction range, c’est-à-dire que l’étendue est 5.01-0.2 = 4.81.

15.2 La variance

La variance sert principalement à calculer l’écart-type, la mesure de dispersion la plus connue.

Attention : Les unités de la variance sont des unités2.

La fonction var permet de calculer la variance d’une variable en langage R.

Par exemple, pour calculer la variance de la variable carat de la base de données diamonds, nous avons:

var(diamonds$carat)
#> [1] 0.225

Ceci signifie que la variance de la variable carat est 0.225 carat2.

15.3 L’écart-type

L’écart-type est la mesure de dispersion la plus couramment utilisée. Il peut être vu comme la « moyenne » des écarts entre les données et la moyenne.

Puisque l’écart-type tient compte de chacune des données, il est une mesure de dispersion beaucoup plus fiable que l’étendue.

Il est défini comme la racine carrée de la variance.

La fonction sd permet de calculer l’’écart-type d’une variable en langage R.

Par exemple, pour calculer l’écart-type de la variable carat de la base de données diamonds, nous avons:

sd(diamonds$carat)
#> [1] 0.474

Ceci signifie que l’écart-type de la variable carat est 0.474 carat.

15.4 Le coefficient de variation

Le coefficient de variation, noté C. V., est calculé comme suit :

\[\begin{equation} C.V. = \dfrac{\text{ecart-type}}{\text{moyenne}}\times 100\% \end{equation}\]

Si le coefficient est inférieur à 15%, les données sont dites homogènes. Cela veut dire que les données sont situées près les unes des autres.

Dans le cas contraire, les données sont dites hétérogènes. Cela veut dire que les données sont très dispersées.

Important : Le coefficient de variation ne possède pas d’unité, outre le symbole de pourcentage.

Il n’existe pas de fonctions en R permettant de calculer directement le coefficient de variation. Par contre, nous pouvons utiliser en conjonction les fonctions sd et mean pour le calculer.

Par exemple, pour calculer le coefficient de variation de la variable carat de la base de données diamonds, nous avons:

sd(diamonds$carat)/mean(diamonds$carat)*100
#> [1] 59.4

Le C.V. de la variable carat est donc 59.404 %, ce qui signifie que les données sont hétérogènes, car le coefficient de variation est plus grand que 15%.