Chapitre 14 Les mesures de tendance centrale

Dans ce chapitre, nous verrons comment utiliser R pour calculer les mesures importantes permettant de résumer des données.

Nous allons charger les librairies que nous allons utiliser:

14.1 Mise en place

library(questionr)
library(ggplot2)
library(nycflights13)

Les mesures de tendance centrale permettent de déterminer où se situe le “centre”" des données. Les trois mesures de tendance centrale sont le mode, la moyenne et la médiane.

14.2 Le mode

Le mode est la modalité, valeur ou classe possédant la plus grande fréquence. En d’autres mots, c’est la donnée la plus fréquente.

Puisque le mode se préoccupe seulement de la donnée la plus fréquente, il n’est pas influencé par les valeurs extrêmes.

Lorsque le mode est une classe, il est appelé classe modale.

Le mode est noté Mo.

Le langage R ne possède pas de fonction permettant de calculer le mode. La façon la plus simple de le calculer est d’utiliser la fonction table de R.

Par exemple, si nous voulons connaître le mode de la variable marital de la base de données gss_cat:

table(gss_cat$marital)
#> 
#>     No answer Never married     Separated      Divorced       Widowed 
#>            17          5416           743          3383          1807 
#>       Married 
#>         10117

Nous remarquons que le maximum est à la modalité Married avec une fréquence de 10117.

Si nous nous intéressons au mode d’une variable quantitative discrète comme age de la base de données gss_cat nous obtenons:

table(gss_cat$age)
#> 
#>  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35 
#>  91 249 251 278 298 361 344 396 400 385 387 376 433 407 445 425 425 417 
#>  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53 
#> 428 438 426 415 452 434 405 448 432 404 422 435 424 417 430 390 400 396 
#>  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71 
#> 387 365 384 321 326 323 338 307 310 292 253 259 231 271 205 201 213 206 
#>  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89 
#> 189 152 180 179 171 137 150 135 127 119 105  99 100  75  74  54  57 148

Nous remarquons que le maximum est à la valeur 40 avec une fréquence de 452.

Dans le cas d’une variable quantitative continue, pour calculer le mode, il faut commencer par séparer les données en classes. Nous utiliserons les mêmes classes utilisées à la section:

carat_class = cut(diamonds$carat,
                  breaks = seq(from = 0, to = 6, by = 1),
                  right = FALSE)
table(carat_class)
#> carat_class
#> [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) 
#> 34880 16906  2114    34     5     1

La classe modale est donc la classe [0,1) avec une fréquence de 34880.

14.3 La médiane

La médiane, notée Md, est la valeur qui sépare une série de données classée en ordre croissant en deux parties égales.

La médiane étant la valeur du milieu, elle est la valeur où le pourcentage cumulé atteint 50%.

Puisque la médiane se préoccupe seulement de déterminer où se situe le centre des données, elle n’est pas influencée par les valeurs extrêmes. Elle est donc une mesure de tendance centrale plus fiable que la moyenne.

Important : La médiane n’est définie que pour les variables quantitatives. En effet, si vous tentez d’utiliser la médiane pour des données autres que numériques, R vous donnera un message d’erreur.

La fonction median permet de calculer la médiane en langage R.

Par exemple, pour calculer la médiane de la variable carat de la base de données diamonds, nous avons:

median(diamonds$carat)
#> [1] 0.7

Ceci signifie que 50% des diamants ont une valeur en carat inférieure ou égale à 0.7 et que 50% des diamants ont une valeur en carat supérieure ou égale à 0.7.

Nous pouvons aussi obtenir que la médiane de la variable price de la base de données diamonds est donnée par:

median(diamonds$price)
#> [1] 2401

14.4 La moyenne

La moyenne est la valeur qui pourrait remplacer chacune des données d’une série pour que leur somme demeure identique. Intuitivement, elle représente le centre d’équilibre d’une série de données. La somme des distances qui sépare les données plus petites que la moyenne devrait être la même que la somme des distances qui sépare les données plus grandes.

Important : La moyenne n’est définie que pour les variables quantitatives. En effet, si vous tentez d’utiliser la moyenne pour des données autres que numériques, R vous donnera un message d’erreur.

La fonction mean permet de calculer la moyenne en langage R.

Par exemple, pour calculer la moyenne de la variable carat de la base de données diamonds, nous avons:

mean(diamonds$carat)
#> [1] 0.798

Nous pouvons aussi obtenir que la moyenne de la variable price de la base de données diamonds est donnée par:

mean(diamonds$price)
#> [1] 3933