Chapitre 14 Les mesures de tendance centrale
Dans ce chapitre, nous verrons comment utiliser R
pour calculer les mesures importantes permettant de résumer des données.
Nous allons charger les librairies que nous allons utiliser:
14.1 Mise en place
library(questionr)
library(ggplot2)
library(nycflights13)
Les mesures de tendance centrale permettent de déterminer où se situe le “centre”" des données. Les trois mesures de tendance centrale sont le mode, la moyenne et la médiane.
14.2 Le mode
Le mode est la modalité, valeur ou classe possédant la plus grande fréquence. En d’autres mots, c’est la donnée la plus fréquente.
Puisque le mode se préoccupe seulement de la donnée la plus fréquente, il n’est pas influencé par les valeurs extrêmes.
Lorsque le mode est une classe, il est appelé classe modale.
Le mode est noté Mo.
Le langage R
ne possède pas de fonction permettant de calculer le mode. La façon la plus simple de le calculer est d’utiliser la fonction table
de R
.
Par exemple, si nous voulons connaître le mode de la variable marital
de la base de données gss_cat
:
table(gss_cat$marital)
#>
#> No answer Never married Separated Divorced Widowed
#> 17 5416 743 3383 1807
#> Married
#> 10117
Nous remarquons que le maximum est à la modalité Married avec une fréquence de 10117.
Si nous nous intéressons au mode d’une variable quantitative discrète comme age
de la base de données gss_cat
nous obtenons:
table(gss_cat$age)
#>
#> 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
#> 91 249 251 278 298 361 344 396 400 385 387 376 433 407 445 425 425 417
#> 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
#> 428 438 426 415 452 434 405 448 432 404 422 435 424 417 430 390 400 396
#> 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
#> 387 365 384 321 326 323 338 307 310 292 253 259 231 271 205 201 213 206
#> 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
#> 189 152 180 179 171 137 150 135 127 119 105 99 100 75 74 54 57 148
Nous remarquons que le maximum est à la valeur 40 avec une fréquence de 452.
Dans le cas d’une variable quantitative continue, pour calculer le mode, il faut commencer par séparer les données en classes. Nous utiliserons les mêmes classes utilisées à la section:
carat_class = cut(diamonds$carat,
breaks = seq(from = 0, to = 6, by = 1),
right = FALSE)
table(carat_class)
#> carat_class
#> [0,1) [1,2) [2,3) [3,4) [4,5) [5,6)
#> 34880 16906 2114 34 5 1
La classe modale est donc la classe [0,1) avec une fréquence de 34880.
14.3 La médiane
La médiane, notée Md, est la valeur qui sépare une série de données classée en ordre croissant en deux parties égales.
La médiane étant la valeur du milieu, elle est la valeur où le pourcentage cumulé atteint 50%.
Puisque la médiane se préoccupe seulement de déterminer où se situe le centre des données, elle n’est pas influencée par les valeurs extrêmes. Elle est donc une mesure de tendance centrale plus fiable que la moyenne.
Important : La médiane n’est définie que pour les variables quantitatives. En effet, si vous tentez d’utiliser la médiane pour des données autres que numériques,
R
vous donnera un message d’erreur.
La fonction median
permet de calculer la médiane en langage R
.
Par exemple, pour calculer la médiane de la variable carat
de la base de données diamonds
, nous avons:
median(diamonds$carat)
#> [1] 0.7
Ceci signifie que 50% des diamants ont une valeur en carat inférieure ou égale à 0.7 et que 50% des diamants ont une valeur en carat supérieure ou égale à 0.7.
Nous pouvons aussi obtenir que la médiane de la variable price
de la base de données diamonds
est donnée par:
median(diamonds$price)
#> [1] 2401
14.4 La moyenne
La moyenne est la valeur qui pourrait remplacer chacune des données d’une série pour que leur somme demeure identique. Intuitivement, elle représente le centre d’équilibre d’une série de données. La somme des distances qui sépare les données plus petites que la moyenne devrait être la même que la somme des distances qui sépare les données plus grandes.
Important : La moyenne n’est définie que pour les variables quantitatives. En effet, si vous tentez d’utiliser la moyenne pour des données autres que numériques,
R
vous donnera un message d’erreur.
La fonction mean
permet de calculer la moyenne en langage R
.
Par exemple, pour calculer la moyenne de la variable carat
de la base de données diamonds
, nous avons:
mean(diamonds$carat)
#> [1] 0.798
Nous pouvons aussi obtenir que la moyenne de la variable price
de la base de données diamonds
est donnée par:
mean(diamonds$price)
#> [1] 3933