Chapitre 16 Les mesures de position
Les mesures de position permettent de situer une donnée par rapport aux autres. Les différentes mesures de position sont la cote Z, les quantiles et les rangs.
Tout comme les mesures de dispersion, celles-ci ne sont définies que pour une variable quantitative.
16.1 La cote z
Cette mesure de position se base sur la moyenne et l’écart-type.
La cote Z d’une donnée x est calculée comme suit :
\[\begin{equation} Z = \dfrac{x-\text{moyenne}}{\text{ecart-type}} \end{equation}\]Important : La cote z ne possède pas d’unités.
Une cote Z peut être positive, négative ou nulle.
Cote Z | Interprétation |
---|---|
Z>0 | donnée supérieure à la moyenne |
Z<0 | donnée inférieure à la moyenne |
Z=0 | donnée égale à la moyenne |
Il n’existe pas de fonctions en R
permettant de calculer directement la cote Z. Par contre, nous pouvons utiliser en conjonction les fonctions sd
et mean
pour la calculer.
Par exemple, si nous voulons calculer la cote Z d’un diamant de 3 carats, nous avons:
(3-mean(diamonds$carat))/sd(diamonds$carat)
#> [1] 4.65
16.2 Les quantiles
Un quantile est une donnée qui correspond à un certain pourcentage cumulé.
Parmi les quantiles, on distingue les quartiles, les quintiles, les déciles et les centiles.
- Les quartiles Q1, Q2 et Q3, séparent les données en quatre parties égales. Environ 25% des données sont inférieures ou égales à Q1. Environ 50% des données sont inférieures ou égales à Q2. Environ 75% des données sont inférieures ou égales à Q3.
- Les quintiles V1, V2, V3 et V4, séparent les données en cinq parties égales. Environ 20% des données sont inférieures ou égales à V1. Environ 40% des données sont inférieures ou égales à V2. Etc.
- Les déciles D1, D2, …, D8 et D9, séparent les données en dix parties égales. Environ 10% des données sont inférieures ou égales à D1. Environ 20% des données sont inférieures ou égales à D2. Etc.
- Les centiles C1, C2, …, C98 et C99, séparent les données en cent parties égales. Environ 1% des données sont inférieures ou égales à C1. Environ 2% des données sont inférieures ou égales à C2. Etc.
Il est utile de noter que certains quantiles se recoupent.
La fonction quantile
permet de calculer n’importe quel quantile d’une variable en langage R
. Il suffit d’indiquer la variable étudiée ainsi que le pourcentage du quantile voulu.
Par exemple, si nous voulons calculer D1 pour la variable carat
, nous allons utiliser la fonction quantile
avec une probabilité de 0,1.
quantile(diamonds$carat, 0.1)
#> 10%
#> 0.31
Ceci implique que 10% des diamants ont une valeur en carat inférieure ou égale à 0.31 carat.
Nous pouvons calculer le troisième quartile Q3 de la variable price
en utilisant la fonction quantile
avec une probabilité de 0,75.
quantile(diamonds$price, 0.75)
#> 75%
#> 5324
Ceci implique que 75% des diamants ont un prix en dollars inférieur ou égal à 5324.25 $.
16.3 La commande summary
La commande summary
produit un sommaire contenant six mesures importantes:
Min
: le minimum de la variable1st Qu.
: Le premier quartile, Q1, de la variableMedian
: La médiane de la variableMean
: La moyenne de la variable3rd Qu.
: Le troisième quartile, Q3, de la variableMax
: Le maximum de la variable
Nous pouvons donc produire le sommaire de la variable price
de la base de données diamonds
de la façon suivante:
summary(diamonds$price)
#> Min. 1st Qu. Median Mean 3rd Qu. Max.
#> 326 950 2401 3933 5324 18823
16.4 Le rang centile
Un rang centile représente le pourcentage cumulé, exprimé en nombre entier, qui correspond à une certaine donnée. Nous déterminerons les rangs centiles pour les variables continues seulement.
Les rangs centiles sont donc exactement l’inverse des centiles.
Il n’existe pas de fonctions dans R
permettant de trouver directement le rang centile, mais il est facile d’utiliser la fonction mean
pour le trouver.
Par exemple, si nous voulons trouver le rang centile d’un diamant qui coûte 500$, il suffit d’utiliser la commande suivante. La commande calcule la moyenne de toutes les valeurs en dollars des diamants coûtant 500$ ou moins.
mean(diamonds$price<=500)
#> [1] 0.0324
Ceci signifie que pour un diamant de 500$, il y a 3.242 % des diamants qui ont une valeur égale ou inférieure.