Statistiques
Faire des statistiques, c'est rassembler des données pour les exploiter (comparaison, prévision, constat, etc.).
Vocabulaire
- Population : ensemble d'objets ou d'individus faisant l'objet d'une étude statistique
- individus : éléments qui constituent une population
- effectif : nombre total d'individus
- Sous-population (ou effectif partiel) : partie de la population considérée
- généralement déterminée par un caractère
- échantillon : quand déterminée au hasard
- Caractère : propriété étudiée sur chaque individu
- quantitatif quand il ne prend que des valeurs numériques (poids, temps passé au téléphone, etc.)
- qualitatif quand les valeurs ne sont pas des nombres (couleur des yeux, marque de la voiture, etc.)
- Valeurs (ou modalités) : les valeurs possibles que peut prendre le caractère
- Données : les mesures recueillies
Série statistique
La donnée d'une série de caractères et de leurs effectifs s'appelle une série statistique.
Exemple pour les notes de 25 candidats à un examen :
Notes | 3 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 15 | 16 | 18 |
Effectifs | 1 | 2 | 5 | 5 | 1 | 2 | 3 | 2 | 2 | 1 | 1 |
Effectif cumulé
L'effectif cumulé s'obtient en ajoutant les effectifs de toutes les valeurs inférieures ou égales à celle de référence :
Notes | 3 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 15 | 16 | 18 |
Effectifs | 1 | 2 | 5 | 5 | 1 | 2 | 3 | 2 | 2 | 1 | 1 |
Effectifs cumulés (croissants) | 1 | 3 | 8 | 13 | 14 | 16 | 19 | 21 | 23 | 24 | 25 |
Fréquence
La fréquence (ou proportion) est le quotient de l'effectif par l'effectif total :
\[ \fbox{$ \text{Fréquence} = \frac{\text{Effectif}}{\text{Effectif total}} $} \]
La fréquence peut être donnée sous forme décimale, en fraction ou en pourcentage :
\[ \fbox{$ \text{Fréquence} = \frac{\text{Effectif}}{\text{Effectif total}} \times 100 $} \]
Notes | 3 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 15 | 16 | 18 |
Effectifs | 1 | 2 | 5 | 5 | 1 | 2 | 3 | 2 | 2 | 1 | 1 |
Fréquence | 4 % | 8 % | 20 % | 20 % | 4 % | 8 % | 12 % | 8 % | 8 % | 4 % | 4 % |
Médiane
La médiane est un nombre qui permet de diviser une série statistique en deux sous-groupes de même effectif.
Pour la calculer, classer les valeurs dans l'ordre croissant :
- si leur nombre est impair, la médiane est la valeur du milieu :
\( 4, 5, 5, 8, {\large{{\color{ForestGreen}8}}}, 8, 9, 12, 13 \to 8 \) - si leur nombre est pair, la médiane est la moyenne des deux valeurs centrales
\( 1, 2, {\large{{\color{ForestGreen}4}}}, {\large{{\color{ForestGreen}8}}}, 21, 27 \to \frac{{\color{ForestGreen}4 + 8}}{2} = 6 \)
La médiane :
- est utile quans les valeurs sont très disparates
- n'est pas sensible aux valeurs extrêmes
- rend essentiellement compte du sous-groupe le plus important
Quartiles et déciles
Les quartiles d'une série statistique sont un triplet de réels \( Q_1 \thinspace ; \thinspace Q_2 ; \thinspace Q_3 \) qui la sépare en quatre groupes de même effectif.
Les déciles d'une série statistique sont un 9-uplet de réels \( D_1 \thinspace ; \thinspace D_2 ; \cdots ; \thinspace D_9 \) qui la sépare en dix groupes de même effectif.
Si \( X \) est une série statistique, \( Q2 = D5 = \text{Mediane}(X) \).
Moyenne arithmétique
La moyenne arithmétique d'une liste est la somme des valeurs divisée par le nombre de valeurs :
\[ \fbox{$ \text{Moyenne arithmétique} = \frac{\text{somme des valeurs}}{\text{nombre de valeurs}} $} \]
En mathématique, on utilise un trait suscrit pour représenter la moyenne \( \bar{x} \) :
\[ \fbox{$ \bar{x} = \frac{1}{n} \sum\limits_{i=1}^n x_i = {\frac{x_1 + x_2 + \cdots + x_n}{n}} $} \]
La formule se lit : somme de \( x \) indice \( i \) pour \( i \) variant de \( 1 \) à \( n \), divisé par \( n \).
Voir : Manipulation de sommes à l'aide du symbole ∑ (sigma).
La moyenne arithmétique :
- prend en compte toutes les valeurs
- peut-être très influencée par des valeurs extrêmes du caractère
Si moyenne arithmétique et médiane donnent une estimation du centre similaire, alors tout va bien. Sinon, il faut approfondir l'analyse.
Moyenne pondérée
L'adjectif "pondéré" vient du verbe "pondérer" qui veut dire : assigner des poids.
La moyenne pondérée d'une série est la moyenne des valeurs affectées de poids (ou coefficients) :
- multiplier chaque valeur par son coefficient
- additionner les produits obtenus
- diviser par la somme des coefficient (ou l'effectif total de la série)
\[ \fbox{$ \text{Moyenne pondérée} = \frac{\sum \text{valeur} \times \text{coefficient}}{\sum \text{coefficient}} $} \]
Formule mathématique avec quotient de la somme pondérée des \( x_i \) par la somme des poids \( p_i \) :
\[ \fbox{$ \bar{x} = \frac{\sum\limits_{i=1}^n x_i p_i}{\sum\limits_{i=1}^n p_i} = {\frac{x_1 p_i + x_2 p_2 + \cdots + x_n p_n}{p_i + p_2 + \cdots + p_n}} $} \]
La moyenne pondérée fait varier les poids, traduisant une importance variable des observations.
Moyenne harmonique
La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses des termes :
\[ \fbox{$ H = \frac{n}{\sum\limits_{i=1}^n \frac{1}{x_i}} = \left( \frac{\sum\limits_{i=1}^n x_i^{-1}}{n} \right)^{-1} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}} $} \]
Elle est généralement utilisée avec les vitesses, en électronique ou en finance.