Statistique Descriptive : Cours, Formules et Exercices

La statistique descriptive constitue le fondement de l’analyse des données. Face à une masse d’informations brutes, comment extraire l’essentiel ? Comment transformer des centaines de chiffres en conclusions claires ? Cette discipline propose des outils puissants pour résumer, organiser et visualiser les données, permettant ainsi de révéler les tendances cachées et de prendre des décisions éclairées. Que vous soyez étudiant en sciences, chercheur ou simplement curieux de comprendre le monde qui vous entoure, maîtriser la statistique descriptive est devenu indispensable à l’ère du Big Data.

Comprendre les Fondements de la Statistique Descriptive

La statistique descriptive représente l’ensemble des méthodes et techniques permettant de décrire, résumer et représenter un ensemble de données de manière claire et synthétique. Contrairement à la statistique inférentielle qui tire des conclusions sur une population entière à partir d’un échantillon, la statistique descriptive se concentre uniquement sur la description des données observées, sans généralisation.

Distinction entre Statistique Descriptive et Statistique Inférentielle

Il existe deux grandes branches des statistiques. La statistique descriptive répond à des questions telles que : Quelle est la valeur typique ? Comment les données sont-elles dispersées ? Quelles sont les valeurs extrêmes ? En revanche, la statistique inférentielle s’intéresse à des questions comme : Peut-on généraliser ces résultats à toute la population ? Cette différence observée est-elle significative ou due au hasard ?

Le Vocabulaire Essentiel en Statistique

Avant d’analyser des données, il est crucial de maîtriser le vocabulaire statistique de base. La population désigne l’ensemble complet des individus, objets ou événements que l’on souhaite étudier. Un individu représente chaque élément de cette population. L’échantillon constitue un sous-ensemble de la population sélectionné pour l’étude, sa taille étant notée par la lettre n.

Le caractère ou variable correspond à la propriété observée sur les individus. Par exemple, si l’on étudie des étudiants, les caractères peuvent être l’âge, la taille, le sexe, ou la note obtenue à un examen. Les modalités représentent les différentes valeurs que peut prendre un caractère. Pour le caractère « couleur des yeux », les modalités sont : bleu, vert, marron, noisette.

Statistique descriptive - Schéma illustrant la relation entre population et échantillon

Les Types de Variables Statistiques

La nature d’une variable détermine les outils statistiques appropriés pour son analyse. On distingue deux grandes catégories de variables.

Variables Qualitatives

Une variable qualitative exprime une qualité, une caractéristique non mesurable numériquement. Ces variables se subdivisent en deux types :

Les variables nominales présentent des modalités sans ordre naturel. Exemples : la nationalité (française, marocaine, tunisienne), le type sanguin (A, B, AB, O), la couleur préférée (rouge, bleu, vert). Il est impossible d’établir une hiérarchie entre ces modalités.

Les variables ordinales possèdent des modalités ordonnées selon un rang ou une intensité. Exemples : le niveau d’études (primaire, secondaire, supérieur), l’appréciation d’un produit (mauvais, moyen, bon, excellent), la taille d’un vêtement (S, M, L, XL). Bien qu’il existe un ordre, la distance entre les modalités n’est pas quantifiable.

Variables Quantitatives

Une variable quantitative prend des valeurs numériques sur lesquelles on peut effectuer des calculs mathématiques (somme, moyenne, etc.). Cette catégorie comprend deux sous-types :

Les variables quantitatives discrètes ne prennent que des valeurs isolées, généralement des nombres entiers. Exemples : le nombre d’enfants dans une famille, le nombre de voitures possédées, le nombre de pièces dans un logement. Entre deux valeurs consécutives, aucune valeur intermédiaire n’est possible.

Les variables quantitatives continues peuvent prendre n’importe quelle valeur dans un intervalle donné. Exemples : la taille d’une personne (1,72 m, 1,725 m, 1,7254 m…), le poids, la température, le temps de réaction. Ces variables nécessitent un regroupement en classes pour faciliter leur analyse.

Organisation des Données : Effectifs et Fréquences

Une fois les données collectées, il convient de les organiser de manière structurée pour faciliter leur analyse.

Effectifs et Fréquences Absolues

L’effectif d’une modalité, noté \( n_i \), représente le nombre de fois où cette modalité apparaît dans l’échantillon. L’effectif total, noté \( n \) ou \( N \), correspond à la somme de tous les effectifs :

\[
n = \sum_{i=1}^{k} n_i
\]

où \( k \) désigne le nombre de modalités différentes.

Fréquences Relatives

La fréquence relative d’une modalité, notée \( f_i \), correspond au rapport entre l’effectif de cette modalité et l’effectif total :

\[
f_i = \frac{n_i}{n}
\]

La fréquence relative s’exprime sous forme décimale ou en pourcentage. La somme de toutes les fréquences relatives vaut toujours 1 (ou 100 %).

Effectifs et Fréquences Cumulés

L’effectif cumulé croissant, noté \( N_i \), représente la somme des effectifs de toutes les modalités inférieures ou égales à la modalité considérée :

\[
N_i = n_1 + n_2 + \cdots + n_i = \sum_{j=1}^{i} n_j
\]

De même, la fréquence cumulée, notée \( F_i \), se calcule par :

\[
F_i = \frac{N_i}{n}
\]

Ces valeurs cumulées sont particulièrement utiles pour déterminer les paramètres de position comme la médiane et les quartiles.

Le Regroupement en Classes pour les Variables Continues

Lorsqu’on travaille avec une variable quantitative continue, les valeurs sont souvent trop nombreuses et variées pour être présentées individuellement. Le regroupement en classes s’impose alors.

Détermination du Nombre de Classes

Le choix du nombre de classes influence grandement la lisibilité des résultats. Trop peu de classes masquent les détails, tandis que trop de classes rendent l’analyse confuse. La règle de Sturges propose une formule pour déterminer le nombre optimal de classes \( k \) :

\[
k = 1 + 3{,}3 \log_{10}(n)
\]

où \( n \) représente la taille de l’échantillon. On arrondit généralement le résultat à l’entier le plus proche.

Une alternative est la règle de Yule :

\[
k = 2{,}5 \times n^{1/4}
\]

Amplitude et Centre de Classe

L’étendue de la série se calcule comme la différence entre la valeur maximale et la valeur minimale :

\[
E = x_{\text{max}} – x_{\text{min}}
\]

L’amplitude de chaque classe, notée \( a_i \), se détermine en divisant l’étendue par le nombre de classes :

\[
a_i = \frac{E}{k}
\]

Le centre de classe, noté \( c_i \), correspond à la moyenne des bornes de la classe :

\[
c_i = \frac{\text{borne inférieure} + \text{borne supérieure}}{2}
\]

Pour une classe \( [a_i ; a_{i+1}[ \), le centre vaut \( c_i = \frac{a_i + a_{i+1}}{2} \).

Représentation Graphique des Données Statistiques

Les représentations graphiques transforment des tableaux de chiffres en visualisations parlantes, facilitant la compréhension immédiate des données.

Pour les Variables Qualitatives

Le diagramme en bâtons ou en barres représente chaque modalité par une barre verticale dont la hauteur est proportionnelle à l’effectif ou à la fréquence. Les barres sont espacées pour marquer la nature discrète de la variable.

Le diagramme circulaire (ou camembert) divise un disque en secteurs dont les angles sont proportionnels aux fréquences. Ce type de graphique est particulièrement efficace pour visualiser des proportions.

Pour les Variables Quantitatives Discrètes

Le diagramme différentiel en bâtons place les valeurs de la variable sur l’axe horizontal et représente chaque valeur par un segment vertical proportionnel à son effectif.

La courbe cumulative en escalier représente les effectifs cumulés croissants. Chaque palier correspond à une valeur de la variable.

Pour les Variables Quantitatives Continues

L’histogramme constitue la représentation fondamentale. Chaque classe est figurée par un rectangle dont la base correspond à l’amplitude de la classe et la hauteur à l’effectif (ou à la fréquence). Les rectangles sont accolés pour souligner la continuité de la variable.

Le polygone des fréquences s’obtient en reliant les milieux des sommets des rectangles de l’histogramme. On ferme le polygone en le prolongeant jusqu’à l’axe horizontal aux extrémités.

La courbe cumulative (ou ogive) représente les fréquences cumulées en fonction des bornes supérieures de chaque classe. Cette courbe croissante en forme de S est très utile pour déterminer graphiquement la médiane et les quartiles.

Représentation graphique statistique - Exemples d'histogramme et diagramme circulaire

Paramètres de Tendance Centrale : Mesurer la Position

Les paramètres de position caractérisent la valeur typique ou centrale autour de laquelle les données se concentrent.

Le Mode : La Valeur la Plus Fréquente

Le mode, noté \( \text{Mo} \), représente la valeur qui apparaît le plus fréquemment dans l’échantillon. Pour une variable discrète, il correspond à la modalité ayant le plus grand effectif. Pour une variable continue, on parle de classe modale (la classe avec la plus grande fréquence), et le mode s’estime par la formule :

\[
\text{Mo} = L_{\text{inf}} + a \times \frac{\Delta_1}{\Delta_1 + \Delta_2}
\]

où \( L_{\text{inf}} \) est la borne inférieure de la classe modale, \( a \) son amplitude, \( \Delta_1 \) l’excès d’effectif par rapport à la classe précédente, et \( \Delta_2 \) l’excès par rapport à la classe suivante.

Une distribution peut être unimodale (un seul mode), bimodale (deux modes), ou multimodale (plusieurs modes).

La Médiane : Le Partage en Deux Groupes Égaux

La médiane, notée \( \text{Me} \) ou \( Q_2 \), est la valeur qui partage l’échantillon ordonné en deux groupes d’effectifs égaux : 50 % des observations sont inférieures à la médiane et 50 % lui sont supérieures.

Pour une série discrète de \( n \) valeurs ordonnées :

  • Si \( n \) est impair : \( \text{Me} = x_{(n+1)/2} \)
  • Si \( n \) est pair : \( \text{Me} = \frac{x_{n/2} + x_{(n/2)+1}}{2} \)

Pour une variable continue, la médiane se détermine graphiquement sur la courbe cumulative en cherchant l’abscisse correspondant à l’ordonnée 0,5 (ou 50 %). Par calcul, si la médiane se trouve dans la classe \( i \) :

\[
\text{Me} = L_{\text{inf}} + a \times \frac{0{,}5 – F_{i-1}}{F_i – F_{i-1}}
\]

où \( F_{i-1} \) et \( F_i \) sont les fréquences cumulées des classes précédente et courante.

La Moyenne Arithmétique : Le Centre de Gravité

La moyenne arithmétique, notée \( \bar{x} \), représente le barycentre des données. Pour une variable discrète :

\[
\bar{x} = \frac{1}{n} \sum_{i=1}^{k} n_i x_i = \sum_{i=1}^{k} f_i x_i
\]

Pour une variable continue regroupée en classes :

\[
\bar{x} = \frac{1}{n} \sum_{i=1}^{k} n_i c_i
\]

où \( c_i \) désigne le centre de la classe \( i \).

Comparaison des Paramètres de Position

La moyenne est sensible aux valeurs extrêmes : une seule donnée aberrante peut modifier considérablement sa valeur. Elle prend en compte toutes les observations et se prête bien aux calculs algébriques.

La médiane est robuste face aux valeurs aberrantes : modifier les valeurs extrêmes n’affecte pas nécessairement la médiane. Elle est particulièrement adaptée aux distributions asymétriques.

Le mode identifie la valeur la plus typique, mais peut être ambigu (distributions multimodales) ou peu informatif.

Pour une distribution symétrique et unimodale, ces trois paramètres sont approximativement égaux. Leur comparaison renseigne sur la forme de la distribution.

Les Quartiles, Déciles et Centiles

Ces paramètres divisent la distribution en parties d’effectifs égaux, offrant une vision plus fine de la répartition des données.

Les Quartiles : Division en Quatre Parties

Les trois quartiles, notés \( Q_1 \), \( Q_2 \), et \( Q_3 \), divisent la distribution en quatre groupes d’effectifs égaux :

  • \( Q_1 \) (premier quartile) : 25 % des observations sont inférieures à cette valeur
  • \( Q_2 \) (deuxième quartile) : correspond à la médiane
  • \( Q_3 \) (troisième quartile) : 75 % des observations sont inférieures à cette valeur

L’intervalle interquartile, noté \( IQ \), se calcule comme :

\[
IQ = Q_3 – Q_1
\]

Cet indicateur mesure la dispersion des 50 % de données centrales, en écartant les 25 % de valeurs extrêmes de chaque côté.

Les Déciles et Centiles

Les neuf déciles \( D_1, D_2, \ldots, D_9 \) divisent la distribution en dix parties égales. Le décile \( D_i \) correspond au quantile d’ordre \( \frac{i}{10} \).

Les centiles (ou percentiles) divisent la distribution en cent parties égales. Le centile \( C_p \) indique que \( p \) % des observations sont inférieures à cette valeur.

Paramètres de Dispersion : Mesurer la Variabilité

Les paramètres de dispersion quantifient la variabilité des données autour de la tendance centrale. Une dispersion faible indique des données homogènes, tandis qu’une forte dispersion révèle une grande hétérogénéité.

L’Étendue : La Mesure la Plus Simple

L’étendue, notée \( E \), correspond à la différence entre la valeur maximale et la valeur minimale :

\[
E = x_{\text{max}} – x_{\text{min}}
\]

Bien que simple à calculer, l’étendue présente l’inconvénient majeur d’être extrêmement sensible aux valeurs aberrantes, ne tenant compte que des deux valeurs extrêmes.

La Variance : La Dispersion au Carré

La variance, notée \( s^2 \) ou \( V \), mesure la moyenne des carrés des écarts à la moyenne :

\[
s^2 = \frac{1}{n} \sum_{i=1}^{k} n_i (x_i – \bar{x})^2
\]

Une formule équivalente, plus pratique pour le calcul, est :

\[
s^2 = \frac{1}{n} \sum_{i=1}^{k} n_i x_i^2 – \bar{x}^2
\]

Cette formule se lit : « la variance égale la moyenne des carrés moins le carré de la moyenne ».

Pour une variable continue, on remplace \( x_i \) par les centres de classe \( c_i \).

L’Écart-Type : L’Unité Originale

L’écart-type, noté \( s \) ou \( \sigma \), est la racine carrée de la variance :

\[
s = \sqrt{s^2}
\]

L’écart-type présente l’avantage d’être exprimé dans la même unité que la variable étudiée, contrairement à la variance qui s’exprime en unité au carré. Un écart-type faible indique que les données sont concentrées près de la moyenne, tandis qu’un écart-type élevé révèle une grande dispersion.

Le Coefficient de Variation

Le coefficient de variation, noté \( CV \), permet de comparer la dispersion de plusieurs séries ayant des moyennes ou des unités différentes :

\[
CV = \frac{s}{\bar{x}} \times 100
\]

Ce coefficient sans dimension s’exprime en pourcentage. Plus il est élevé, plus la dispersion relative est importante.

Exercices Corrigés : Mise en Pratique

Pour maîtriser la statistique descriptive, il faut manipuler les deux types de variables quantitatives : discrètes et continues. Voici deux exercices types d’examen.

Exercice 1 : Analyse d’une Variable Quantitative Discrète

Contexte : Une enquête démographique a été menée sur 50 familles pour connaître leur nombre d’enfants. Cette variable ne prend que des valeurs isolées (0, 1, 2…).

Nombre d’enfants \( x_i \)01234Total
Effectif \( n_i \)815187250

Correction Détaillée

1. Le Mode (\( Mo \)) :
C’est la valeur du caractère ayant l’effectif le plus élevé. Ici, l’effectif maximum est 18, correspondant à 2 enfants.

2. La Médiane (\( Me \)) :
L’effectif total est \( N = 50 \) (pair). La médiane se situe entre la 25ème et la 26ème valeur.

Calculons les Effectifs Cumulés Croissants (ECC) :

  • 0 enfant : 8 familles
  • 1 enfant : 8 + 15 = 23 familles
  • 2 enfants : 23 + 18 = 41 familles (Le seuil de 25 est dépassé ici)

La 25ème valeur appartient à la catégorie « 2 ». Donc \( Me = 2 \).

3. La Moyenne (\( \bar{x} \)) :

\begin{align*}
\bar{x} &= \frac{1}{50} \sum n_i x_i \\
\bar{x} &= \frac{(0 \times 8) + (1 \times 15) + (2 \times 18) + (3 \times 7) + (4 \times 2)}{50} \\
\bar{x} &= \frac{80}{50} = \mathbf{1,6 \text{ enfants}}
\end{align*}

4. Variance et Écart-Type :
Utilisons la formule de König-Huygens : \( V(x) = \overline{x^2} – (\bar{x})^2 \).

\begin{align*}
\overline{x^2} &= \frac{(0^2 \times 8) + (1^2 \times 15) + (2^2 \times 18) + (3^2 \times 7) + (4^2 \times 2)}{50} \\
\overline{x^2} &= \frac{0 + 15 + 72 + 63 + 32}{50} = \frac{182}{50} = 3,64 \\
V(x) &= 3,64 – (1,6)^2 = 3,64 – 2,56 = \mathbf{1,08} \\
\sigma &= \sqrt{1,08} \approx \mathbf{1,04}
\end{align*}

Exercice 2 : Variable Continue et Interpolation Linéaire (Niveau Avancé)

Contexte : On étudie le taux de glycémie (en g/l) chez 40 patients. Les données sont regroupées en classes.

Classe de GlycémieCentre de classe \( c_i \)Effectif \( n_i \)Eff. Cumulé \( N_i \)
[0,80 ; 0,90[0,8544
[0,90 ; 1,00[0,951014
[1,00 ; 1,10[1,051630
[1,10 ; 1,20[1,15838
[1,20 ; 1,30[1,25240

Correction Détaillée

1. La Classe Modale :
C’est la classe avec l’effectif le plus élevé (\( n_i = 16 \)).
Mode \(\approx\) Centre de la classe [1,00 ; 1,10[ = 1,05 g/l.
Note : Pour plus de précision, on pourrait utiliser la formule d’interpolation du mode basée sur les écarts avec les classes voisines.

2. Calcul de la Médiane par Interpolation (Question fréquente) :
On cherche la valeur qui divise l’effectif en deux (\( N/2 = 20 \)).
Regardons la colonne des effectifs cumulés \( N_i \) :

  • À 0,90 g/l, nous avons 4 individus.
  • À 1,00 g/l, nous avons 14 individus.
  • À 1,10 g/l, nous avons 30 individus.

La 20ème personne se trouve donc dans la classe médiane [1,00 ; 1,10[.

On applique la formule d’interpolation linéaire :

\[ Me = L_{inf} + \left( \frac{\frac{N}{2} – N_{inf}}{n_{med}} \right) \times a_i \]
  • \( L_{inf} = 1,00 \) (Borne inf)
  • \( N_{inf} = 14 \) (Effectif cumulé précédent)
  • \( n_{med} = 16 \) (Effectif de la classe médiane)
  • \( a_i = 0,10 \) (Amplitude de la classe)
\[ Me = 1,00 + \left( \frac{20 – 14}{16} \right) \times 0,10 \]
\[ Me = 1,00 + \left( \frac{6}{16} \right) \times 0,10 = 1,00 + 0,0375 = \mathbf{1,0375 \text{ g/l}} \]

Attention : Ne calculez jamais la moyenne avec les bornes des classes. Utilisez toujours le centre de classe \( c_i \) (moyenne de la borne inf et sup).

3. Calcul de la Moyenne :

\[ \bar{x} = \frac{\sum n_i c_i}{N} = \frac{(4 \times 0,85) + (10 \times 0,95) + (16 \times 1,05) + (8 \times 1,15) + (2 \times 1,25)}{40} \]
\[ \bar{x} = \frac{3,4 + 9,5 + 16,8 + 9,2 + 2,5}{40} = \frac{41,4}{40} = \mathbf{1,035 \text{ g/l}} \]

On remarque que la moyenne (1,035) et la médiane (1,0375) sont très proches, ce qui indique une distribution presque symétrique.

6. Foire Aux Questions (FAQ)

Quelle est la différence entre statistique descriptive et inférentielle ?

La statistique descriptive se contente de décrire, résumer et représenter graphiquement les données d’un échantillon (passé/présent). La statistique inférentielle utilise ces données pour effectuer des estimations ou des prédictions sur une population plus large, avec une marge d’erreur calculée.

Quand utiliser la moyenne ou la médiane ?

Utilisez la moyenne lorsque la distribution est symétrique et sans valeurs extrêmes (outliers). Préférez la médiane si la série comporte des valeurs aberrantes (ex: salaires), car elle n’est pas influencée par les extrêmes.

Pourquoi divise-t-on parfois la variance par N-1 ?

En statistique purement descriptive, on divise par \( N \) (taille de la population). En statistique inférentielle, lorsqu’on estime la variance d’une population à partir d’un échantillon, on divise par \( n-1 \) pour corriger un biais mathématique. C’est ce qu’on appelle la variance « sans biais ».

Partager