Statistiques inférentielles exercices corrigés

Les statistiques inférentielles constituent le socle de toute démarche scientifique rigoureuse : elles permettent de tirer des conclusions sur une population entière à partir de l’observation d’un échantillon aléatoire. Cette page regroupe des exercices corrigés de statistiques inférentielles progressifs, couvrant l’estimation ponctuelle, les propriétés des estimateurs (sans biais, convergence, efficacité), la construction d’intervalles de confiance pour une moyenne ou une proportion, ainsi que les grands tests d’hypothèses paramétriques — test de Student, test sur une proportion, test du khi-deux d’adéquation et d’indépendance. Chaque exercice est accompagné d’une indication pédagogique et d’un corrigé rédigé étape par étape, avec les formules en LaTeX pour faciliter la compréhension. La progression va du niveau facile au niveau difficile, afin de consolider les bases avant d’aborder des situations complexes rencontrées en licence, en BTS, à l’IUT ou en préparation au CAPES.

Table des Matières

Estimation ponctuelle et propriétés des estimateurs

L’estimation ponctuelle consiste à proposer une valeur unique — appelée estimateur — pour approcher un paramètre inconnu d’une population (moyenne \(\mu\), proportion \(p\), variance \(\sigma^2\)). Un bon estimateur doit être sans biais, convergent et, idéalement, efficace. Les exercices ci-dessous vous entraînent à vérifier ces propriétés et à construire des estimateurs à partir d’un échantillon aléatoire.

Exercice 1 : Estimateur de la moyenne — vérification du caractère sans biais

Facile

Soit \((X_1, X_2, \ldots, X_n)\) un échantillon aléatoire simple de taille \(n\) issu d’une population d’espérance \(\mu\) et de variance \(\sigma^2\) finies. On considère la moyenne empirique \(\bar{X}_n = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} X_i\).

Montrer que \(\bar{X}_n\) est un estimateur sans biais de \(\mu\).
Calculer \(\mathrm{Var}(\bar{X}_n)\) en supposant les observations indépendantes. Qu’observe-t-on lorsque \(n \to +\infty\) ?
On définit également l’estimateur \(T_n = \dfrac{1}{n+1}\displaystyle\sum_{i=1}^{n} X_i\). Cet estimateur est-il sans biais ? Calculer son biais.

Indication

Pour la question 1, utiliser la linéarité de l’espérance. Pour la question 2, exploiter l’indépendance des \(X_i\) pour calculer la variance d’une somme. Pour la question 3, calculer \(\mathbb{E}(T_n) – \mu\).

Voir le corrigé

Solution de la question 1 :

Par linéarité de l’espérance :

\[ \mathbb{E}(\bar{X}_n) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}(X_i) = \frac{1}{n} \cdot n\mu = \mu \]

\(\bar{X}_n\) est donc bien un estimateur sans biais de \(\mu\).

Solution de la question 2 :

Les \(X_i\) étant indépendantes et de même variance \(\sigma^2\) :

\[ \mathrm{Var}(\bar{X}_n) = \frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}(X_i) = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n} \]

Lorsque \(n \to +\infty\), \(\mathrm{Var}(\bar{X}_n) \to 0\) : l’estimateur est convergent (consistent).

Solution de la question 3 :
\[ \mathbb{E}(T_n) = \frac{1}{n+1}\sum_{i=1}^{n}\mathbb{E}(X_i) = \frac{n\mu}{n+1} \]

Le biais est donc :

\[ b(T_n) = \mathbb{E}(T_n) – \mu = \frac{n\mu}{n+1} – \mu = -\frac{\mu}{n+1} \]

\(T_n\) est biaisé, sauf si \(\mu = 0\). Son biais tend vers 0 quand \(n\to+\infty\), ce qui en fait un estimateur asymptotiquement sans biais.

Exercice 2 : Estimateur de la variance — biais de la variance empirique non corrigée

Facile

Soit \((X_1, \ldots, X_n)\) un échantillon i.i.d. d’espérance \(\mu\) et de variance \(\sigma^2\). On définit deux statistiques :

\[ S_n^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i – \bar{X}_n)^2 \quad \text{et} \quad S_n^{*2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_i – \bar{X}_n)^2 \]

Montrer que \(\mathbb{E}(S_n^2) = \dfrac{n-1}{n}\sigma^2\). En déduire que \(S_n^2\) est biaisé.
Vérifier que \(S_n^{*2}\) est un estimateur sans biais de \(\sigma^2\). Pourquoi lui préfère-t-on \(S_n^{*2}\) en pratique ?

Indication

Écrire \((X_i – \bar{X}_n)^2 = \bigl((X_i – \mu) – (\bar{X}_n – \mu)\bigr)^2\) puis développer et prendre l’espérance. Se rappeler que \(\mathrm{Var}(\bar{X}_n) = \sigma^2/n\).

Voir le corrigé

Solution de la question 1 :

On pose \(Y_i = X_i – \mu\). Alors \(\bar{Y}_n = \bar{X}_n – \mu\) et :

\[ \sum_{i=1}^n (X_i – \bar{X}_n)^2 = \sum_{i=1}^n Y_i^2 – n\bar{Y}_n^2 \]

En prenant l’espérance :

\[ \mathbb{E}\!\left[\sum_{i=1}^n Y_i^2\right] = n\sigma^2, \quad \mathbb{E}[n\bar{Y}_n^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2 \]
\[ \therefore \quad \mathbb{E}(S_n^2) = \frac{n\sigma^2 – \sigma^2}{n} = \frac{n-1}{n}\sigma^2 \]

\(S_n^2\) est biaisé (il sous-estime \(\sigma^2\)).

Solution de la question 2 :
\[ \mathbb{E}(S_n^{*2}) = \frac{n}{n-1} \cdot \mathbb{E}(S_n^2) = \frac{n}{n-1} \cdot \frac{n-1}{n}\sigma^2 = \sigma^2 \]

\(S_n^{*2}\) est sans biais. On lui préfère \(S_n^{*2}\) car il fournit une estimation corrigée, particulièrement importante pour de petits échantillons où le biais de \(S_n^2\) est significatif.

Exercice 3 : Maximum de vraisemblance pour une loi exponentielle

Moyen

On observe un échantillon \((x_1, x_2, \ldots, x_n)\) de réalisations indépendantes d’une loi exponentielle de paramètre \(\lambda > 0\), dont la densité est :

\[ f(x;\lambda) = \lambda e^{-\lambda x} \mathbf{1}_{x \geq 0} \]

Écrire la fonction de vraisemblance \(L(\lambda)\) et la log-vraisemblance \(\ell(\lambda)\).
Déterminer l’estimateur du maximum de vraisemblance \(\hat{\lambda}_n\) de \(\lambda\).
Montrer que \(\hat{\lambda}_n\) est sans biais. Est-il convergent ?

Indication

La log-vraisemblance est plus facile à maximiser que la vraisemblance. Dériver \(\ell(\lambda)\) par rapport à \(\lambda\) et annuler. Se rappeler que l’espérance d’une loi exponentielle de paramètre \(\lambda\) vaut \(1/\lambda\).

Voir le corrigé

Solution de la question 1 :
\[ L(\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n \exp\!\left(-\lambda \sum_{i=1}^n x_i\right) \]
\[ \ell(\lambda) = n\ln\lambda – \lambda\sum_{i=1}^n x_i \]
Solution de la question 2 :

On dérive et on annule :

\[ \frac{d\ell}{d\lambda} = \frac{n}{\lambda} – \sum_{i=1}^n x_i = 0 \implies \hat{\lambda}_n = \frac{n}{\displaystyle\sum_{i=1}^n x_i} = \frac{1}{\bar{x}_n} \]

La dérivée seconde \(-n/\lambda^2 < 0\) confirme qu'il s'agit bien d'un maximum.

Solution de la question 3 :

Puisque \(\mathbb{E}(X_i) = 1/\lambda\), par la loi des grands nombres \(\bar{X}_n \xrightarrow{P} 1/\lambda\), donc \(\hat{\lambda}_n \xrightarrow{P} \lambda\) : l’estimateur est convergent. Cependant, \(\mathbb{E}(\hat{\lambda}_n) = \dfrac{n}{n-1}\lambda\) (résultat classique pour la loi exponentielle), donc il est légèrement biaisé à distance finie, mais asymptotiquement sans biais.

Intervalles de confiance pour une moyenne

Un intervalle de confiance au niveau \(1-\alpha\) est un intervalle aléatoire qui contient le paramètre inconnu avec la probabilité \(1-\alpha\). La construction repose sur la connaissance de la loi de l’estimateur : loi normale si \(n\) est grand (théorème central limite), ou loi de Student à \(n-1\) degrés de liberté si la population est gaussienne et la variance inconnue. Les exercices suivants couvrent les deux situations, de la formule de base à la détermination de la taille d’échantillon minimale.

Exercice 4 : Intervalle de confiance pour la moyenne — variance connue

Facile

Un service de livraison enregistre les délais de traitement (en heures) d’un grand nombre de commandes. On sait, d’après une longue étude historique, que l’écart-type est \(\sigma = 3{,}2\) heures. On prélève un échantillon de \(n = 64\) commandes et on obtient une moyenne empirique \(\bar{x} = 14{,}5\) heures.

Construire un intervalle de confiance bilatéral de niveau \(95\,\%\) pour la moyenne \(\mu\) du délai de traitement. On rappelle que \(u_{0{,}025} = 1{,}96\).
Le responsable affirme que le délai moyen est de 15 heures. Cette affirmation est-elle compatible avec l’intervalle obtenu ?
Quelle taille d’échantillon faudrait-il pour que la demi-largeur de l’intervalle de confiance à \(95\,\%\) soit inférieure à \(0{,}5\) heure ?

Indication

Comme \(n \geq 30\) et \(\sigma\) est connu, la variable pivotale est \(Z = \dfrac{\bar{X}_n – \mu}{\sigma/\sqrt{n}} \sim \mathcal{N}(0,1)\). La demi-largeur vaut \(u_{\alpha/2}\,\sigma/\sqrt{n}\).

Voir le corrigé

Solution de la question 1 :

La demi-largeur est :

\[ e = u_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}} = 1{,}96 \times \frac{3{,}2}{\sqrt{64}} = 1{,}96 \times 0{,}4 = 0{,}784 \]

L’intervalle de confiance à \(95\,\%\) est :

\[ IC_{95\%}(\mu) = \left[\bar{x} – e \;;\; \bar{x} + e\right] = \left[14{,}5 – 0{,}784 \;;\; 14{,}5 + 0{,}784\right] = \left[13{,}716 \;;\; 15{,}284\right] \]
Solution de la question 2 :

La valeur \(15\) appartient à l’intervalle \(\left[13{,}716 \;;\; 15{,}284\right]\). L’affirmation du responsable est donc compatible avec les données à un seuil de \(5\,\%\).

Solution de la question 3 :

On cherche \(n\) tel que \(e < 0{,}5\) :

\[ 1{,}96 \times \frac{3{,}2}{\sqrt{n}} < 0{,}5 \implies \sqrt{n} > \frac{1{,}96 \times 3{,}2}{0{,}5} = 12{,}544 \implies n > 157{,}35 \]

Il faut donc un échantillon d’au moins \(n = 158\) commandes.

Exercice 5 : Intervalle de confiance pour la moyenne — variance inconnue, loi de Student

Moyen

Un pharmacien mesure la concentration (en mg/L) d’un principe actif dans 12 flacons prélevés aléatoirement dans une production. Il obtient :

\[ \bar{x} = 48{,}3 \;\text{mg/L}, \quad s^* = 2{,}1 \;\text{mg/L} \quad (s^* \text{ : écart-type corrigé}) \]

On suppose que la concentration suit une loi normale dans la population.

Justifier l’utilisation de la loi de Student plutôt que de la loi normale centrée réduite.
Construire un intervalle de confiance bilatéral de niveau \(95\,\%\) pour la concentration moyenne \(\mu\). On rappelle que \(t_{11;\,0{,}025} = 2{,}201\).
La norme impose une concentration comprise entre \(45\) et \(52\) mg/L. L’intervalle obtenu est-il entièrement dans cette plage ? Que peut-on conclure ?

Indication

Lorsque \(\sigma\) est inconnu et \(n\) est petit, la variable pivotale \(T = \dfrac{\bar{X}_n – \mu}{S^*/\sqrt{n}}\) suit une loi de Student à \(n-1\) degrés de liberté. Ici \(n = 12\), donc \(\nu = 11\).

Voir le corrigé

Solution de la question 1 :

L’écart-type de la population \(\sigma\) est inconnu et l’échantillon est de petite taille (\(n = 12 < 30\)). On ne peut pas invoquer le théorème central limite pour utiliser la loi normale. Sous l'hypothèse de normalité de la population, la statistique \(T = \dfrac{\bar{X}_n - \mu}{S^*/\sqrt{n}}\) suit exactement une loi de Student à \(n-1 = 11\) degrés de liberté.

Solution de la question 2 :

La demi-largeur est :

\[ e = t_{11;\,0{,}025} \times \frac{s^*}{\sqrt{n}} = 2{,}201 \times \frac{2{,}1}{\sqrt{12}} = 2{,}201 \times 0{,}6062 \approx 1{,}334 \]
\[ IC_{95\%}(\mu) = \left[48{,}3 – 1{,}334 \;;\; 48{,}3 + 1{,}334\right] = \left[46{,}97 \;;\; 49{,}63\right] \;\text{mg/L} \]
Solution de la question 3 :

L’intervalle \(\left[46{,}97 \;;\; 49{,}63\right]\) est entièrement inclus dans la plage normative \(\left[45 \;;\; 52\right]\). On peut donc conclure, avec un niveau de confiance de \(95\,\%\), que la concentration moyenne \(\mu\) respecte les exigences de la norme.

Exercice 6 : Comparaison de deux moyennes indépendantes

Difficile

Un chercheur compare le temps de réaction (en millisecondes) de deux groupes de sujets soumis à des conditions différentes. Les données sont :

Groupe	Taille \(n\)	Moyenne \(\bar{x}\)	Écart-type corrigé \(s^*\)
A (contrôle)	20	310 ms	28 ms
B (traitement)	18	285 ms	31 ms

On suppose les temps de réaction normalement distribués dans chaque groupe et on admet l’égalité des variances des deux populations.

Calculer la variance poolée \(S_p^2\).
Construire un intervalle de confiance bilatéral à \(95\,\%\) pour la différence des moyennes \(\mu_A – \mu_B\). On utilisera \(t_{36;\,0{,}025} \approx 2{,}028\).
Peut-on conclure à une différence significative entre les deux groupes ?

Indication

La variance poolée combine les deux variances échantillonnales pondérées par leurs degrés de liberté respectifs : \(S_p^2 = \dfrac{(n_A-1)s_A^{*2} + (n_B-1)s_B^{*2}}{n_A+n_B-2}\). La statistique pivotale suit une loi de Student à \(n_A+n_B-2\) degrés de liberté.

Voir le corrigé

Solution de la question 1 :
\[ S_p^2 = \frac{(n_A-1)s_A^{*2}+(n_B-1)s_B^{*2}}{n_A+n_B-2} = \frac{19\times 784 + 17\times 961}{36} = \frac{14\,896 + 16\,337}{36} = \frac{31\,233}{36} \approx 867{,}6 \;\text{ms}^2 \]

Soit \(S_p \approx 29{,}45\) ms.

Solution de la question 2 :

L’erreur standard de la différence des moyennes est :

\[ \mathrm{SE} = S_p\sqrt{\frac{1}{n_A}+\frac{1}{n_B}} = 29{,}45\sqrt{\frac{1}{20}+\frac{1}{18}} = 29{,}45\sqrt{0{,}1056} \approx 29{,}45 \times 0{,}3249 \approx 9{,}57 \;\text{ms} \]

L’intervalle de confiance à \(95\,\%\) pour \(\mu_A – \mu_B\) est :

\[ IC_{95\%}(\mu_A-\mu_B) = \left[(\bar{x}_A-\bar{x}_B) \pm t_{36;\,0{,}025}\times\mathrm{SE}\right] = \left[25 \pm 2{,}028\times9{,}57\right] = \left[25 \pm 19{,}41\right] \]
\[ IC_{95\%}(\mu_A-\mu_B) = \left[5{,}59 \;;\; 44{,}41\right] \;\text{ms} \]
Solution de la question 3 :

L’intervalle \(\left[5{,}59 \;;\; 44{,}41\right]\) ne contient pas la valeur \(0\). On peut donc conclure, au seuil de \(5\,\%\), qu’il existe une différence significative entre les temps de réaction moyens des deux groupes : le groupe traitement (B) réagit significativement plus vite que le groupe contrôle (A).

Intervalles de confiance pour une proportion

Estimer une proportion inconnue \(p\) dans une population est l’une des applications les plus fréquentes de la statistique inférentielle : sondages d’opinion, contrôle qualité, épidémiologie. La méthode repose sur l’approximation normale de la loi binomiale via le théorème central limite, valable dès que \(n\hat{p} \geq 5\) et \(n(1-\hat{p}) \geq 5\). Les exercices ci-dessous traitent la construction de l’intervalle, la détermination de la taille d’échantillon et la comparaison de deux proportions.

Exercice 7 : Intervalle de confiance pour une proportion — sondage d’opinion

Facile

Lors d’un sondage réalisé auprès de \(n = 400\) personnes, \(220\) déclarent être favorables à une mesure environnementale.

Calculer la fréquence observée \(\hat{p}\) et vérifier les conditions d’application de l’approximation normale.
Construire un intervalle de confiance au niveau \(95\,\%\) pour la proportion \(p\) dans la population. On rappelle \(u_{0{,}025} = 1{,}96\).
Peut-on affirmer, au seuil de \(5\,\%\), que la majorité (plus de \(50\,\%\)) est favorable à cette mesure ?

Indication

L’intervalle de confiance pour une proportion est centré en \(\hat{p}\) avec demi-largeur \(u_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\). Pour conclure sur la majorité, vérifier si la borne inférieure de l’IC est strictement supérieure à \(0{,}5\).

Voir le corrigé

Solution de la question 1 :
\[ \hat{p} = \frac{220}{400} = 0{,}55 \]

Vérification des conditions : \(n\hat{p} = 220 \geq 5\) et \(n(1-\hat{p}) = 180 \geq 5\). Les conditions sont satisfaites.

Solution de la question 2 :
\[ e = 1{,}96\sqrt{\frac{0{,}55 \times 0{,}45}{400}} = 1{,}96\sqrt{\frac{0{,}2475}{400}} = 1{,}96 \times 0{,}02488 \approx 0{,}0488 \]
\[ IC_{95\%}(p) = \left[0{,}55 – 0{,}049 \;;\; 0{,}55 + 0{,}049\right] = \left[0{,}501 \;;\; 0{,}599\right] \]
Solution de la question 3 :

La borne inférieure de l’intervalle est \(0{,}501 > 0{,}5\). On peut donc conclure, au seuil de \(5\,\%\), que la proportion de personnes favorables est significativement supérieure à \(50\,\%\), c’est-à-dire que la majorité est favorable.

Exercice 8 : Taille d’échantillon pour un intervalle de confiance sur une proportion

Moyen

Un directeur qualité souhaite estimer la proportion \(p\) de pièces défectueuses dans la production d’une usine. Il veut que son intervalle de confiance à \(95\,\%\) ait une demi-largeur inférieure à \(0{,}03\) (soit \(3\) points de pourcentage).

Sans hypothèse préalable sur \(p\), quelle taille d’échantillon minimale doit-il prélever ?
Un technicien estime que \(p\) ne dépasse pas \(10\,\%\). Quelle taille d’échantillon suffit dans ce cas ?
Comparer les deux résultats et commenter.

Indication

La demi-largeur est \(e = u_{\alpha/2}\sqrt{p(1-p)/n}\). Pour la majorer sans connaître \(p\), utiliser le fait que \(p(1-p) \leq 1/4\) pour tout \(p \in [0,1]\), avec le maximum atteint en \(p = 1/2\).

Voir le corrigé

Solution de la question 1 :

On majore \(p(1-p) \leq \frac{1}{4}\) et on impose \(e \leq 0{,}03\) :

\[ 1{,}96\sqrt{\frac{1/4}{n}} \leq 0{,}03 \implies \sqrt{n} \geq \frac{1{,}96}{2 \times 0{,}03} = \frac{1{,}96}{0{,}06} \approx 32{,}67 \implies n \geq 32{,}67^2 \approx 1\,067{,}1 \]

Il faut donc au moins \(n = \mathbf{1\,068}\) pièces.

Solution de la question 2 :

Avec \(p \leq 0{,}1\), la valeur de \(p(1-p)\) est maximale en \(p = 0{,}1\) : \(0{,}1 \times 0{,}9 = 0{,}09\).

\[ 1{,}96\sqrt{\frac{0{,}09}{n}} \leq 0{,}03 \implies \sqrt{n} \geq \frac{1{,}96 \times 0{,}3}{0{,}03} = 19{,}6 \implies n \geq 384{,}16 \]

Il suffit de \(n = \mathbf{385}\) pièces.

Solution de la question 3 :

L’utilisation d’une information préalable sur \(p\) réduit considérablement la taille nécessaire : de \(1\,068\) à seulement \(385\) échantillons, soit une réduction de \(64\,\%\). En pratique, si une estimation grossière de \(p\) est disponible (essai pilote, données historiques), il est toujours préférable de l’exploiter pour optimiser le coût de l’étude.

Tests d’hypothèses paramétriques

Un test d’hypothèse est une procédure décisionnelle permettant de choisir entre deux hypothèses statistiques — l’hypothèse nulle \(H_0\) et l’hypothèse alternative \(H_1\) — à partir des données d’un échantillon. On distingue le risque de première espèce \(\alpha\) (rejeter \(H_0\) à tort) et le risque de deuxième espèce \(\beta\) (accepter \(H_0\) à tort). Les exercices suivants couvrent les tests sur une moyenne (loi normale et Student), les tests sur une proportion, ainsi que le calcul de la p-valeur.

Exercice 9 : Test unilatéral sur une moyenne — loi normale, variance connue

Facile

Un fabricant prétend que la durée de vie moyenne de ses ampoules LED est de \(\mu_0 = 15\,000\) heures, avec un écart-type connu de \(\sigma = 600\) heures. Un laboratoire indépendant teste \(n = 36\) ampoules et mesure une durée de vie moyenne de \(\bar{x} = 14\,780\) heures.

Formuler les hypothèses \(H_0\) et \(H_1\) pour tester si la durée de vie est inférieure à ce qu’annonce le fabricant (test unilatéral gauche, seuil \(\alpha = 5\,\%\)).
Calculer la statistique de test \(Z_{\mathrm{obs}}\) et prendre la décision. On rappelle que \(u_{0{,}05} = 1{,}645\).
Calculer la p-valeur et interpréter.

Indication

Sous \(H_0\), la statistique \(Z = \dfrac{\bar{X}_n – \mu_0}{\sigma/\sqrt{n}}\) suit \(\mathcal{N}(0,1)\). Pour un test unilatéral gauche, on rejette \(H_0\) si \(Z_{\mathrm{obs}} < -u_\alpha\). La p-valeur est \(P(Z \leq Z_{\mathrm{obs}})\) sous \(H_0\).

Voir le corrigé

Solution de la question 1 :
\[ H_0 : \mu = 15\,000 \quad \text{contre} \quad H_1 : \mu < 15\,000 \] Solution de la question 2 :
\[ Z_{\mathrm{obs}} = \frac{\bar{x} – \mu_0}{\sigma/\sqrt{n}} = \frac{14\,780 – 15\,000}{600/\sqrt{36}} = \frac{-220}{100} = -2{,}20 \]

La zone de rejet est \(\left]-\infty \;;\; -1{,}645\right[\). Comme \(Z_{\mathrm{obs}} = -2{,}20 < -1{,}645\), on rejette \(H_0\) au seuil de \(5\,\%\). Les données indiquent que la durée de vie réelle est significativement inférieure à \(15\,000\) heures.

Solution de la question 3 :
\[ \text{p-valeur} = P(Z \leq -2{,}20) = \Phi(-2{,}20) \approx 0{,}0139 \]

La p-valeur est \(\approx 1{,}39\,\%\), bien inférieure au seuil \(\alpha = 5\,\%\). Cela confirme le rejet de \(H_0\) et indique que si la durée de vie était vraiment de \(15\,000\) heures, on n’observerait une telle valeur (ou plus extrême) que dans \(1{,}39\,\%\) des cas.

Exercice 10 : Test bilatéral sur une moyenne — loi de Student

Moyen

Un nutritionniste souhaite vérifier si un régime alimentaire particulier modifie le taux de cholestérol (en mmol/L) par rapport à la norme de \(\mu_0 = 5{,}2\) mmol/L. Il suit \(n = 15\) patients et relève, après le régime :

\[ \bar{x} = 4{,}9 \;\text{mmol/L}, \quad s^* = 0{,}7 \;\text{mmol/L} \]

On suppose la distribution du taux de cholestérol normale dans la population. On utilise un seuil \(\alpha = 5\,\%\).

Formuler \(H_0\) et \(H_1\) pour un test bilatéral.
Calculer la statistique de Student \(T_{\mathrm{obs}}\) et conclure. On rappelle que \(t_{14;\,0{,}025} = 2{,}145\).
Quel est le lien entre ce test et l’intervalle de confiance construit à partir des mêmes données ?

Indication

Sous \(H_0\), la statistique \(T = \dfrac{\bar{X}_n – \mu_0}{S^*/\sqrt{n}}\) suit une loi de Student à \(n-1 = 14\) degrés de liberté. Pour le lien avec l’IC, rappeler que \(H_0\) est rejetée si et seulement si \(\mu_0\) n’appartient pas à l’IC au même niveau.

Voir le corrigé

Solution de la question 1 :
\[ H_0 : \mu = 5{,}2 \quad \text{contre} \quad H_1 : \mu \neq 5{,}2 \]
Solution de la question 2 :
\[ T_{\mathrm{obs}} = \frac{4{,}9 – 5{,}2}{0{,}7/\sqrt{15}} = \frac{-0{,}3}{0{,}1807} \approx -1{,}660 \]

La zone de rejet bilatérale est \(\left]-\infty \;;\; -2{,}145\right[ \cup \left]2{,}145 \;;\; +\infty\right[\). Comme \(|T_{\mathrm{obs}}| = 1{,}660 < 2{,}145\), on ne rejette pas \(H_0\) au seuil de \(5\,\%\). On ne peut pas conclure à une modification significative du taux de cholestérol.

Solution de la question 3 :

L’intervalle de confiance bilatéral à \(95\,\%\) pour \(\mu\) est :

\[ IC_{95\%}(\mu) = \left[4{,}9 – 2{,}145\times\frac{0{,}7}{\sqrt{15}} \;;\; 4{,}9 + 2{,}145\times\frac{0{,}7}{\sqrt{15}}\right] = \left[4{,}513 \;;\; 5{,}287\right] \]

La valeur \(\mu_0 = 5{,}2\) appartient à \(\left[4{,}513 \;;\; 5{,}287\right]\), ce qui est équivalent à ne pas rejeter \(H_0\). Il y a une dualité parfaite entre le test et l’intervalle de confiance au même niveau.

Test du khi-deux : adéquation et indépendance

Le test du khi-deux (\(\chi^2\)) est un outil non paramétrique polyvalent. Il sert, d’une part, à tester l’adéquation d’un échantillon à une loi théorique (loi uniforme, loi de Poisson, loi normale…) et, d’autre part, à tester l’indépendance entre deux variables qualitatives observées dans un tableau de contingence. La condition d’application — effectifs théoriques tous supérieurs ou égaux à 5 — doit toujours être vérifiée avant de conclure.

Exercice 11 : Test d’adéquation à une loi uniforme — dé équilibré

Facile

On lance un dé à six faces \(N = 300\) fois et on observe les fréquences suivantes :

Face	1	2	3	4	5	6
Effectif observé \(n_i\)	58	42	55	47	53	45

Calculer les effectifs théoriques sous l’hypothèse que le dé est équilibré.
Calculer la statistique de test \(\chi^2_{\mathrm{obs}}\).
Conclure au seuil \(\alpha = 5\,\%\). On rappelle que \(\chi^2_{5;\,0{,}05} = 11{,}07\).

Indication

Sous l’hypothèse nulle d’équilibre, chaque face a la probabilité \(1/6\). L’effectif théorique pour chaque face est \(e_i = N/6\). La statistique de test est \(\chi^2_{\mathrm{obs}} = \sum_{i=1}^{6}\dfrac{(n_i – e_i)^2}{e_i}\) et suit asymptotiquement un \(\chi^2\) à \(6-1 = 5\) degrés de liberté.

Voir le corrigé

Solution de la question 1 :
\[ e_i = \frac{300}{6} = 50 \quad \text{pour chaque face} \]

Tous les effectifs théoriques valent \(50 \geq 5\) : la condition d’application est satisfaite.

Solution de la question 2 :
\[ \chi^2_{\mathrm{obs}} = \frac{(58-50)^2}{50}+\frac{(42-50)^2}{50}+\frac{(55-50)^2}{50}+\frac{(47-50)^2}{50}+\frac{(53-50)^2}{50}+\frac{(45-50)^2}{50} \]
\[ = \frac{64+64+25+9+9+25}{50} = \frac{196}{50} = 3{,}92 \]
Solution de la question 3 :

Comme \(\chi^2_{\mathrm{obs}} = 3{,}92 < \chi^2_{5;\,0{,}05} = 11{,}07\), on ne rejette pas \(H_0\). Les données sont compatibles avec l’hypothèse que le dé est équilibré, au seuil de \(5\,\%\).

Exercice 12 : Test d’indépendance par tableau de contingence

Moyen

Une enquête portant sur \(350\) salariés croise leur niveau de formation et leur satisfaction au travail. Le tableau de contingence est le suivant :

	Satisfait	Neutre	Insatisfait	Total
Bac ou moins	60	30	50	140
Bac+2 à Bac+3	80	25	35	140
Bac+4 et plus	50	10	10	70
Total	190	65	95	350

Calculer les effectifs théoriques sous l’hypothèse d’indépendance entre formation et satisfaction.
Calculer la statistique \(\chi^2_{\mathrm{obs}}\) et conclure au seuil \(\alpha = 5\,\%\). On rappelle que \(\chi^2_{4;\,0{,}05} = 9{,}49\).
Quel est le nombre de degrés de liberté, et comment est-il déterminé pour un tableau de contingence \(r \times c\) ?

Indication

L’effectif théorique de la cellule \((i,j)\) est \(e_{ij} = \dfrac{(\text{total ligne } i) \times (\text{total colonne } j)}{N}\). Le nombre de degrés de liberté est \((r-1)(c-1)\), ici \((3-1)(3-1) = 4\).

Voir le corrigé

Solution de la question 1 :

Effectifs théoriques \(e_{ij} = \dfrac{n_{i\cdot} \times n_{\cdot j}}{N}\) :

	Satisfait	Neutre	Insatisfait
Bac ou moins	\(\frac{140\times190}{350}=76\)	\(\frac{140\times65}{350}=26\)	\(\frac{140\times95}{350}=38\)
Bac+2 à Bac+3	\(\frac{140\times190}{350}=76\)	\(\frac{140\times65}{350}=26\)	\(\frac{140\times95}{350}=38\)
Bac+4 et plus	\(\frac{70\times190}{350}=38\)	\(\frac{70\times65}{350}=13\)	\(\frac{70\times95}{350}=19\)

Tous les effectifs théoriques sont \(\geq 5\) : la condition d’application est respectée.

Solution de la question 2 :
\[ \chi^2_{\mathrm{obs}} = \frac{(60-76)^2}{76}+\frac{(30-26)^2}{26}+\frac{(50-38)^2}{38}+\frac{(80-76)^2}{76}+\frac{(25-26)^2}{26}+\frac{(35-38)^2}{38} \]
\[ +\frac{(50-38)^2}{38}+\frac{(10-13)^2}{13}+\frac{(10-19)^2}{19} \]
\[ = \frac{256}{76}+\frac{16}{26}+\frac{144}{38}+\frac{16}{76}+\frac{1}{26}+\frac{9}{38}+\frac{144}{38}+\frac{9}{13}+\frac{81}{19} \]
\[ \approx 3{,}368+0{,}615+3{,}789+0{,}211+0{,}038+0{,}237+3{,}789+0{,}692+4{,}263 \approx 17{,}00 \]

Comme \(\chi^2_{\mathrm{obs}} \approx 17{,}00 > \chi^2_{4;\,0{,}05} = 9{,}49\), on rejette \(H_0\) au seuil de \(5\,\%\). Il existe une liaison significative entre le niveau de formation et la satisfaction au travail.

Solution de la question 3 :

Pour un tableau \(r \times c\), le nombre de degrés de liberté est \((r-1)(c-1)\). Ici \(r = 3\) lignes et \(c = 3\) colonnes, donc \(\nu = 2 \times 2 = 4\). Ce résultat traduit le nombre de cellules libres une fois que les marges (totaux lignes et colonnes) sont fixées.

Théorème central limite et convergence des estimateurs

Le théorème central limite (TCL) est le résultat fondamental qui justifie l’approximation normale utilisée dans la quasi-totalité des tests et intervalles de confiance. Il énonce que, sous des conditions très générales, la moyenne d’un grand nombre d’observations indépendantes et identiquement distribuées tend vers une loi normale, quelle que soit la loi mère. Les exercices suivants permettent d’appliquer ce résultat à des situations concrètes et d’en comprendre les conditions d’utilisation.

Exercice 13 : Application directe du théorème central limite

Facile

Le temps de service (en minutes) d’un client dans un guichet bancaire suit une loi d’espérance \(\mu = 4\) min et d’écart-type \(\sigma = 1{,}5\) min (loi non précisée). On observe un échantillon de \(n = 100\) clients.

D’après le théorème central limite, quelle est la loi approchée de la moyenne empirique \(\bar{X}_{100}\) ?
Calculer \(P(\bar{X}_{100} > 4{,}25)\) grâce à cette approximation.
Calculer \(P(3{,}8 \leq \bar{X}_{100} \leq 4{,}2)\).

Indication

Par le TCL, \(\bar{X}_n \approx \mathcal{N}\!\left(\mu, \sigma^2/n\right)\). Standardiser en posant \(Z = \dfrac{\bar{X}_n – \mu}{\sigma/\sqrt{n}}\) pour utiliser la table de la loi normale centrée réduite.

Voir le corrigé

Solution de la question 1 :

Par le TCL (avec \(n=100 \geq 30\)) :

\[ \bar{X}_{100} \approx \mathcal{N}\!\left(\mu,\,\frac{\sigma^2}{n}\right) = \mathcal{N}\!\left(4,\,\frac{1{,}5^2}{100}\right) = \mathcal{N}(4,\;0{,}0225) \]

L’écart-type de \(\bar{X}_{100}\) est \(\sigma/\sqrt{n} = 1{,}5/10 = 0{,}15\) min.

Solution de la question 2 :
\[ P(\bar{X}_{100} > 4{,}25) = P\!\left(Z > \frac{4{,}25-4}{0{,}15}\right) = P(Z > 1{,}667) = 1 – \Phi(1{,}667) \approx 1 – 0{,}9525 = 0{,}0475 \]
Solution de la question 3 :
\[ P(3{,}8 \leq \bar{X}_{100} \leq 4{,}2) = P\!\left(\frac{3{,}8-4}{0{,}15} \leq Z \leq \frac{4{,}2-4}{0{,}15}\right) = P(-1{,}333 \leq Z \leq 1{,}333) \]
\[ = 2\Phi(1{,}333) – 1 \approx 2 \times 0{,}9088 – 1 = 0{,}8176 \]

Il y a environ \(81{,}8\,\%\) de chances que la moyenne d’un échantillon de 100 clients soit comprise entre \(3{,}8\) et \(4{,}2\) minutes.

Exercice 14 : Approximation de la loi binomiale par la loi normale et intervalle de confiance

Difficile

Une chaîne de production génère des pièces dont la probabilité de défaut est \(p = 0{,}08\). On prélève un lot de \(n = 500\) pièces et on note \(X\) le nombre de pièces défectueuses dans ce lot.

Vérifier que l’approximation normale de la loi binomiale est justifiée. Donner la loi approchée de \(X\).
Calculer \(P(30 \leq X \leq 50)\) grâce à l’approximation normale (avec correction de continuité).
En supposant que le lot observé donne \(\hat{p} = 46/500 = 0{,}092\), construire un intervalle de confiance asymptotique à \(99\,\%\) pour \(p\). On rappelle que \(u_{0{,}005} = 2{,}576\).

Indication

La correction de continuité remplace \(P(a \leq X \leq b)\) par \(P(a – 0{,}5 \leq X \leq b + 0{,}5)\) pour une variable entière approchée par une variable continue. Pour l’IC à \(99\,\%\), utiliser \(u_{0{,}005} = 2{,}576\).

Voir le corrigé

Solution de la question 1 :

\(X \sim \mathcal{B}(500, 0{,}08)\). Conditions : \(np = 40 \geq 5\) et \(n(1-p) = 460 \geq 5\). ✓

\[ X \approx \mathcal{N}(np,\, np(1-p)) = \mathcal{N}(40,\, 36{,}8) \quad\Rightarrow\quad \sigma_X = \sqrt{36{,}8} \approx 6{,}066 \]
Solution de la question 2 :

Avec correction de continuité :

\[ P(30 \leq X \leq 50) \approx P(29{,}5 \leq X \leq 50{,}5) = P\!\left(\frac{29{,}5-40}{6{,}066} \leq Z \leq \frac{50{,}5-40}{6{,}066}\right) \]
\[ = P(-1{,}731 \leq Z \leq 1{,}731) = 2\Phi(1{,}731) – 1 \approx 2\times 0{,}9583 – 1 = 0{,}9166 \]
Solution de la question 3 :
\[ e = 2{,}576\sqrt{\frac{0{,}092\times0{,}908}{500}} = 2{,}576\sqrt{\frac{0{,}083536}{500}} = 2{,}576\times 0{,}01293 \approx 0{,}0333 \]
\[ IC_{99\%}(p) = \left[0{,}092 – 0{,}033 \;;\; 0{,}092 + 0{,}033\right] = \left[0{,}059 \;;\; 0{,}125\right] \]

On estime, avec un niveau de confiance de \(99\,\%\), que la proportion réelle de pièces défectueuses se situe entre \(5{,}9\,\%\) et \(12{,}5\,\%\). La valeur nominale \(p_0 = 8\,\%\) appartient à cet intervalle : aucune dérive significative n’est détectée au seuil de \(1\,\%\).