Cours estimation de parametres statistique
Cours estimation de paramètres statistique
ESTIMATION DE PARAMÈTRES
INTRODUCTION
Estimer ne coûte presque rien,
Estimer incorrectement coûte cher.
Vieux proverbe chinois.
Dans de nombreux domaines (scientifiques, économiques, épidémiologiques...), on a besoin de connaître certaines caractéristiques d’une population. Mais, en règle générale, on ne peut pas les évaluer facilement du fait de l’effectif trop important des populations concernées. La solution consiste alors à estimer le paramètre cherché à partir de celui observé sur un échantillon plus petit.
L’idée de décrire une population à partir d’un échantillon réduit, à l’aide d’un « multiplicateur », n’a été imaginée que dans la seconde moitié du XVIIIème siècle, notamment par l’école arithmétique politique anglaise. Elle engendra une véritable révolution : l’observation d’échantillons permettait d’éviter des recensements d’une lourdeur et d’un prix exorbitants. Toutefois, on s’aperçut rapidement que les résultats manquaient d’exactitude. Nous savons maintenant pourquoi : on ne prenait en considération ni la représentativité de l’échantillon, ni les fluctuations d’échantillonnage. C’est là que le hasard intervient.
La première précaution à prendre est donc d’obtenir un échantillon représentatif. Nous pourrons en obtenir un par tirage au sort (voir le chapitre précédent sur l’échantillonnage aléatoire simple) : le hasard participe donc au travail du statisticien qui l’utilise pour pouvoir le maîtriser !
Mais , même tiré au sort, un échantillon n’est pas l’image exacte de la population, en raison des fluctuations d’échantillonnage. Lorsque, par exemple, on tire au sort des échantillons dans un urne contenant 20 % de boules blanches, on obtient des échantillons où la proportion de boules blanches fluctue autour de 20%. Ces fluctuations sont imprévisibles : le hasard peut produire n’importe quel écart par rapport à la proportion de la population (20%). Cependant, on s’en doute, tous les écarts ne sont pas également vraisemblables : les très grands écarts sont très peu probables. Au moyen du calcul des probabilités, le statisticien définit un intervalle autour du taux observé, intervalle qui contient probablement le vrai taux : c’est « l’intervalle de confiance » ou, plus couramment, la « fourchette ».
Si l’on ne peut connaître le vrai taux par échantillonnage, peut-on au moins le situer avec certitude dans la fourchette ? Non. Le hasard étant capable de tous les caprices, on ne peut raisonner qu’en termes de probabilités, et la fourchette n’a de signification qu’assortie d’un certain risque d’erreur. On adopte souvent un risque de 5% : cinq fois sur cent, le taux mesuré sur l’échantillon n’est pas le bon, le vrai taux étant en dehors de la fourchette. On peut diminuer le risque d’erreur mais alors la fourchette grandit et perd de son intérêt. Bien entendu, il existe une infinité de fourchettes, une pour chaque risque d’erreur adopté. On doit trouver un compromis entre le risque acceptable et le souci de précision.
Exemple :
Mesure du taux de séropositifs pour le sida dans une population. On a observé 25 séropositifs sur un échantillon de 5000 sujets, soit un taux de 5°/00. Ce taux observé n’a de signification qu’assorti d’une fourchette : le risque que le vrai taux sorte d’une fourchette comprise entre 3°/00 et 7°/00 est acceptable (figure du haut). On peut diminuer ce risque, mais alors la fourchette est plus large, et devient moins intéressante (figure du bas).
Dans ce cours, nous allons apprendre à estimer à l’aide d’un échantillon :
- Dans le cas d’un caractère quantitatif la moyenne m et l’écart-type σpop d’une population.
- Dans le cas d’un caractère qualitatif, la proportion p de la population.
Ces estimations peuvent s’exprimer par une seule valeur (estimation ponctuelle), soit par un intervalle (estimation par intervalle de confiance). Bien sûr, comme l’échantillon ne donne qu’une information partielle, ces estimations seront accompagnées d’une certaine marge d’erreur.
L’ESTIMATION PONCTUELLE
2.1. DEFINITION
Estimer un paramètre, c’est en chercher une valeur approchée en se basant sur les résultats obtenus dans un échantillon. Lorsqu’un paramètre est estimé par un seul nombre, déduit des résultats de l’échantillon, ce nombre est appelé estimation ponctuelle du paramètre.
L’estimation ponctuelle se fait à l’aide d’un estimateur, qui est une variable aléatoire d’échantillon. L’estimation est la valeur que prend la variable aléatoire dans l’échantillon observé.
2.2. PROPRIETES DES ESTIMATEURS PONCTUELS
Lorsqu’on utilise fréquemment des estimateurs ponctuels on souhaite qu’ils possèdent certaines propriétés. Ces propriétés sont importantes pour choisir le meilleur estimateur du paramètre correspondant, c’est-à-dire celui qui s’approche le plus possible du paramètre à estimer. Un paramètre inconnu peut avoir plusieurs estimateurs. Par exemple, pour estimer le paramètre m, moyenne d’une population, on pourrait se servir de la moyenne arithmétique, de la médiane ou du mode.
Les qualités que doit posséder un estimateur pour fournir de bonnes estimations sont décrites ci-après.
On notera : → θ le paramètre de valeur inconnue,
$ l’estimateur de .
→ θ θ
Définition : Un estimateur est sans biais si la moyenne de sa distribution d’échantillonnage est égale à la valeur θdu paramètre de la population à estimer, c’est-à-dire si
E($)
θ = θ
Si l’estimateur est biaisé, son biais est mesuré par l’écart suivant : BIAIS = E($)
θ − θ
La figure suivante représente les distributions d’échantillonnage d’un estimateur sans biais $
θ1
et d’un estimateur biaisé $ .
θ2
Exemples : →On a vu au chapitre 4 queE(X)=m. Donc la moyenne d’échantillonXest un estimateur sans biais du paramètre m, moyenne de la population. En revanche, la médiane d’échantillon Me est un estimateur biaisé lorsque la population échantillonnée est asymétrique.
L’absence de biais, à elle toute seule, ne garantit pas que nous avons un bon estimateur. En effet, certains paramètres peuvent avoir plusieurs estimateurs sans biais. Le choix parmi les estimateurs sans biais s’effectue en comparant les variances des estimateurs. En effet, un estimateur sans biais mais à variance élevée peut fournir des estimations très éloignées de la vraie valeur du paramètre.
…
La notion d’estimateur efficace peut s’illustrer de la façon suivante :
2.2.3. Estimateur convergent
Définition : Un estimateur $ est convergent si sa distribution tend à se concentrer autour
de la valeur inconnue à estimer, θ, à mesure que la taille d’échantillon augmente, c’est-à-dire si lim V(θ$) = 0.
n→+∞
Par exemple, X est un estimateur convergent
Remarque : Un estimateur sans biais et convergent est dit absolument correct
Ces trois propriétés sont les principales qualités que nous recherchons pour un estimateur. Nous n’insisterons pas sur les propriétés mathématiques que doivent posséder les estimateurs.
On peut donc affirmer que :
- X est un estimateur absolument correct de la moyenne m pour un caractère quantitatif.
- S_ est un estimateur absolument correct de la variance σpop2pour un caractère quantitatif.
- F est un estimateur absolument correct de la proportion p pour un caractère qualitatif.
Nous pourrons donc estimer m par X, σpop2 par S_, p par F.
Mais les estimations ponctuelles bien qu’utiles, ne fournissent aucune information concernant la précision des estimations, c’est-à-dire qu’elles ne tiennent pas compte de l’erreur possible dans l’estimation, erreur attribuable aux fluctuations d’échantillonnage. Quelle confiance avons-nous dans une valeur unique ? On ne peut répondre à cette question en considérant uniquement l’estimation ponctuelle obtenue des résultats de l’échantillon. Il faut lui associer un intervalle qui permet d’englober avec une certaine fiabilité, la vraie valeur du paramètre correspondant.
ESTIMATION PAR INTERVALLE DE CONFIANCE
3.1. DEFINITION
L’estimation par intervalle d’un paramètre inconnu θconsiste à calculer, à partir d’un
estimateur choisi $ , un intervalle dans lequel il est vraisemblable que la valeur correspondante
du paramètre s’y trouve. L’intervalle de confiance est défini par deux limites LI et LS auxquelles est associée une certaine probabilité, fixée à l’avance et aussi élevée qu’on le désire, de contenir la valeur vraie du paramètre. La probabilité associée à l’intervalle de confiance et exprimée en pourcentage est égale à S où S est le seuil de confiance ou niveau de confiance de l’intervalle, exprimé également en pourcentage.
P(LI ≤ θ ≤ LS) = S | ||
avec : LI | : | limite inférieure de l’intervalle de confiance. |
LS : | limite supérieure de l’intervalle de confiance | |
S | : | probabilité associée à l’intervalle d’encadrer la vraie valeur du paramètre. |
LI et LS sont appelées les limites de confiance de l’intervalle et sont des quantités qui
tiennent compte des fluctuations d’échantillonnage, de l’estimateur $ et du seuil de confiance S. θ
La quantité 1 - S est égale à la probabilité, exprimée en pourcentage, que l’intervalle n’encadre pas la vraie valeur du paramètre. On note α = 1− S. α s’appelle le risque ou le seuil de signification de l’intervalle.
A quoi correspond l’intervalle de confiance ?
Si nous répétons l’expérience un grand nombre de fois (prélever un grand nombre de fois un échantillon de taille n de la même population), dans 100S cas sur 100 les intervalles obtenus (différents à chaque réalisation de l’expérience) recouvrent la vraie valeur du paramètre.
Remarques :
- L’intervalle ainsi défini est un intervalle aléatoire puisqu’avant l’expérience, les limites de l’intervalle sont des variables aléatoires (elles sont fonctions des observations de l’échantillon).
- Le niveau de confiance est toujours associé à l’intervalle et non au paramètre inconnu θ. θ n’est pas une variable aléatoire : il est ou n’est pas dans l’intervalle [LI, LS].
- Le niveau de confiance doit être choisi avant que ne s’effectue l’estimation par intervalle. Il arrive souvent que le chercheur non averti calcule plusieurs intervalles d’estimation à des niveaux de confiance différents et choisisse par la suite l’intervalle qui lui semble le plus approprié. Une telle approche constitue en réalité une interprétation inacceptable des données en ce qu’elle fait dire aux résultats échantillonnaux ce que l’on veut bien entendre.
- Il y a une infinité de solutions possibles pour déterminer l’intervalle [LI, LS]. On choisira de prendre des risques symétriques, c’est-à-dire de choisir LI et
Pour calculer l’intervalle de confiance, on doit connaître la distribution d’échantillonnage (distribution de probabilité) de l’estimateur correspondant, c’est-à-dire connaître de quelle façon sont distribuées toutes les valeurs possibles de l’estimateur obtenues à partir de tous les échantillons possibles de même taille prélevés de la même population. Ce travail a été effectué au chapitre précédent. Nous allons voir à présent comment déduire des distributions d’échantillonnage la construction des intervalles de confiance.
3.2. ESTIMATION D’UNE MOYENNE PAR INTERVALLE DE CONFIANCE
On se propose d’estimer, par intervalle de confiance, la moyenne m d’un caractère mesurable d’une population. Il s’agit donc de calculer, à partir de la moyenne x (valeur prise par l’estimateur X) de l’échantillon, un intervalle dans lequel il est vraisemblable que la vraie valeur de m s’y trouve.
Cet intervalle se définit d’après l’équation suivante : P(A ≤ m ≤ B) = S.
Les limites A et B de cet intervalle sont des quantités aléatoires et prendront, après avoir prélevé l’échantillon et calculé l’estimation x , la forme suivante : LI ≤ m ≤ LS.
Nous allons déterminer LI et LS en utilisant la distribution d’échantillonnage de X. L’étude du chapitre 4 nous amène donc à distinguer deux cas :
3.2.1. On dispose d’un grand échantillon (n≥30)oud’un petit
échantillon (nσpop .
Dans ces conditions on considère que la variable aléatoire X suit une loi normale :
…
Signification : Avant toute expérience, la probabilité que l’intervalle aléatoire [X − tα2 ×σpopn ,X + tα2 ×σpopn] contienne la vraie valeur de m est S. Ces deux
limites sont des variables aléatoires qui prendront des valeurs numériques particulières une fois que l’échantillon est choisi et qu’on a obtenu la valeur de x (réalisation de la variable aléatoire X). On en déduit par la suite un intervalle d’extrémités fixes (et non
plus un intervalle aléatoire) qui s’écrit : x − tα2 | ×σpop | ≤ m ≤ x + tα2 | ×σpop | et on | ||
n | n | |||||
lui attribue, non pas une probabilité, mais un contenir la vraie valeur de m. | niveau de confiance de S = 1− α de |
Conclusion : A partir d’un échantillon de grande taille (n ≥30) ou à partir d’un échantillon de petite taille (n pop2 connue, on définit un intervalle de confiance ayant un niveau de confiance S de contenir la vraie valeur de m par :
[x − tα2 ×σpopn ,x + tα2 ×σpopn]
Remarque : Dans le cas d’un grand échantillon, si la variance σpop2 de la population est inconnue, on peut l’estimer sans problème par la variance
3.2.2. On dispose d’un petit échantillon (n
Dans ces conditions, l’étude du chapitre 4 nous a appris que nous ne disposions pas directement de la loi de X mais de celle de T = X−m . T suit une loi de Student à Σech
(n - 1) degrés de liberté : T ∼> Tn-1.
Pour trouver l’intervalle de confiance de m au risque α,nous allons procéder comme dans le cas précédent :
On détermine dans la table de la loi de Student la valeur tα2,ν
Après avoir choisi l’échantillon, X a pris la valeur x et Σech la valeur σech . On en déduit par la suite un intervalle d’extrémités fixes (et non plus un intervalle aléatoire)
une probabilité, mais un niveau de confiance de S = 1− α de contenir la vraie valeur de m.
Conclusion : A partir d’un échantillon de petite taille (n pop2 inconnue, on
…
On pourra bien sûr remplacer : n−1par sn .
REMARQUES :
- L’intervalle de confiance pourra être numériquement différent chaque fois qu’on prélève un échantillon de même taille de la population puisque l’intervalle est centré sur la moyenne de l’échantillon qui varie de prélèvement en prélèvement.
- Le niveau de confiance est associé à l’intervalle et non au paramètre m. Il ne faut pas dire que la vraie valeur de m a, disons 95 chances sur 100, de se trouver dans l’intervalle mais plutôt que l’intervalle de confiance a 95 chances sur 100 de contenir la vraie valeur de m ou encore que 95 fois sur 100, l’intervalle déterminé contiendra la vraie valeur de m. Une fois que l’intervalle est calculé, m est ou n’est pas dans l’intervalle (pour une population donnée, m est une constante et non une variable aléatoire).
- Plus le niveau de confiance est élevé, plus l’amplitude de l’intervalle est grande. Pour la même taille d’échantillon, on perd de la précision en gagnant une plus grande confiance.
- Dans le cas où la variance de la population est inconnue, des échantillonnages successifs de la population peuvent conduire pour une même taille d’échantillon et le même niveau de confiance, à des intervalles de diverses amplitudes parce que l’écart-type s variera d’échantillon en échantillon.
3.3. ESTIMATION D’UNE VARIANCE PAR INTERVALLE DECONFIANCE
On se propose d’estimer, par intervalle de confiance, la variance σpop2 d’un caractère mesurable d’une population. Il s’agit donc de déterminer, à partir de la variance de l’échantillon σech2 , un intervalle dans lequel il est vraisemblable que la vraie valeur de σpop2 s’y trouve.
On cherche un intervalle [A, B] vérifiant : P(A ≤ σpop2 ≤ B) = S.
Les limites de cet intervalle prendront, après avoir prélevé l’échantillon et calculé l’estimation les valeurs prises par les deux quantités aléatoires A et B, la forme suivante :
a ≤ σpop2 ≤ b.
Nous allons déterminer A et B en utilisant la distribution d’échantillonnage de la variance d’échantillon S_.
Nous supposerons par la suite que la population est « normale », c’est-à-dire que le caractère X suit une loi normale. L’étude du chapitre 4 nous amène donc à distinguer deux cas :
…
Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques particulières une fois que l’échantillon est choisi et qu’on a obtenu la valeur de s_ (réalisation de la variable aléatoire S_). On en déduit par la suite un intervalle d’extrémités fixes(et non plus un intervalle aléatoire) qui s’écrit : s2 − tα
attribue, un niveau de confiance S de contenir la vraie valeur de σpop2 .
Conclusion : A partir d’un échantillon de grande taille (n ≥30)), prélevé à partir d’une population normale de variance σpop2 inconnue, on définit un intervalle de confiance ayant un niveau de confiance 1-α de contenir la vraie valeur de σpop2 par :
…
3.3.2. La population est « normale » et on dispose d’un petit échantillon (n30)
chapitre 4 §3.2.2).
Y ∼> χn−12 .
Nous allons chercher un intervalle [χa2 ,χb2] de valeurs telles que P(χa2 b2 ) = S.
On choisit un intervalle correspondant à des risques symétriques, c’est-à-dire tel que :
Les deux valeurs χa2 et χb2 se déterminent à l’aide des tables.
…
Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques particulières une fois que l’échantillon est choisi et qu’on a obtenu la valeur de σech2 (réalisation de la variable aléatoire Σech2 ). On en déduit par la suite un intervalle d’extrémités fixes qui
valeur de σpop2 .
Conclusion : A partir d’un échantillon de petite taille (n pop2 inconnue, on définit un intervalle de confiance ayant un niveau de confiance S de contenir la vraie valeur de σpop2 par :
[nσech2,nσech2] χb2 χa2
3.4. ESTIMATION D’UNE PROPORTION PAR INTERVALLE DE
CONFIANCE
On se propose d’estimer, par intervalle de confiance, la proportion p d’un caractère quantitatif d’une population. Il s’agit donc de déterminer, à partir de la proportion de l’échantillon f, un intervalle dans lequel il est vraisemblable que la vraie valeur de p s’y trouve.
On cherche un intervalle [A, B] vérifiant : P(A ≤ p ≤ B) = S.
Les limites de cet intervalle prendront, après avoir prélevé l’échantillon et calculé les valeurs prises par les deux quantités aléatoires A et B, la forme suivante : a ≤ p ≤ b.
Nous allons déterminer A et B en utilisant la distribution d’échantillonnage de la proportion d’échantillon F.
Nous supposons que nous sommes en présence d’un grand échantillon (n≥ 30) et que p (que nous devons estimer) n’est pas trop petit (np ≥ 15 et nq ≥ 15).
La fréquence d’échantillon F suit approximativement une loi normale (voir chapitre 4 § 4.2).
F ∼> pq N(p, n)
Donc T = F−pqp suit approximativement une loi normale centrée réduite.
On peut déterminer dans la table de la loi normale centrée réduite la valeur tα2
telle que : P(−tα2 ≤ T ≤ tα2 ) = S ce qui peut s’écrire :
…
Le problème est qu’on ignore la valeur de p et qu’elle intervient dans l’écart-type. Comme n est grand, il est correct d’estimer p par la valeur f (prise par l’estimateur F) trouvée dans l’échantillon; En effet, la grande taille de l’échantillon garantit que f ne fluctue pas trop d’échantillon en échantillon.
soit encore P(F− tα2 | f(1− f) | ≤ p ≤ F+ tα2 | f(1− f) | ) = S qui est bien de la forme cherchée. |
n | n |
Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques particulières une fois que l’échantillon est choisi et qu’on a obtenu la valeur de f (réalisation de la variable aléatoire F). On en déduit par la suite un intervalle d’extrémités fixes qui s’écrit :
f−tα 2 | f(1− f) | ≤ p ≤ f + tα2 | f(1− f) |
n | n |
et on lui attribue un niveau de confiance S de contenir la vraie valeur de p.
Conclusion : A partir d’un échantillon de grande taille (n ≥30)), prélevé à partir d’une population dont la proportion p d’un caractère qualitatif est inconnue mais pas trop petite, on définit un intervalle de confiance ayant un niveau de confiance S de contenir la vraie valeur de p
3.5. COMMENT CONTROLER L’ERREUR ?
Il arrive souvent que la précision de l’estimation soit spécifiée avant même que l’échantillon ne soit prélevé. Par exemple, vous voulez vérifier un lot de pièces de machinerie : ces pièces doivent avoir un certain diamètre et l’erreur tolérée dans la fabrication doit être très petite, sinon plusieurs d’entre elles seront inutilisables. Pour vérifier le lot, vous prélevez un échantillon, mais vous voulez que l’estimation se fasse avec la plus petite erreur d’échantillonnage possible : vous voulez une estimation précise. D’une trop grande erreur d’échantillonnage résulte une longueur d’intervalle trop grande et cela rend souvent inutile l’intervalle de confiance construit.
Nous pouvons contrôler l’erreur d’échantillonnage en choisissant une taille d’échantillon appropriée. L’erreur d’échantillonnage survient lorsque l’échantillon ne prend pas en considération la population dans sa totalité. Chaque fois qu’un échantillon est prélevé, nous perdons une certaine partie de l’information concernant la population, ce qui entraîne immanquablement une erreur dans l’estimation. Par conséquent, si nous voulons un très haut niveau de précision, nous devons prélever un échantillon dont la taille permet d’extraire de la population l’information suffisante pour réaliser l’estimation avec la précision désirée.