Bier, t(hee)-verdelingen, en betrouwbaarheidsintervallen
De thee-drinkende Brit William S. Gosset heeft veel betekend voor de statistiek, zonder dat veel mensen zijn naam herkennen. Het was een fijne vent die werkte voor bierbrouwerij Guinness in Dublin. Guinness benaderde het brouwen zeer wetenschappelijk, en huurde de knapste koppen in om de kwaliteit van het bier te waarborgen en de kosten van het produceren te verminderen. Zoals we in eerdere opdrachten zagen, kun je nauwkeurigere schattingen over het populatiegemiddelde maken wanneer de steekproefgrootte heel groot was. Dit konden we doen, door middel van het berekenen van de standaardfout, die de spreiding in schattingsfouten aangeeft. Deze standaardfout berekenden we door de variatie in de populatie, $σ$ te delen door $√{n}$. Alles mooi en wel, maar in de praktijk zijn er vaak twee problemen: 1) de variatie in de populatie--of de standaarddeviatie--is vaak onbekend; 2) steekproeven zijn vaak niet zo groot. Gosset liep tegen beide problemen aan; zo had hij 'slechts' 4 boerderijen die experimenten voor hem konden uitvoeren, en moest hij het met een steekproefgrootte van n=4 doen. Gosset verzon een manier om betrouwbare conclusies over de kwaliteit van het hop te maken op basis van zeer kleine steekproeven. Hij ontwikkelde de t-verdelingen!Bekijk de verdeling van de kwaliteit van hop (Figuur 5). Gosset moest op basis van kleine steekproeven uitspraken doen over de kwaliteit van de hop. In Figuur 6, in beide grafieken, is deze populatie wederom weergegeven met de oranje lijn. De grijze lijnen geven de steekproefverdelingen aan. Dus, 1 grijze lijn is een normaalverdeling die hoort bij de uitkomsten van 1 steekproef met gemiddelde $\ov y$. Het verschil tussen de bovenste en onderste grafiek is het volgende: in de bovenste grafiek is alleen het steekproefgemiddelde ($\ov y$) variabel, terwijl de variatie steeds de populatie-variatie ($σ^2$) is. In de onderste grafiek zijn zowel het steekproefgemiddelde ($\ov y$) als de steekproefvariatie ($s^2$) variabel. De steekproefvariatie wordt bepaald door: $s^2={∑↙{i=1}↖n=(y_i- \ov y)^2}/(n-1)$.
Vraag 4a
Trek 10 steekproeven van steekproefgrootte n=25. De 5 grijze lijnen/verdelingen, zijn dus de geschatte populatieverdelingen zoals voorspeld in de steekproef. Wat valt je op aan de bovenste grafiek? [kijk bijvoorbeeld eens naar de toppen/pieken van de verdelingen]Vraag 4b
Bekijk nu de onderste grafiek, en beantwoord dezelfde vraag.Vraag 4c
Trek nu 50 steekproeven met steekproefgrootte n=5, en vergelijk de resultaten van de bovenste en onderste grafiek. Welke grafiek met steekproefverdelingen (de grijze lijnen) geven een beter beeld van de populatie?Opmerking
De variatie in steekproefverdelingen die ontstaat als gevolg van het schatten van de steekproefvariatie, zorgt er voor dat we minder zeker zijn in onze voorspelling van de populatie! Minder zeker zijn over de populatie, betekent dus ook bredere betrouwbaarheidsintervallen. We mogen daarom ook niet betrouwbaarheidsintervallen opstellen aan de hand van de standaardnormaal verdeling, maar moeten hier voor de (door Gosset ontwikkelde) t-verdelingen gebruiken.
De t verdelingen lijken op de standaardnormaal verdeling, met een gemiddelde van 0, maar ze zijn breder. De breedte wordt bepaald door het aantal vrijheidsgraden (steekproefgrootte n-1) (Boek: p. 133). De standaardnormaal verdeling is een t-verdeling met een oneindig aantal vrijheidsgraden (Boek: p. 123).
Vraag 4d
Stel, je trekt een steekproef van steekproefgrootte n=10 uit de populatie en je vindt een steekproefgemiddelde $\ov y$ van 6,0 en een steekproefstandaarddeviatie s van 1,2. Bereken twee keer een 95% betrouwbaarheidsinterval; éénmaal met behulp van de standaardnormaal verdeling, en éénmaal met behulp van de t-verdelingen. Vergelijk de intervallen; wat valt op?Vraag 4e
Je trekt nogmaal een steekproef, ditmaal van steekproefgrootte n=5, en je vindt een steekproefgemiddelde $\ov y$ van 4,0 en een steekproefstandaarddeviatie s van 2,2. Bereken twee keer een 99% betrouwbaarheidsinterval; éénmaal met behulp van de standaardnormaal verdeling, en éénmaal met behulp van de t-verdelingen. Vergelijk de intervallen; wat valt op?Vraag 4f
Je trekt een laatste maal een steekproef; ditmaal wil je het goed doen en je hebt een steekproefgrootte van n=1000. Je vindt een steekproefgemiddelde $\ov y$ van 5,0 en een steekproefstandaarddeviatie s van 1,2. Bereken twee keer een 95% betrouwbaarheidsinterval; éénmaal met behulp van de standaardnormaal verdeling, en éénmaal met behulp van de t-verdelingen. Vergelijk de intervallen; wat valt op? Vergelijk ook de antwoorden op d, e, en f.
Dit is het einde van de opdrachten van Week 2.
Ga terug naar de vorige opdracht