Het schatten van proporties
Het Amerikaanse verkiezingsjaar 2012 was niet bepaald spannend: Obama won van Romney, en mocht nogmaals 4 jaar in het witte huis blijven. Wij zullen dit verkiezingsjaar gebruiken om iets te weten te komen over het schatten van proporties. In Figuur 1 kunnen we de resultaten vinden van de verkiezingen: Obama kreeg 52% van de stemmen, waar Romney er 48% kreeg (gemakshalve laten we de andere kandidaten--die soms ook een fractie van de stemmen opstrijken--achterwege). Het histogram geeft aan hoeveel stemmen er waren voor Romney (gecodeerd als 0) en voor Obama (gecodeerd als 1). Bij het analyseren van proporties en binomiale variabelen zijn er altijd slechts twee uitkomsten; en voor de handigheid geven we de ene uitkomst een 0 en de andere een 1. Het gemiddelde van die getallen geeft namelijk direct een proportie; de populatie proportie π = 0.52 ((60933504 x 0)+(65915795 x 1) / (60933504 + 65915795)). Het staafdiagram is een plezierigere weergave van de uitkomsten.Net zoals in opdracht 1b van week 1, trekken we vele steekproeven. In dit geval zullen we het aantal steekproeven gaan variëren om te kijken wat de gevolgen zijn voor het schatten van de populatie proportie $π$. Wat ook varieert is de grootte van de steekproeven; in dit geval óf n=5, óf n=50, óf n=500.
Vraag 1a
Trek eenmaal 10 steekproeven en bekijk de resultaten. Uit het aantal steekproeven dat je getrokken hebt, in hoeveel steekproeven zou Romney meer dan 50% van de stemmen hebben gehad (de rode staven)? Vergelijk je antwoorden voor de verschillende steekproefgroottes.Vraag 1b
Zelfs met een steekproefgrootte van n=500 komt het nog wel een aantal keer voor dat een steekproef aangeeft dat Romney gewonnen heeft (beter gezegd: een groter aantal stemmen had). Dus puur door steekproefvariatie (willekeur), kunnen peilingen de verkeerde kandidaat als winnaar bestempelen. Wat zou je dus belangrijke informatie vinden als je hoort over de uitkomsten van de nieuwste peilingen? Wat zijn andere redenen waarom peilingen niet altijd betrouwbaar zijn? [denk aan hoe de data antwoorden verzameld]Vraag 1c
Trek 500 steekproeven en bekijk de resultaten. Waarom vinden we bij steekproefgrootte n=5 slechts 6 verschillende uitkomsten, bij een proportie van 0, 0.2, 0.4, 0.6, 0.8, en 1? De standaardfout van een steekproefproportie $π↖{`∧}$ kan geschat worden met behulp van de formule (Boek: p. 111): $$σ_{π↖{`∧}}= √{{π↖{`∧}(1-π↖{`∧})}/n}$$Vraag 1d
Bereken de standaardfout van een proportie voor de verschillende steekproefgroottes, en vergelijk deze met de geobserveerde standaarddeviatie van de steekproevenproporties bij 1000 steekproeven.
$σ_\ov y $ is de standaard deviatie van de steekproevenverdeling van het steekproefgemiddelde ($\ov y$) en wordt wel de standaardfout genoemd. (Boek: p. 90-91). In het geval van proporties, gebruiken we $π↖{`∧}$ voor de steekproefproportie en $σ_{π↖{`∧}}$ voor de standaardfout. In beide gevallen wordt de standaardfout berekend door: $σ_/√{n}$
Vraag 1e
Trek nu 1000 steekproeven en bekijk de resultaten. Geef aan of je de steekproevenverdeling normaal verdeeld vindt bij de verschillende steekproefgroottes. Komt dit overeen met de centrale limietstelling (Boek: p. 93)?Vraag 1f
Bereken het 95% betrouwbaarheidsinterval voor de drie steekproefgroottes. Kun je in het geval van n=500 met veel zekerheid zeggen of het populatiegemiddelde groter is dan 0.5?
Een betrouwbaarheidsinterval voor een schatter van een parameter is een interval van getallen waarin de parameter waarschijnlijk ligt, en wordt bepaald door een schatter ± foutenmarge. Het betrouwbaarheidsniveau geeft een mate van zekerheid aan waarin we denken dat de parameter valt, en bepaalt de foutenmarge. (Boek: p. 110)
Opmerking
Bij een kleine steekproefgrootte is de steekproevenverdeling bepaald niet normaal verdeeld. In week 4 behandelen we hoe we hier statistisch gezien toch mee over weg kunnen!Ga verder met de volgende opdracht
Ga terug naar de opdrachten van week 1