Welkom bij het practicum statistiek, week 2!

Hier kun je de verschillende opdrachten vinden die horen bij week 2. Succes!

Het schatten van proporties

Het Amerikaanse verkiezingsjaar 2012 was niet bepaald spannend: Obama won van Romney, en mocht nogmaals 4 jaar in het witte huis blijven. Wij zullen dit verkiezingsjaar gebruiken om iets te weten te komen over het schatten van proporties. In Figuur 1 kunnen we de resultaten vinden van de verkiezingen: Obama kreeg 52% van de stemmen, waar Romney er 48% kreeg (gemakshalve laten we de andere kandidaten--die soms ook een fractie van de stemmen opstrijken--achterwege). Het histogram geeft aan hoeveel stemmen er waren voor Romney (gecodeerd als 0) en voor Obama (gecodeerd als 1). Bij het analyseren van proporties en binomiale variabelen zijn er altijd slechts twee uitkomsten; en voor de handigheid geven we de ene uitkomst een 0 en de andere een 1. Het gemiddelde van die getallen geeft namelijk direct een proportie; de populatie proportie π = 0.52 ((60933504 x 0)+(65915795 x 1) / (60933504 + 65915795)). Het staafdiagram is een plezierigere weergave van de uitkomsten.

Net zoals in opdracht 1b van week 1, trekken we vele steekproeven. In dit geval zullen we het aantal steekproeven gaan variëren om te kijken wat de gevolgen zijn voor het schatten van de populatie proportie $π$. Wat ook varieert is de grootte van de steekproeven; in dit geval óf n=5, óf n=50, óf n=500.

Vraag 1a

Trek eenmaal 10 steekproeven en bekijk de resultaten. Uit het aantal steekproeven dat je getrokken hebt, in hoeveel steekproeven zou Romney meer dan 50% van de stemmen hebben gehad (de rode staven)? Vergelijk je antwoorden voor de verschillende steekproefgroottes.

Vraag 1b

Zelfs met een steekproefgrootte van n=500 komt het nog wel een aantal keer voor dat een steekproef aangeeft dat Romney gewonnen heeft (beter gezegd: een groter aantal stemmen had). Dus puur door steekproefvariatie (willekeur), kunnen peilingen de verkeerde kandidaat als winnaar bestempelen. Wat zou je dus belangrijke informatie vinden als je hoort over de uitkomsten van de nieuwste peilingen? Wat zijn andere redenen waarom peilingen niet altijd betrouwbaar zijn? [denk aan hoe de data antwoorden verzameld]

Vraag 1c

Trek 500 steekproeven en bekijk de resultaten. Waarom vinden we bij steekproefgrootte n=5 slechts 6 verschillende uitkomsten, bij een proportie van 0, 0.2, 0.4, 0.6, 0.8, en 1?

De standaardfout van een steekproefproportie $π↖{`∧}$ kan geschat worden met behulp van de formule (Boek: p. 111): $$σ_{π↖{`∧}}= √{{π↖{`∧}(1-π↖{`∧})}/n}$$

Vraag 1d

Bereken de standaardfout van een proportie voor de verschillende steekproefgroottes, en vergelijk deze met de geobserveerde standaarddeviatie van de steekproevenproporties bij 1000 steekproeven.

$σ_\ov y $ is de standaard deviatie van de steekproevenverdeling van het steekproefgemiddelde ($\ov y$) en wordt wel de standaardfout genoemd. (Boek: p. 90-91). In het geval van proporties, gebruiken we $π↖{`∧}$ voor de steekproefproportie en $σ_{π↖{`∧}}$ voor de standaardfout. In beide gevallen wordt de standaardfout berekend door: $σ_/√{n}$

Vraag 1e

Trek nu 1000 steekproeven en bekijk de resultaten. Geef aan of je de steekproevenverdeling normaal verdeeld vindt bij de verschillende steekproefgroottes. Komt dit overeen met de centrale limietstelling (Boek: p. 93)?

Vraag 1f

Bereken het 95% betrouwbaarheidsinterval voor de drie steekproefgroottes. Kun je in het geval van n=500 met veel zekerheid zeggen of het populatiegemiddelde groter is dan 0.5?

Een betrouwbaarheidsinterval voor een schatter van een parameter is een interval van getallen waarin de parameter waarschijnlijk ligt, en wordt bepaald door een schatter ± foutenmarge. Het betrouwbaarheidsniveau geeft een mate van zekerheid aan waarin we denken dat de parameter valt, en bepaalt de foutenmarge. (Boek: p. 110)

Opmerking

Bij een kleine steekproefgrootte is de steekproevenverdeling bepaald niet normaal verdeeld. In week 4 behandelen we hoe we hier statistisch gezien toch mee over weg kunnen!

Ga verder met de volgende opdracht

Ga terug naar de opdrachten van week 1
Figuur 1. De uitkomst van de Amerikaanse presidents-verkiezingen in 2012. Beide grafieken geven hetzelfde weer.
Figuur 2. De rode gestippelde lijn geeft het gemiddelde van de populatie aan, de proportie stemmen voor Obama. De blauwe gestippelde lijn is het gemiddelde van de verschillende steekproefgemiddelden. De roodgekleurde staven betekenen dat Romney meer dan 50% van de stemmen had in een bepaalde steekproef, de blauwe staven betekenen dat Obama meer dan 50% van de stemmen had. De standaard deviatie van de verschillende steekproefgemiddelden wordt weergegeven door $σ_\ov y $.