Type II fouten en het onderscheidingsvermogen
We zagen in de vorige opdracht dat de we bij hypothesetoetsing een risico lopen om de nulhypothese ten onrechte te verwerpen (een Type I fout). Echter, we kunnen ook een andere fout maken, namelijk wanneer de alternatieve hypothese waar is, maar we de nulhypothese ten onrechte NIET verwerpen (de nulhypothese is niet waar maar wordt niet verworpen); dit is de kans op een Type II fout.
Een type II fout treedt op wanneer $H_0$ niet verworpen wordt, terwijl de alternatieve hypothese waar is. De fout die gemaakt gewordt is dus het ten onrechte NIET verwerpen van de nulhypothese. (Boek: p. 160).In contrast met de kans op een type I fout (die altijd gelijk is aan de significantiedrempel $α$), is de kans op een type II fout niet constant. Deze kan wel uitgerekend worden, maar de waarde hangt af van de effectgrootte, steekproefgrootte, en de significantiedrempel! We gaan hier bij deze opdracht naar kijken.
In de grafiek hieronder zien we twee (hypothetische) steekproevenverdelingen; de steekproevenverdeling rond het gemiddelde van 0 wanneer de nulhypothese waar is ($H_0: μ=0$; rode lijn), en een (hypothetische) steekproevenverdeling rond een bepaald gemiddelde wanneer de alternatieve hypothese waar is (blauwe lijn). Het is belangrijk te realiseren dat als we naar de grafiek kijken, dat er maar 1 steekproevenverdeling op het zelfde moment waar kan zijn! Dus we kunnen kijken wat er gebeurt voor onze statistische gevolgtrekkingen wanneer de nulhypothese waar is (rode lijn), ÓF we kunnen kijken naar de gevolgtrekkingen wanneer de alternatieve hypothese waar is! We letten bij deze vraag vooral op de gekleurde gebieden onder de grafiek; het groene gebied onder de nulhypothese-steekproevenverdeling geeft de kans op een type I fout weer (wat gelijk is aan de significantiedrempel; $α$); het oranje gebied onder de steekproevenverdeling van de alternatieve hypothese geeft de kans op een type II fout weer (dit noemt men wel $β$); het blauwe gebied onder de steekproevenverdeling van de alternatieve hypothese geeft het onderscheidingsvermogen van een toets weer (dit noemt men ook wel "power", en is simpelweg $1-β$).
Opmerking
Het berekenen van de kans op een type II fout en het onderscheidingsvermogen is betrekkelijk eenvoudig als het gaat om eenzijdig toetsen van gemiddelden met de standaardnormaal verdeling (de Z-verdeling), wanneer de populatievariatie bekend is, en de populatie normaal verdeeld is. Het wordt flink lastiger bij t-verdelingen, en nog veel lastiger bij meer ingewikkelde statistische toetsen. Hier kun je een programma vinden die deze berekeningen wel kan doen: http://www.gpower.hhu.de/. Echter, de begrippen type II fout en het onderscheidingsvermogen worden met behulp van onderstaande grafiek wel inzichtelijk, en de onderliggende principes veranderen natuurlijk niet. De vragen kun je onder de grafiek vinden.Vraag 2a
Je ziet in de grafiek met de huidige instellingen een kans op een type II fout (β) van 0,088. Leg uit wat deze kans precies betekent.Vraag 2b
Wat is het gevolg van het verhogen van de significantiedrempel op de kans op een type II fout? En wat gebeurt er als je de significantiedrempel verlaagt?Vraag 2c
Zet de significantiedrempel weer op 5%, en verlaag de steekproefgrootte naar 50; wat gebeurt er nu met de kans op een type II fout?Vraag 2d
Verhoog de steekproefgrootte weer naar 100, en verlaag de standaarddeviatie naar 8; wat gebeurt er nu met de kans op een type II fout?Vraag 2e
In de grafiek zien we ook een "d" staan; dit is de "effectgrootte" (Boek: p. 200, 206). De effectgrootte geeft (je raadt het al) de grootte van het effect. De effectgrootte is een gestandaardiseerde vorm van de grootte van een effect, en er bestaan verschillende typen effectgroottes (die horen bij verschillende typen toetsen). Bij deze specifieke toets is de effectgrootte vrij makkelijk te berekenen: het is het verschil tussen de nulhypothese en de alternatieve hypothese, gedeeld door de standaarddeviatie. Bereken nu zelf de effectgrootte "d" en vergelijk of je berekende waarde overeenkomt met de waarde in de grafiek.Vraag 2f
Als je de waarde van de alternatieve hypothese verhoogt, dan zie je dat je effectgrootte groter wordt. Wat gebeurt er met de kans op een type II fout als de effectgrootte groter wordt?
De kans op een type II fout wordt minder wanneer: 1) de effectgrootte groter is (dat wil zeggen, wanneer de nul- en de alternatieve hypothese waarden verder uit elkaar liggen); 2) de steekproefgrootte groter is; 3) de kans op een type I fout groter is. (Boek: p. 168).Het blauwe gebied onder de steekproevenverdeling van de alternatieve hypothese heet het onderscheidingsvermogen en is nauw verwant aan de type II fout:
Het onderscheidingsvermogen ("power") van een toets is de kans op het terecht verwerpen van $H_0$ wanneer deze onjuist is. Deze kans is 1 min de kans op een type II fout (de kans dat je $H_0$ ten onrechte niet verwerp); dus 1-β. Uiteraard willen we dat het onderscheidingsvermogen van een toets zo groot mogelijk is (Boek: p. 168-169)
Vraag 2g
Wat is het onderscheidingsvermogen van de toets met de begin-instellingen? Wat bekent deze kans precies?Vraag 2h
Druk nu op "linkszijdige toets"; waarom is het onderscheidingsvermogen hier ontzettend klein (bijna 0)?Vraag 2i
Selecteer weer de "tweezijdige toets" en selecteer ook de laagste significantiedrempel; wat gebeurt er met de kans op een type II fout en het onderscheidingsvermogen en waarom?Vraag 2j
Voer voor de alternatieve hypothese nu 4 in; wat gebeurt er met de kans op een type II fout en het onderscheidingsvermogen en waarom?Vraag 2k
Verlaag de standaarddeviatie; waarom wordt het onderscheidingsvermogen groter?Vraag 2l
Verhoog de steekproefgrootte naar 1000 en bekijk wat er gebeurt er met de kans op een type II fout en het onderscheidingsvermogen en waarom. Verlaag nu de steekproefgrootte naar 10 en bekijk weer wat er gebeurt. Stel dat een onderzoeker een steekproef trekt (n=12) en de onderzoeker vindt geen significante resultaten. Vind je het terecht dat als de onderzoeker concludeert dat er geen bewijs is voor de alternatieve hypothese?Vraag 2m
"Refresh" je browser zodat je terug gaat naar de begin-instellingen. Voer een steekproefgemiddelde in van 1.5. Wat is je conclusie in de veronderstelling dat de nulhypothese waar is?Vraag 2n
Voer een steekproefgemiddelde in van 1.5. Wat is je conclusie in de veronderstelling dat de alternatieve hypothese waar is?Bonusvraag 2o
"Refresh" je browser zodat je terug gaat naar de begin-instellingen. Probeer zelf, met behulp van Tabel A en wat berekeningen, om de type II fout en het onderscheidingsvermogen uit te rekenen.Opmerking
Deze opdracht en bovenstaande grafiek is nuttig om de ideeën van onderscheidingsvermogen en type II fouten zichtbaar te maken. In de praktijk gebruiken we deze begrippen vaak om een steekproefgrootte uit te rekenen vóórdat onze studie start; daarbij zijn de alpha (vaak 5%) en het onderscheidingsvermogen (vaak >80%) vooraf bekend, wordt de effectgrootte verondersteld (vaak op basis van eerder onderzoek), en wordt zodoende de steekproefgrootte bepaald.
Dit is het einde van de opdrachten van Week 4.
Ga terug naar de vorige opdracht