Hoofdstuk 6: Kritieke discussie over de nulhypothese significantie testen Flashcards Preview

Statistische modellen > Hoofdstuk 6: Kritieke discussie over de nulhypothese significantie testen > Flashcards

Flashcards in Hoofdstuk 6: Kritieke discussie over de nulhypothese significantie testen Deck (6):
1

Wat is de kritiek op het testen van de significantie van een nulhypothese?

Kritiek=
- Als de p-waarde zo betrouwbaar is: moeten we dan niet dezelfde p-waarde krijgen als we elke keer een nieuwe steekproef doen? Het lijkt er op dat het meer te maken heeft met geluk dan skill om een resultaat van 0,01 en 0,05 te krijgen. Want bij elke steekproef kan er een andere p-waarde gelden, dus p-waarde is een onbetrouwbare meting.
- De statistische significantie van een nulhypothese hangt ook sterk af van de sample size. Een niet-significant resultaat kan betekenen dat de steekproef te klein is. Er is namelijk veel onzekerheid over de bevolking als onze steekproef te klein is. Dus het kan misschien nog wel significant zijn, als de steekproef groter was geweest.

2

Wat gebeurt er als je sample size kleiner of groter wordt?





KLEINER: Als onze steekproef te klein is, is de kans van power ook kleiner/te klein om H0 af te wijzen. Het komt dan vaak voor dat we H0 behouden (ook al is hij fout: dan maak je een Type II-fout: de kans/beta dat je een onjuiste H0 niet verwerpt: dus onjuiste H0 behoudt).
Kleine sample size > lage power > geen significant resultaat, maar er is toch wel een effect (want je ziet in een betrouwbaarheidsinterval dat er veel verschil is tussen puntschatting: gemiddelde van steekproef en de H0), dan is het in de populatie toch anders.

GROTER= Als je sample size groter is (bv. N=240) dan heb je ook een hogere power, en dus kan je beter H0 afwijzen en minder Type II-fouten maken. Met een hogere power kunnen zelfs de kleinste verschillen worden gevonden, zoals 0,01 van 2,81 bij een H0 van 2,8 en als statistisch significant worden verklaard.

* Power (onderscheidingsvermogen) = de (hoeveelheid) kans/vermogen om een nulhypothese te verwerpen wanneer hij niet waar is. Bijv. een power van 0,52, betekent de kans is 52% die een p-waarde onder 0,05 kan geven. Als power 0,10, dus 10% was, dan heb je 10% om een p-waarde onder 0,05 te krijgen en dus H0 kunt verwerpen en een significant resultaat kunt krijgen. >>> Dan kan bij een power kans van 10%, H0 worden behouden omdat het misschien een te kleine sample size is, terwijl een power kans van 52% of zelfs 80% dan wel significant resultaat is en dus H0 verwerpt.

3

1. Wat is het verschil tussen statistisch significantie en praktische significantie/relevantie?
2. Welk resultaat heeft de meeste kans om praktisch relevant te zijn vanwege een grotere effect (larger effect size)?
3. Leg het verschil uit tussen lage en hoge power MET een niet of wel significant resultaat.

1. STATISTISCH SIGNIFICANTIE= betekent alleen dat de nulhypothese verworpen moet worden als het gemiddelde niet hetzelfde is als H0. Statistische significantie is geen measure voor power of praktische significantie of effect (grootte). Wanneer het effect tussen H0 en waargenomen steekproefgemiddelde groot is > dan heb je wel PRAKTISCHE SIGNIFICANTIE.

2. Een resultaat dat STATISTISCH SIGNIFICANTIE is in een toets met laag onderscheidingsvermogen (low test power).
> Want een test met een lage power, moet je hele grote verschillen (in gemiddelden) hebben om significante resultaten te vinden.

3. Verschil:
- HOGE power > betekent een puntige verdeling: dus een kleiner verschil (tussen gemiddelden, want hoe hoe meer gemiddelden je krijgt die dichterbij de werkelijke gemiddelde ligt) kan sneller gevonden worden. Dan weet je sneller wat het gemiddelde van de gemiddelden zijn wat H0 kan doen verwerpen. Want doordat de steekproef groter is, krijg je sneller gemiddelden dichter op elkaar liggen en een puntige verdeling krijgt, en kan je dus sneller de H0 verwerpen. Want dan is de kans groter dat het in de staarten van deze puntige verdeling ligt.

- LAGE power > er moet een groot effect nodig zijn om significant te zijn. Een lage power heeft namelijk een platte steekproefverdeling (meer een boog, dan piek). In de staarten van die verdeling aan de buitenkant is het significant, maar die staarten liggen ver weg van H0. Dus als een waarde dichterbij H0 zit omdat de steekproef te klein is, dan verwerp je H0 (=2,8), terwijl het gemiddelde 2,9 is, dan klopt H0 niet (je moet H0 verwerpen want 2,9 is niet 2,8), maar je bevestigd H0 toch, omdat de waarde dichterbij H0 ligt dan in de staarten, door een te kleine steekproef. Als de steekproef groter was, dan bewegen de staarten meer naar elkaar toe, waardoor het kan zijn dat 2,9 in het verwerpingsgebied van 0,05 terecht komt.



4

1. Wat betekent het als de power LAAG is en resultaat SIGNIFICANT is?
2. Wat betekent het als de power LAAG is en resultaat NIET SIGNIFICANT is?
3. Wat betekent het als de power hoog is + NIET SIGNIFICANT is?
4. Wat betekent het als de power HOOG is + SIGNIFICANT is?

1. Lage power + significant resultaat= dat is het een (heel) groot effect, want ook al is de power laag, dus dan liggen de staarten verder weg van H0, dan moet de effectgrootte echt ver weg liggen (in die staarten van een boogverdeling) om toch een significant resultaat te krijgen > groot effect = betekent ook praktisch significant, nut hebben.
> H0: 2,8 en steekproefgemiddelde is 2,81 dan is dit effect heel klein dus niet praktisch significant.

2. Lage power + NIET significant resultaat= Niet significant dat betekent dan of het de waarde van H0 (dus het is 2,8) of 'dichtbij' H0, dus het effect is dan klein > minder praktisch significant.

3. Hoge power + NIET significant resultaat= dichtbij H0, of eigenlijk meer kans dat de waarde van H0 heeft. En dit is dan echt een heel heel klein effect > want je power is extreem hoog en je kunt nog steeds niet H0 verwerpen en significant resultaat krijgen. Want als er wel een effect was, dan was het vast in die puntige verdeling geweest in die staarten die dichterbij H0 komen, ipv ver weg bij lage power.

4. Hoge power + significant resultaat= dit is alleen maar goed, dit betekent dat je grote kans had om H0 te verwerpen, want je power was hoog, dus meer kans om een significant resultaat te krijgen.

5

1. Betekenis schatting.
2. Leg uit wanneer je H0 verwerpt bij een betrouwbaarheidsinterval.
3. Wanneer kan je spreken van een negatief of positief effect als je kijkt naar de betrouwbaarheidsinterval?
4. Wat kan je zeggen over het feit dat de betrouwbaarheidsinterval heel breed/lang is?

1. Schatting= het beoordelen van de nauwkeurigheid van onze uitspraken over de populatie ipv te beslissen of onze (nul-) hypothese over de populatie klopt of niet.

2. Betrouwbaarheidsinterval= alle plausibele mogelijkheden betekent die lijn wat de betrouwbaarheidsinterval voorstelt. Zo weet je wat ongeveer de waarde is van de populatiegemiddelde. Als de betrouwbaarheidsinterval niet H0 omvat, verwerp je H0. Wanneer H0 er wel bij aanzit, dan verwerp je NIET de H0. Dus bijv. een betrouwbaarheidsinterval van -0,2 naar 0,14 en je waarde is 0,6. Je zou denken dat het dan significant is. Maar omdat de betrouwbaarheidsinterval breed is en naar negatief gaat, betekent het wel dat het langs 0 gaat en H0 is 0. Dus omvat de betrouwbaarheidsinterval de H0 > dus H0 klopt/behouden.

3. Als een betrouwbaarheidsinterval heel breed is dat het aan de linker en rechterkant ligt = kun je zeggen dat het effect zowel negatief als positief kan zijn. Als de lijn CI alleen aan de rechterkant ligt = kun je zeggen dat het een positief effect is. Maar de daadwerkelijke effect weet je niet, want kan ook klein of middelmatig of sterk zijn, je weet dat het positief effect is. De punt in de lijn van CI is de puntschatting: de waarde die je in de steekproef hebt gevonden.

4. Als de CI heel breed is, zijn we vrij onzeker wat nou de werkelijke populatiewaarde is. Als dus een breed betrouwbaarheidsinterval de H0 omvat, dan verwerp je dus niet H0, maar je weet niet zeker of hij wel dichtbij H0 zou zitten, stel dat het totaal aan de andere kant zou zitten

6

DOORLEZEN:
1. Wat is Nil hypothese? En de strawman (fallacy)?
2. Wat is een theoretische populatie?
3. Wat is data generating proces?

1. Als je eerder onderzoek wilt gebruiken om een nulhypothese te testen. Bv. je wilt gaan testen dat de exposure en brand awareness 0,1 is. Dan voert spss nog steeds 0 in voor de nulhypothese = dit heet the nil hypothesis, or nil. Tuurlijk als je helemaal geen idee hebt over de associatie is het interessant om H0 als 0 in te voeren. Maar als je dit wel weet (bv. H0: 0,1) kan je dit nog steeds niet gaan testen via spss, want dat is zinloos, want je weet al dat het 0,1 is, en spss zegt hey het is niet 0, dus verwerp je nulhypothese maar! < Metafoor strawman > strooipop omduwen: kijk hoe sterk ik ben! Strooipop zo makkelijk om omver te duwen = H0 (=0) zo makkelijk om te verwerpen, want je weet al dat het 0,1 was.

2. Theoretische populatie= We kunnen ons een dergelijke populatie voorstellen ipv daadwerkelijk een steekproef uit de waarneembare populatie trekken. Voorbeeld theoretische populatie: friese vrouwen met blond haar geïnterviewd > dan kan je zeggen dat het resultaat representatief kan zijn voor alle friese vrouwen met blond haar. Maar je hebt niet alle friese vrouwen met blond haar gevraagd, alleen een deel ervan. Het is vager, je moet als onderzoeker een redenering gaan bedenken waarom het toch voor een groter geheel toegepast kan worden.

3. Data generating proces: het rechtvaardigen waarom in andere omstandigheden en persoonlijke kenmerken andere uitkomsten komen als je het nog een keer doet in een andere steekproef. Want de resultaten kunnen door fluctuations anders zijn. Als je veel verschillende andere factoren hebben die een kleine invloed hebben op het resultaat is bewezen dat het leidt tot een normale verdeling. Het gaat om het mechanisme wat de gegevens heeft opgeleverd.