Hoofdstuk 2: Kansmodellen: Hoe creëer je een steekproefverdeling? Flashcards Preview

Statistische modellen > Hoofdstuk 2: Kansmodellen: Hoe creëer je een steekproefverdeling? > Flashcards

Flashcards in Hoofdstuk 2: Kansmodellen: Hoe creëer je een steekproefverdeling? Deck (5):
1

1. Op welke drie manieren kun je een steekproefverdeling creëren zonder veel steekproeven te trekken? (met behulp van 1 steekproef)
2. Wat houdt de eerste manier in?
3. Wat houdt een steekproef zonder vervanging/replacement/terugleggen in?
4. En met terugleggen?

1. a) Bootstrapping
b) Exacte benaderingen
c) Theoretische benadering

2. Bootstrapping= Het is nog steeds wel gebaseerd op het trekken van veel steekproeven, maar nu trek je maar 1 steekproef. En de volgende stap trek je steekproeven uit je ene eerste/initiële steekproef. Deze steekproeven heten dan bootstrap samples, en alle bootstrap samples stop je in een steekproefverdeling. Dus niet uit de populatie een steekproef trekken, maar uit de eerste steekproef, nieuwe steekproeven trekken.

3. Steekproef trekken ZONDER terugleggen/replacement= We trekken een steekproef vanuit onze initiële steekproef met precies dezelfde grootte. Dus alle nieuwe steekproeven moeten dan identiek zijn aan de initiële steekproef. Zonder terugleggen beteken dat 1 persoon die meedoet aan het onderzoek, niet opnieuw 'teruggelegd' mee mag doen aan het onderzoek.

4. Als we een steekproef met terugleggen trekken, kunnen observaties/waarnemingen meerdere keren getrokken worden dan 1x/ Dus met terugleggen wordt bedoeld dat een persoon die meedoet aan het onderzoek, nog een keer mee genomen kan worden.

>>> In praktijk doen we zonder terugleggen = maar we rekenen met terugleggen. Als de populatie groter is dan de steekproef, zijn de kansen in de stekeproef zo klein, dus maakt het niet zo veel uit.

2

1. Wat zijn de voorwaarden voor het overeen laten komen van de bootstrap steekproefverdeling met de werkelijke steekproefverdeling?
2. Is bootstrapping met of zonder terugleggen?

1. a) steekproefgrootte: de sample size moet groter zijn dan een kleine sample size. Wanneer de initiële steekproef geen gele snoepjes bevat, kan geen enkele bootstrap samples gele snoepjes betrekken. Het aantal bootstrap steekproeven met gele snoepjes is dan altijd 0. Hoe kleiner de sample size, hoe groter de kans op geen gele snoepjes.

b) Representativiteit: de oorspronkelijke/initiële steekproef moet representatief zijn voor de populatie, anders krijg je een vertekend beeld van de werkelijke steekproefverdeling. Het probleem kan dan zijn dat je een steekproef hebt getrokken die de populatie niet goed weergeeft, want dan is je bootstrap samples al helemaal niet representatief.

2. Bootstrapping is altijd MET terugleggen: want dan kan je geen 10 rode snoepjes hebben en dan opeens 15 rode snoepjes in een bootstrap sample. Want dan zijn het aantal rode snoepjes altijd beperkt minder want je legt het niet terug. (maar de steekproefgrootte bij een bootstrap is wel gelijk aan oorspronkelijke/initiële steekproef (N=50)).

3

1. Wat houdt de exacte benadering in? (om een steekproefverdeling te creëren, waarbij je niet oneindig veel steekproeven hoeft te trekken)
2. Welk meetniveau bezit de exacte benadering?
3. Geef een voorbeeld met kop en munt.

1. Exacte benadering= Exact beteken dat de verkregen steekproefverdeling, DE echte steekproefverdeling is. De werkelijke steekproefverdeling wordt berekend van het proportie gele snoepjes in een steekproef uit de mogelijkheden van de kleuren. Bij combinaties heb je de verschillende mogelijkheden die je kunt hebben met als voorbeeld kop of munt.

2. Het meetniveau moet (2) categorische variabelen zijn. Want exacte benadering is eigenlijk tellen, en dat kan ook makkelijk gedaan worden, maar alleen als het niet op oneindig veel mogelijkheden kan. Moeilijk te tellen als je 1000 combinaties hebt. Daarom kan het alleen worden toegepast op discrete variabelen, omdat ze een beperkt aantal waarden hebben. De Fisher-exact-test kan dit toetsen.

3.. Bij 0x kop heb je de combinatie: munt – munt – munt. Dit resulteert in 1/2x1/2x1/2=1/8= 0,125. De kans op 1 kop, kan je berekenen door de hoeveelheid keer dat 1 kop voorkomt (3x), dus 0,125x3= 0,375. Hetzelfde heb je bij 2x kop: de kans daarop is ook 0,375. Omdat het drie keer kan dat 2x kop mogelijk is als je drie keer met een muntje gooit. Alles bij elkaar is 1.

= Combinaties tellen en delen door totaal > 1 mogelijkheid om geen kop te krijgen, en dat delen door 8 want dat is het totaal aantal combinaties.

4

1. Wat houdt de theoretische benadering in?
2. Wat is de voorwaarde voor theoretische kansverdeling?
3. Welke vuistregels/voorwaarden zijn er voor:
a. (standard) normale verdeling met proportie als sample statistic (proportie aantal kleuren bv)
b. (standard) normale verdeling met 1 of 2 gemiddelden
c. T-distributie met 1 of 2 gemiddelden
d. T-distributie met een correlatie
e. T-distributie met regressie coefficient
f. F-distributie met (meer dan) 3+ gemiddelden
g. F-distributie met twee varianties
h. Chi-squared distributie

>>> minimale sample size + andere vereisten.

1. De theoretische benadering ((wiskundige functies)= Voor de steekproefverdeling van (steekproef-) gemiddelden weten we dat de normale of t-distributie de steekproefverdeling nauwkeurig representeert. Het gemiddelde van de steekproefverdeling verandert niet, het is gelijk aan de populatiegemiddelde. Maar de wijdte/breedte verandert wel, dit kan betekenen dat de variatie (SD) in de populatie verandert als je een nieuwe steekproef trekt . Deze benadering kan een betere schatting geven van de steekproefverdeling dan andere benaderingen. De curve is de normale verdeling ALS de theoretische kansverdeling.

2. Hoe meer de verdeling naar 0 of 1 gaat, hoe meer scheef hij wordt en niet meer symmetrisch is. De steekproefverdeling geeft een mooie weergave als de proportie bij 0,5 is, perfect symmetrisch. De theoretische kansverdeling past in sommige situaties wel (bij 0,5) en in andere niet (0 of 1).

3. a. (standard) normale verdeling met proportie als sample statistic= De minimale sample size moet groter dan 5 zijn. Bv. SAMPLE SIZE is 30 en de kans om een geel snoepje te trekken is 0,20. 30x0,20=6. Dus groter dan 6. Dan kan je deze normale verdeling gebruiken als benadering voor de steekproefverdeling..

b. (standard) normale verdeling met 1 of 2 gemiddelden= De SAMPLE SIZE moet groter dan 100 zijn. + variabele is normaal verdeeld in de populatie en populatie SD is bekend (voor elke groep).

c. T-distributie met 1 of 2 gemiddelden= De SAMPLE SIZE moet groter dan 30 zijn. + variabele is normaal verdeeld in elke groepspopulatie.

d. T-distributie met een correlatie= Geen SAMPLE SIZE voorwaarde. + variabelen zijn normaal verdeeld in de populatie.

e. T-distributie met regressie coefficient= De SAMPLE SIZE is 20+ per predictor variabele. + niks.

f. F-distributie met (meer dan) 3+ gemiddelden= De SAMPLE SIZE: alle groepen zijn ongeveer gelijk. + de groepen hebben dezelfde populatie-variantie (Homogeneity Levene's F test).

g. F-distributie met twee varianties= Geen SAMPLE SIZE voorwaarde. + geen conditions for levene's F-test.

h. Chi-squared distributie= De SAMPLE SIZE : expected freqeutnie > hoger dan 1 en 80% > hoger dan 5. (20% mag lager de 5). + Contigentie tabel 3+ rij en 3+ kolommen.




5

1. Wat zijn onafhankelijke steekproeven?
2. Wat zijn afhankelijke steekproeven?

1. Onafhankelijke steekproeven= Steekproeven los van elkaar trekken. Onafhankelijk betekent dat er geen relatie is tussen de snoepjes (rood en geel). Als je het gemiddelde gewicht van rood en het gemiddelde gewicht van geel vergelijkt > zijn de steekproeven statistisch onafhankelijk van elkaar. Het gaat om twee hele verschillende groepen/steekproeven met eigen gemiddelden, en dat vergelijk je met elkaar, rood is zwaarder bv.

2. Afhankelijke steekproeven= De gegevens zijn afhankelijk van elkaar. Het is 1 variabele met herhaalde metingen (bv. voor-en nameting). Je vergelijkt de gemiddelden van de twee metingen (van 1 variabele). Hetzelfde snoepje 2x meten, omdat het snoepje veranderd is omdat het in de zon heeft gezeten en later is uitgedroogd bv. (Je kijkt per snoepje hoe erg uitgedroogd). Terwijl bij onafhankelijke heb je 2 verschillende snoepjes.

>>> Bij beide wordt het verschil in gemiddelden in een steekproefverdeling gezet.