Hoofdstuk 3: Een parameter schatten: welke populatie values zijn aannemelijk? Flashcards
(6 cards)
- Wat is een parameter?
- Wat is een point estimate (puntschatting)?
- Waarom is dit getal meestal fout? Wat voor schatting maken we dan?
- Parameter= een statistieke kenmerk van de populatie. Dus het kan een populatiegemiddelde zijn of een regressie coefficient, meerdere parameters, niet alleen 1.
- Point estimate= als een steekproef statistic een zuivere schatter (unbiased estimator) is, kunnen we deze gebruiken als een point estimate voor de waarde in de populatie. De ware populatie-warde is gelijk aan het het gemiddelde van de steekproefverdeling (dit is ook de expected value voor de steekproef). De point estimate is 1 getal, het is daardoor wel nauwkeurig, maar hoogstwaarschijnlijk fout. Het beste wat je kan doen is een schatting maken (van de parameter), op basis van een kenmerk van je steekproef, maar dit is wss fout.»_space;> Dus maken we een intervalschatting.
- Het is fout= want steekproeven gebeuren op een random wijze, en dit kan dan afwijken van de populatie. Daarom is het beter om een range te schatten waarin de populatiewaarde in kan vallen. We doen een intervalschatting= dit is een range waar (populatie) gemiddelde misschien wel of niet in die range valt. (wel minstens ordinaal meetniveau: volgorde hebben: anders kan je niet zeggen of iets hoger of lager zit > boven- en ondergrens).
- Welke twee manieren zijn er om een nauwkeurige schatting te maken / precisie van de intervalschatting verhogen.
- Interval kleiner/nauwkeuriger maken, om een precieze schatting te maken:
a) De kans verkleinen dat onze schatting juist. Als je de kans verkleint dat we gelijk hebben, kunnen we een groot aantal andere mogelijke statistische resultaten van de steekproef weggooien en je richten op een beperkter bereik van steekproefresultaten rond de werkelijke populatie-waarde.
b) (zeer bruikbare methode) Het vergroten van de sample size. Als je een grotere sample size hebt (grotere zak snoep), krijg je een beter idee van het gemiddelde in de populatie. Grotere steekproef betekent ook een kleinere SE. Hoe groter de steekproef, hoe meer de waarden rond het gemiddelde zullen zitten en daardoor nauwkeurigere meting is en beter weet wat nou het gemiddelde is (in de populatie). Steekproefgemiddelde ligt dichterbij de populatiegemiddelde.
- Wat is de standaardfout?
2. Hoe kun je standard errors klein krijgen?
- Standaardfout= vertelt ons hoe nauwkeurig onze schatting van het interval zal zijn. = Als we een steekproef trekken kan het zo zijn dat onze point estimate (steekproefgemiddelde ligt dichtbij populatiegemiddelde) fout kan zijn. Elke keer als we een steekproef trekken, en het ligt heel ver weg van het populatiegemiddelde, dit is dan de standaardfout. De standard error is de standaardafwijking/deviatie van een steekproefverdeling. Hoe kleiner de standarderror > hoe meer de waarden van de steekproef statistic op de werkelijke populatie-waarde lijkt en des te nauwkeuriger onze intervalschatting is met een bepaald betrouwbaarheidsniveau.
- Het krijgen van kleine standard errors is te verkrijgen door de sample size groter te maken. Grotere sample sizes leveren meer piek-steekproefverdelingen. In zo’n piekverdeling liggen de waarden dichterbij het gemiddelde. Hoe groter sample size > hoe meer kans op dichterbij het gemiddelde. Grote standard errors daarentegen leveren minder nauwkeurige schatting en bredere betrouwbaarheidsinterval = dit willen we niet.
- Wat zijn de kritieke waarden bij de kans 95%?
- Wat geven kritieke waarden aan?
- Hoe bereken je de betrouwbaarheidsinterval? (met behulp van SE, M en kritieke waarden)
- -1,96 en 1,96 altijd. > in een standaard-normale verdeling.
- Kritieke waarden in een theoretische kansverdeling (bv. normale verdeling of t-toets) geven ons de grenzen van de intervalschatting aan uitgedrukt in standaardfouten. Interval van 95% tussen de 2,5% van linkerhelft en 2,5% van rechterhelft van de verdeling. In een normale verdeling bevinden 95% van alle steekproefgemiddelden zich niet meer dan 1,96 standaardfouten (-scores) van het populatiegemiddelde.
- . Formule betrouwbaarheidinterval: 95% CI= M +- kritieke waarde x SE (standaardfout).
- Wat is het Münchhausen-pobleem?
2. Wat is hierop de oplossing?
- Münchhausen-pobleem=
We weten niet de populatiegemiddelde, en we weten ook niet waar de steekproefgemiddelde ligt. Maar als we de populatie kennen, weten we waar de steekproefgemiddelde ligt. Het enige wat we hebben is een steekproef.
PROBLEEM: we willen een schatting maken wat de populatiegemiddelde is door middel van kansen. Voor kansen hebben we de steekproefverdeling nodig. Maar om aan een steekproefverdeling te komen, moeten we de populatie kennen. - Oplossing=
Stap 1: heel veel denkbeeldige populatiegemiddelden bedenken/selecteren. Voor elke denkbeeldige populatiegemiddelde berekenen we het interval waarin verwacht wordt dat het steekproefgemiddelde zal dalen als dit denkbeeldige gemiddelde het ware populatiegemiddelde zou zijn. We gebruiken een vast betrouwbaarheidsniveau, kans van 95%. In plaats van de interval rond het populatiegemiddelde te construeren, construeren we het rond de steekproefgemiddelde om een range van mogelijke populatiegemiddelden te krijgen.
Stap 2: Controleren of het gemiddelde van de steekproef die we hebben getrokken binnen het interval valt. Als dit zo is, concluderen we dat dit (denkbeeldige) populatiegemiddelde niet in tegenspraak is met de getrokken steekproef. Als het steekproefgemiddelde buiten de interval valt, dan concluderen we dat dit populatiegemiddelde niet aannemelijk is (significantie, p). > Op deze manier kun je alle populatiegemiddelden vinden die consistent zijn met de steekproef. Als de ware populatiegemiddelde een van de denkbeeldige gemiddelden is, kunnen we met 95% zekerheid een steekproef trekken met onze echte steekproefgemiddelde.
- Wat wordt met 95% bedoeld bij een betrouwbaarheidsinterval?
- Wat kan je zeggen over de betrouwbaarheidsintervallen die niet in de lijn van de true mean vallen?
- Wat is de punt in het midden van een betrouwbaarheidsinterval - lijn?
- Wat wordt bedoeld met de confidence level?
- Met 95% wordt bedoeld: we zeggen dat we 95% zeker van zijn dat de parameter (mean) binnen het (betrouwbaarheids-) interval valt. 95% is niet de kans dat een parameter (mean) een bepaalde waarde heeft OF dat de parameter in de interval valt. De steekproef die we trekken kan het gemiddelde gewicht van snoep niet (opeens) veranderen. De parameter heeft 1 waarde, en valt binnen of buiten het inteval dat je hebt geconstrueerd.
- De valse betrouwbaarheidsintervallen vallen niet binnen de werkelijke populatiegemiddelde. Je trekt een steekproef en het interval raakt niet de werkelijke populatiegemiddelde. (meestal is dit 5%). We verwachten dat 95 uit 100 betrouwbaarheidsintervallen de echte populatiegemiddelde bevat. En 5 daarvan (5%) niet. Maar dat is acceptabel, hebben we afgesproken (a: significantieniveau).
- Dit representeert de point estimate (ALS de standard error berekent is in de betrouwbaarheidsinterval).
- Confidence level= is de kans/waarschijnlijkheid dat onze betrouwbaarheidsinterval de werkelijke populatiewaarde bezit. Kan namelijk ook daarbuiten bevinden. MAAR niet hoeveel kans dat de ware populatie-waarde in het interval ligt. (bv. 4% kans dat de populatiegemiddelde in het interval ligt, niet hoog).
> Als de confidence level/betrouwbaarheidsniveau 95% is, dan is er een kans van 0,95 dat de werkelijke populatiegemiddelde binnen het betrouwbaarheidsinterval valt.