Der Inferenzstatistik zugrundeliegendes Problem
Problem: Erfassung eines Teils der Grundgesamtheit/Population (Stichprobe) → Informationslage in Bezug auf die Untersuchungsfrage unvollständig (können nicht einfach deskriptiv-statistische Methoden anwenden)
Wie kann man trotzdem Aussagen über die Grundgesamtheit machen?
(Praktisch alle psychologischen Theorien enthalten Aussagen über Populationen→zu ihrer empirischen Überprüfung immer inferenzstatistische Methoden notwendig)
Überblick Funktionsweise Inferenzstatistik
Zufällig Ziehung der Personen aus der Population in die Stichprobe → greifen zu Formalisierung der Ziehung auf die mathematischen Methoden der Wahrscheinlichkeitstheorie zurück
(Aus diesen ergeben sich) Methoden, die Rückschlüsse von der Stichprobe auf die Population erlauben → Inferenzstatistik
Zufallsexperiment “Zufällige Ziehung einer Person in eine Stichprobe aus einer Population von N Personen”
Dieser Vorgang ist ein Zufallsexperiment:
- Es existiert eine Menge möglicher Ausgänge:
Die Ergebnismenge Ω ist die Menge aller Personen in der Population: Ω={Pers. 1 , Pers. 2, …, Pers. i, … Pers. n} (Es existiert eine Menge möglicher Ausgänge)
- Wir wissen im Voraus nicht, welche Person gezogen wird.
- Wir setzen voraus, dass jede Pers. i die gleiche Wahrscheinlichkeit hat, gezogen zu werden, d.h., alle Elementarereignisse haben die gleiche Wahrscheinlichkeit:
P({Personi})=1/N
Herleitung P(AD)=hD
- Wir interessieren uns für die relative Häufigkeit hD der depressiven Personen in der Population*
- ND: Anzahl der depressiven Personen in der Population und AD: Menge der depressiven Personen i. d. Population: AD={Depr. Pers. 1, Depr. Pers. 2, …, Depr. Pers. ND}
- relative Häufigkeit der Depression in der Population: hD=ND/N
- P(AD) = P({Depr. Pers. 1}) + P({Depr. Pers. 2}) + … + P({Depr. Pers. ND}) =1/N + 1/N … +1/N = ND/N = hD
Die Wahrscheinlichkeit, eine depressive Person zu ziehen/ dass Xi den Wert 1 annimmt entspricht der relativen Häufigkeit der Depression in der Population.
Fazit Verlagerung des Problems der Bestimmung von deskriptivstatistische Maßzahlen in die Wahrscheinlichkeitstheorie
Da p/μ/σ2 ein Parameter einer Wahrscheinlichkeitsverteilung ist, können wir das Problem der Bestimmung der deskriptivstatistischen Maßzahl hD/X̅/s2emp in der Population komplett in die Wahrscheinlichkeitstheorie verlagern, und somit alle Mittel verwenden, die uns diese zur Verfügung stellt.
Einfache Zufallsstichprobe
Zufällige Ziehung von n Personen aus einer Population von N Personen (“mit Zurücklegen”) → n wird hierbei Stichprobenumfang genannt
Dieser Vorgang ist ein Zufallsexperiment:
- Wir wissen im voraus nicht, welche Personen gezogen werden
- Menge aller Möglichen Stichproben mit n Personen (Ergebnisraum Ω)
Wir setzen voraus, dass:
- jede Person in der Population bei jeder der n Ziehungen diegleiche Wahrscheinlichkeit hat, in die Stichprobe gezogen zu werden.
- die n Personen unabhängig voneinander gezogen werden.
→Zufallsstichproben mit diesen Eigenschaften werden einfache Zufallsstichproben genannt
iid Zufallsvariablen
- Seien nun X1, X2, … Xi, … Xn Zufallsvariablen, die für die Werte der Personen einer Stichprobe, auf der uns interessierenden Variable stehen. In unseren Beispielen:
- Xi nimmt den Wert 1 an, falls die i-te zufällig gezogene Person depressiv ist, und den Wert 0 falls nicht
- Xi ist der IQ der zufällig gezogenen Person
- Unter der Voraussetzung einer einfachen Zufallsstichprobe haben alle diese Zufallsvariablen die gleiche Wahrscheinlichkeitsverteilung, in unseren Beispielen:
- Xi~Be(p) für alle i=1, 2, … n
- Xi~N(μ, σ2) für alle i=1, 2, … n
- Wie im Fall der Ziehung einer einzelnen Person, entsprechen die Parameter p, μ, σ2 wieder den uns jeweils interessierenden deskriptivstatistischen Maßzahlen in der Population (p=hD in Beispiel 1, μ=x̄IQ und σ2=s2empIQ)
→ Unabhängige ZV X1, X2, … Xn, die alle gleiche Wahrscheinlichkeitsverteilungen aufweisen, nennen wir iid Zufallsvariablen (independent and identically distributed)
Notation:
Xi~ Be(p)
Xi~ N(μ, σ2)
→ Vorliegen von iid ZV ist eine Vorraussetzung für die meisten inferenzstatistischen Verfahren.
Zusammenfassung: Bestimmung der relativen Häufigkeit einer Messwertausprägung einer diskreten Variable in der Population
Falls wir uns für die relative Häufigkeit einer Messwertausprägung einer diskreten Variable in der Population interessieren:
- Wir ziehen eine einfache Zufallsstichprobe der Größe n aus der Population.
- Wir betrachten die Zufallsvariablen X1, X2, … , Xi, Xn wobei Xi den Wert 1 annimmt, falls die i-te zufällig gezogene Person die uns interessierende Messwertausprägung aufweist, und 0 falls nicht.
Für diese Zufallsvariablen gilt dann:
- Xi~Be(p) (iid)
- der Parameter p entspricht der relativen Häufigkeit der uns interessierenden Messwertausprägung in der Population.
Zusammenfassung: Bestimmung des Mittelwerts und der empirischen Varaianz für stetige Zufallsvariablen in der Population
Falls wir uns für den Mittelwert und die empirische Varianz einer stetigen Zufallsvariable in der Population interessieren, deren Histogramm durch die Wahrscheinlichkeitsdichtefunktion einer Normalverteilung approximiert werden kann:
- Wir ziehen eine einfache Zufallsstichprobe der Größe n aus der Population.
- Wir betrachten die Zufallsvariablen X1, X2, …, Xi, …, Xn , wobei X1 für den Wert der i-ten zufällig gezogenen Person auf der uns interessierenden stetigen Variable steht.
- Für diese Zufallsvariablen gilt dann: Xi~N(μ, σ2) (iid)
- -der Parameter μ entspricht dem Mittelwert der stetigen Variable in der Population.
-der Parameter σ2 entspricht der empirischen Varianz der stetigen Variable in der Population.
Praktische Probleme bei der Stichprobenziehung (häufig wird keine einfache Zufallsstichprobe gezogen)
Fehlende Repräsentativität:
-Eine bestimmte Teilgruppe von Personen in der Population hat eine höhereWahrscheinlichkeit, in die Stichprobe gezogen zu werden, als andere Personen.
- Beispiel: Nur Psychologiestudenten haben eine positive Wahrscheinlichkeit, gezogen werden.
- Folge: Die interessierende Maßzahl in der Population entspricht nicht mehr dem Parameter der jeweiligen Wahrscheinlichkeitsverteilung. Inferenzstatistische Verfahren, die hierauf aufbauen, sind verzerrt.
Abhängigkeit der Ziehungen:
- Die Ziehungen der Personen sind nicht unabhängig voneinander.
- Beispiel: sog. geschachtelte Stichproben: Zufälliges Ziehen einer Schule, dann zufälliges Ziehen von Schülern aus dieser Schule.
- Folge: Die Zufallsvariablen sind nicht mehr iid. Inferenzstatistische Verfahren, die hierauf aufbauen, sind verzerrt.
- Falls die Art der Abhängigkeit bekannt ist, kann dies mithilfe statistischer Methoden ausgeglichen werden.