Hoofdstuk 8: Moderatie met regressieanalyse Flashcards
(8 cards)
8.1 De regressievergelijking:
- Hoe ziet een regressievergelijking met letters eruit met als predictors: exposure, status en contact (op attitude)?
- Wat vertegenwoordigt de regressielijn?
- Wat zijn covariates?
- Leg uit wat een constant is en waar hij gelijk aan staat.
- Leg uit wat de b (ongestandaardiseerde regressiecoefficient) kan doen.
- Y (attitude)= a + b1x: exposure + b2x: status + b3* x: contact.
- Regressielijn= vertegenwoordigt de voorspelde waarden van de uitkomstvariabele (y) voor alle waarden van de voorspeller (x).
- Covariaties= een variabele dat de uitkomst kan voorspellen, maar is niet ons hoogste prioriteit, dus houden hem onder constant. Dus andere predictors in meervoudige regressiemodel.
> als we zomaar een waarde invullen voor deze covariate, veranderd de constant wel, maar de b verandert nooit! Bijv. als de variabele niet deel is van de interactievariabele > kies je zomaar een cijfer: meestal wordt een gemiddelde vaak gekozen. Dit doe je om maar 1 onafhankelijke variabele over te houden, bv. exposure, want dit wil je uiteindelijk weten wat het effect daarvan is op attitude. - Constant= is de voorspelde attitude wanneer een persoon 0 scoort op alle predictor variabelen. Dus door op de plaats van alle b’s de 0 in te voeren. Want als je Y=constant + b10 + b20 + b3*0 = doet dan houd je alleen nog de (getal van) constant over. Wat dan gelijk de attitude score is voor de persoon die 0 scoort.
~ Voorbeeld: Constant is 2,88, dan interpreteer je met 0, omdat je 0 elke keer invult op de plaats van de b’s > dus een niet-roker (coded=0) die 0 exposure heeft en 0 contact met rokers heeft, scoort 2,88 op attitude tegenover roken.
(Als het niet 0 was op de b’s, dan heeft constant geen betekenis). - b= het voorspelde verschil in uitkomst als er een verschil plaatsvindt als de predictor variabele met 1 eenheid toeneemt (bv. van 4 naar 5) > dan stijgt de de score met …. b. Stel je voor dat b= -0,25. Elke keer als x wordt ingevuld dus van 4 (0,40) naar 5 (0,15) > gaat er -0,25 ‘erbij’ (in dit geval eraf): 0,40 + - 0,25 = 0,15.
> De b vertelt ons hoe groter (positieve coefficient) of kleiner (negatieve coefficient) de mean score van een groep is in vergelijking met de reference group (die 0 gecodeerd is, dus niet-rokers) > hierboven: -0,25 lager van 0 naar 1 (elke keer -0,25 erbij).
8.1 De regressievergelijking:
- Wat blijft er over in de regressievergelijking wanneer je dichotome voorspellers invult met 0 en 1? > Waar staan a & b gelijk aan?
- Argumenten voor het kiezen van de ‘reference group’.
- Hoe maak je van een categorische variabele > into een dummyvariabele? Waarom laat je 1 groep weg? En welke laat je dan weg?
Bij dichotome variabelen, interpreteren we niet het effectgrootte van beta.
- a) Constant= als niet-rokers gecodeerd zijn met 0 en het regressiemodel bevat alleen maar 1 predictor, dus 1b. Dan staat het gemiddelde score van niet-rokers gelijk aan de constant.
Regressievergelijking= Attitude = constant + b*0= constant +0 = constant. Want constant blijft dan over, dus is het getal voor constant GELIJK aan de score voor niet-rokers hun attitude tegenover roken.
b) De ongestandaardiseerde regressie coefficient (b) is GELIJK aan het gemiddelde attitude score voor rokers minus (-) het gemiddelde attitude score voor niet-rokers.
- Rokers (1): attitude = constant + b1 = constant +b (want anders houd je bijv constant is 0,5 en b is 0,9, ja en wat is nu de score voor rokers?).
- Niet-rokers: constant + b0 = constant.
> Rokers - niet-rokers: (constant +b) - constant = b. Je houdt namelijk alleen b over (vandaar dat je constant opheft, omdat je nu maar 1 getal overhoudt voor b). Dus staat het gelijk aan de waarde van het verschil tussen de waarde van roker (constant+b) en niet-roker (constant).
- Kiezen reference group als:
- Substantive interest=focust jouw onderzoek naar 1 bepaalde groep? Kies deze groep dan als reference group. Werkt anti-rook ad tegen roken? Dan wil je rokers je reference group maken.
- Bepaalde volgorde verwachten in groepsgemiddelden > kies dan de groep in het midden als reference group. Niet roker - former roker - roker. Dan kies je former roker > en vergelijk je of former roker positiever (dan niet-rokers) of negatiever (roker) tegenover roken is.
- Twee groepen relatief gelijke gemiddelden in vergelijking met 3e groep > kies dan een van die twee groepen als reference group. - Categorisch (3 waarden/groepen) > into dummyvariabelen. DOOR: voor elke groep dummyvariabele te maken, behalve één groep. WANT de eerste twee dummyvariabelen bepalen gelijk wat het antwoord op de derde dummyvariabele wordt. Als je 1 scoort op ‘nooit gerookt’ of ‘ rookt niet meer’ > dan scoor je direct een 0 bij de derde groep: ‘rookt’. WEG: de dummyvariabele die je uitsluit is de reference group uit het regressiemodel. (reference group kan je mee vergelijken > positievere attitude DAN rokers (: reference group).
8.1 De regressievergelijking:
- Wat zijn de twee belangrijkste veronderstellingen voor de observaties/waarnemingen in een steekproef? (wat zijn residuals bij 2e puntje?
> Problemen in statistische gevolgtrekking. - Wat zijn de twee andere veronderstellingen die ons over problemen vertellen in ons (regressie-)model?
- Twee veronderstellingen die ons problemen vertelt in statistische gevolgtrekking:
a) ONAFHANKELIJK ZIJN= elke observatie (bv. meting van respondent) moet onafhankelijk zijn van alle andere observaties (scores van anderen). De uitkomstvariabele score (y) van deze respondent mag niet afhankelijk zijn van andere invloeden, zoals mede respondenten hun uitkomstscores.
b) IDENTIEK VERDEELD ZIJN= om identieke verdeelde waarnemingen te controleren, inspecteren we de residuals.
RESIDUALS= het verschil tussen scores dat we observeren voor onze respondenten (echte uitkomstscore) EN de scores dat we voorspellen over onze respondenten met onze regressiemodel (en vergelijking, we doen een voorspelling: dit wordt aangetoont met een lijn dat als je predictor x invult je dan y krijgt). Residual wordt weergegeven door de error term e (wat je fout ‘voorspelt’). Dus voorspellen we (ongeveer) hetzelfde als wat er uit de steekproeven komt (onze voorspellingen zullen niet altijd goed zijn, meestal te hoog of te laag? De residuals kunnen worden opgeteld in een histogram.
> ALS onze steekproef een willekeurige steekproef is, met onafhankelijke en identiek verdeelde waarnemingen = zullen onze voorspellingen equally bad or equally well zijn voor elke waarde van de uitkomstvariabele. DUS de grootte van onze errors (residuals) / verschil tussen echt en voorspelt zal normaal verdeeld zijn voor elke attitude level.
> > > Niet onafhankelijk + niet identiek verdeeld? Dan niet
vertrouwen op resultaten en niet aannemelijk.
- Twee veronderstellingen die ons problemen vertelt in het regressiemodel:
a) LINEAIRITEITSVERONDERSTELLING= De regressiemodellen die we bespreken gaan ervan uit dat de associatie tussen de voorspellende en de uitkomstvariabelen linear is, dus dat de residuals linear kunnen zijn. Ons lineaire regressiemodel veronderstelt een lineair effect van de voorspellers (x) op de uitkomstvariabele (lineariteit).
> Dus een lineaire lijn voldoet aan de lineairiteitsveronderstelling, een u-shaped of curve regressielijn niet. Dat betekent dat het niet past. Als het wel zou passen, is de gemiddelde voorspellingsfout 0 voor alle voorspelde uitkomstniveaus. Grafisch gezien komt ons lineaire model overeen met de gegevens als positieve voorspellingsfouten (residuen) min of meer in evenwicht worden gehouden door negatieve voorspellingsfouten overal langs de regressielijn. (in scatter plot: over en nergens de dots, maar in u-shaped of curve is er meer bv boven/onder de lijn).
b) HOMOSCEDASTICITY= dat de voorspelling even hoog en laag/ goed en slecht voorspelt worden (voor alle levels/dots van de uitkomstvariabele) en dat het niet een uitschieter is boven de (voorspelde lijn) en heel klein residual beneden de lijn. Dus dat het even goed overal voorspelt wordt. En nieteen trechter wordt waardoor het van heel hoge residuals naar laag gaat of andersom maar dat het even groot die residuals zijn. Als de dots heel laag zijn, dan heb je het te laag voorspeld. Je wilt dat het ongeveer in evenwicht is hoeveel je hebt voorspeld.
8.3 Numerieke voorspeller + categorische moderator:
- Wat is een slope?
- Hoe krijg je een interactievariabele?
- Waarom representeert b1 het effect van exposure op attitude in de volgende equation: Attitude= constant + b1*exposure + b2 * smoker + b3 * contact + b4 exposuresmoker +e.
- Wat is dan de simple slope voor smokers?
- Wat is een conditioneel effect?
- Moderatie= betekent verschillende slopes voor verschillende groepen. De slope van de regressielijn is de regressiecoefficient. Die expresses het effect van de predictor op de uitkomstvariabele. Als we verschillende effecten in verschillende contexts (moderatie) hebben, hebben we verschillende regressie coefficienten voor verschillende groepen. Als de lijnen parallel zijn: dan betekent het gelijke slopes (verschil tussen b1 en b1+b4=0). Dus als je moderatie hebt: heb je ook verschillende slopes voor de (deelnemende) groepen.
> Regressiecoefficient= als je een eenheid verticaal naar links gaat, ga je ook een eenheid (kan elk getal zijn) horizontaal: dus driehoekachtige vorm van de lijn. (zie afbeelding aantekeningen). - Interactievariabele= het product van de voorspeller (X) en de moderator, van de oorspronkelijke onafhankelijke variabelen, dus in dit geval: exposure & contact.
- De simple slope voor non-smokers= deze groep is gecodeerd 0. Dus vul je op de plaats van ‘smoker (status)’: 0 in. Dus valt b2 en b4 weg. Dan heb je nog ‘constant + b1exposure+b3contact+e over. Dus het getal voor b1 staat gelijk aan het effect van exposure op attitude voor non-smokers.
- Omdat de interactievariabele in het model voor smokers, die 1 scoren op smoking status is. Dus is het exposure effect gelijk aan het effect voor de reference group (non-smokers: b1) + het effect van de interactievariabele (b4) > b1+b4. Dus dan krijg je de simple slope voor smokers. Want als je 1 invult, dan valt status weg, want dat is 1 voor rokers. En dan houd je constante, met b1 en b4 over. Dus b1+b4 is het regressiecoefficient (van exposure, voor rokers).
> regressievergelijking uiteindelijk krijg je: constant + (b1 + b4) exposure + b2 + b3contact +e. Omdat b1 en b4 exposure bezitten. Dus de regressie coefficient voor smokers = (b1+b4) voor exposure > dit is zo berekent in de vergelijking, hetzelfde als bij non-smokers, bleef daar b1 achter.
> Het interactie-effect (b4) toont het verschil aan tussen de simple slope van exposure effect voor smokers (b1+b4) en de simple slope voor non-smokers (b1).
> b1 * b1+b4 = b1 heft elkaar op, dan heb je b4: interactievariabele over. - Conditioneel effect= De regressie coefficient b2 voor smoking status (rokers en niet-rokers) drukt het effect uit onder de conditie als de persoon 0 scoort op de andere exposure predictor. Dus zodra een andere predictor 0 is, en dat dus wegvalt, houd je alleen nog het effect van smoking status over. ALS DE VARIABELEN DEEL ZIJN VAN EEN INTERACTIEVARIABELE. Omdat 1 van de 2 (interactie) variabelen wegvalt en de ander overblijft.
8.3 Numerieke voorspeller + categorische moderator:
- Tabel:
- constant: 0,900
- Exposure: -0,162
- Status (smoker): 1,980
- Exposure*Status (smoker): -0,327
Hoe kan je deze informatie interpreteren? - Leg uit wat het conditionele effect is van de voorspeller als de moderator 0 scoort, of andersom.
- De reference group is non-smokers die 0 gecodeerd zijn op de status variabele.
- Exposure (b1): Dus de regressie coefficient voor exposure geeft ons het effect van exposure op smoking status voor non-smokers. Wanneer dus exposure met 1 eenheid toeneemt > zal de attitude 0,16 punten meer negatief zijn onder non-smokers.
- Status: Het effect van status op atittude is een conditioneel effect on exposure. De regressie coefficient voor status vertelt ons het verschil tussen smokers en non-smokers die 0 exposure hebben. Maar omdat status met 1 eenheid toeneemt, en 1= smokers, interpreteren we het voor smokers en niet non-smokers. (conditioneel effect: exposure 0) = met 0 exposure, scoren smokers 1,98 meer positiever op attitude tegenover roken dan non-smokers.
- ExposureStatus:
Slope van non-smokers voor exposure: -0,16 (b1).
Slope van smokers voor exposure: -0,49. WANT interactievariabele ‘exposurestatus’: -0,33 (b4). En het was b1+b4. Dus -0,16+-0,33= -0,49.
-0,33 interpreteren: de slope van exposure effect is 0,33 lager voor smokers dan voor non-smokers (omdat smoking status 1 is, valt status weg, en dan heb je nog exposure over, omdat je de slope van smokers aan het berekenen was. Anders voor non-smokers: 0 invullen, houd je toch alleen b1 over).
- Bij exposure*contact als interactievariabele= Als het effect voor respondenten 0 is op de andere variabele. Dus 0 op contact, dan is exposure de conditionele effect. Dan zijn respondenten die 0 scoren op de moderator (contact): de reference group, en de score 0 op de moderator (contact) is de reference value (bvij. exposure= 0,43) voor het conditionele effect van exposure. Kan ook andersom: het conditionele effect van moderator (contact) is het effect van moderator (=0,21) (getal van contact) als de voorspeller (exposure) 0 is. Conditionele effect= met getal, onder de conditie dat de score van de andere predictor 0 wordt ingevuld.
> De 0 score: is de referentiewaarde voor het effect van de andere predictor. Want als de ene 0 scoort, houd je nog het andere (b1 bijv.) over, en dan geldt dat getal van b1.
8.3 Numerieke voorspeller + categorische moderator:
- Waarom moet je een interactievariabele creeren bij een categorische variabele (3 groepen) voor 2 groepen?
- Wat is nu het conditionele effect bij de volgende variabelen:
- exposure
- former smoker
- smoker
- exposureformer
- exposuresmoker - Wat is common support?
- We moeten dummyvariabelen creëren voor alle groepen behalve 1 groep. Dan is de groep die overblijft de reference group.
> Dus: ‘ExposureFormer’ & ‘ExposureSmoker’. Dit hoefde je bij de vorige interactievariabele niet te doen, omdat daar maar twee groepen was. Dus kon je ook makkelijker tussen die twee vergelijken. Als het ene niet hebt, heb je de ander. Nu is het lastiger om te vergelijken tussen groepen. Dus vergelijk je interactievariabele: exposureformer met non-smokers en ook exposuresmoker met non-smoker. - Exposure, former smoker en smoker zijn conditionele effecten omdat ze alle drie voorkomen in een interactievariabele. Dus exposure drukt het effect uit als een persoon 0 scoort op former smoker en smoker. Dus dan heb je gelijk non-smoker.
- Common support: Zijn de observaties voor alle groepen gelijk?
= ik wil binnen alle groepen van mijn moderatie wil ik een mooie spreiding van mijn predictor/onafhankelijke variabele.
> Contact laag, midden, hoog= die lijnen moderatie interpreteren. Ze moeten dan wel verantwoord zijn: We willen die lijnen zo hebben dat alle mogelijke waarden voor de voorspeller scores hebben. Stel dat middelmatige contact met rokers allemaal hoge exposure hebben. Maar voor de andere exposure is er niks. Geen scores op de volle lijn van de predictor op attitude. Common support= hebben we over de hele linie wel scores binnen een bepaalde categorie/groep van de moderator. Niet genoeg scores = common support niet oke.
> Om goed conclusies te trekken over de attitude, moet elke contact-groep wel allemaal dezelfde hoeveelheid exposure hebben. Anders kan het liggen aan het te weinig of te hoog exposure gehalte.
8.5 Numerieke voorspeller + numerieke moderator:
- Wat is mean-centereren?
- Hoe moet je dan het interactie-effect met mean-centered variabelen interpreteren?
- Mean-centereren= Als je kijkt in de puntenwolk zie je dat als de regressielijn op 0 ligt, je weinig observaties/waarnemingen ziet/hebt. Als mensen bijvoorbeeld 0 keer contact hebben met rokers, je ziet dat het weinig mensen die ook echt geen contact hebben met rokers. Je baseert de lijn op te weinig waarnemingen. Waarschijnlijk geen significant resultaat, omdat je een onzekere lijn hebt > en liever wil je een lijn waarbij de waarnemingen dichterbij de lijn liggen.
> Dus kies je het midden, dus eigenlijk het mean (van moderator: contact). Zo heb je meer zekerheid, meer blauwe dots die om de lijn omvat zijn. Nu heb je meer waarnemingen en mensen hebben gemiddeld contact (5x) met rokers.
»> Dan doe je contact - (min) M (van contact). Dan krijg je contact_meancentered= 0. Dus contact score=5, en mean van contact =5. Dus 5-5=0. Nu scoren ze 0 op de mean-centered variabele = nu zijn ze de reference group. - Interactievariabele= is het effect van de predictor voor gemiddelde score op de moderator. Als we de moderator mean-centereren, dan toont b1 exposure het effect aan van exposure op attitude voor mensen met gemiddelde contact met rokers.
> Moderator niet mean-centereren? Dan is b1 voor mensen die geen contact heeft met rokers, want dan scoren ze gewoon 0 op contact.
> Numerieke voorspeller en numerieke moderator allebei dan centreren als ze numeriek zijn.
- Wat zijn interessante moderatorwaarden om regressielijnen te tekenen voor een numerieke moderator?
- Wat kan je hiermee?
- Wat zijn de 2 stappen die je volgt wanneer je moderatie wilt gaan visualiseren als de verschillende regressielijnen in een plot?
- Als de moderator mean-centered is wat vullen we dan in de vergelijking?
- Wat moet je invullen als de moderator is niet ge-mean-centered?
- Moderatorwaarden:
- Slechtste: is het minimum en het maximum = want je hebt dan heelweinig observaties/waarnemingen (puntjes) dus is de regressielijn niet betrouwbaar.
- Beste: moderator waarde met 1 SD weg van de mean (dus M-1SD en M+SD) = want deze lijnen zitten in het midden en zitten precies goed in het midden van alle puntje/dots. Maar 1e en 3e terciles zijn ook goed in het midden dus ook een goede keuze.
> 1 SD beneden M: low value.
> M: central value.
> 1 SD boven M: high value. - Door deze moderatiewaarden te nemen, kunnen we moderatie (numerieke variabele) visualiseren als verschillende regressielijnen in een plot. (Het visualiseren van een interactievariabele)
- Stappen:
- Stap 1: we stellen vergelijkingen op voor conditionele effecten van de predictor vor de verschillende levels van moderator. Voer de geselecteerde waarde van de moderator in (beste: MEAN, voor numerieke moderator) in de vergelijking. Voor een dichotome variabele: 0 of 1 invoeren.
- Stap 2: we gebruiken de (vereenvoudigde) vergelijkingen na het invoeren van alle waarden als regressielijnen in een scatterplot. - Als de moderator ge-mean-centered is, dan voeren we de waarde 0 in om de vergelijking voor de regressielijn voor het gemiddelde moderator (contact) te krijgen. Omdat je de moderator al hebt ge-mean-centered is de nieuwe mean-centered variabele 0 geworden. Daarbij als je 1SD boven het gemiddelde moet invoeren voor een variabele/moderator moet je alleen het getal van SD invoeren. Want je hebt het ge-mean-centered en als SD 2,5 was, dan was mean-centered variabele waarde: 0 en 0+2,5= 2,5. Dus vul je gewoon 2,5 in de plek van de moderator.
> ‘gemiddelde contact invoeren’ > is het al mean-centered? Dan 0 invoeren. - Wanneer je de moderator niet ge-mean-centered is, dan voer je de waarde van het gemiddelde van de moderator in. En dan vul je bij de vraag: ‘1 SD boven het gemiddelde’, dus werkelijk 1 SD boven mean. Als mean 4,3 was en SD 2,1, dan was het 4,3+2,1= 6,4 dan vul je dus 6,4 in de vergelijking op de plaats van de moderator.