Der er ikke noget mærkeligt ved oddsforholdet: Fortolkning af binær logistisk regression
Den binære logistiske regression er muligvis ikke den mest almindelige form for regression, men når den bruges, har den tendens til at forårsage meget mere af hovedpine end nødvendigt. Binære logistiske regressioner ligner meget deres lineære modstykker med hensyn til brug og fortolkning, og den eneste reelle forskel her er i typen af afhængig variabel, de bruger. I en lineær regression er den afhængige variabel (eller hvad du prøver at forudsige) kontinuerlig. I en binær logistisk regression er den afhængige variabel binær, hvilket betyder at variablen kun kan have to mulige værdier. På grund af dette, når vi fortolker den binære logistiske regression, taler vi ikke længere om, hvordan vores uafhængige variabler forudsiger en score, men hvordan de forudsiger, hvilken af de to grupper af de binære afhængige variable mennesker ender med at falde i. For at gøre dette ser vi på oddsforholdet.
Overvej en binær logistisk regression udført af en forsker, der for nylig har set filmen Jaws og er bange for at stå over for den samme skæbne som nogle af de mindre heldige karakterer i det film. Hun vælger et par forudsigelsesvariabler for at vurdere sine chancer for at blive spist af en kæmpe mand, der spiser stor hvid haj, baseret på (a) score på Shark Related Deliciousness Scale (SRDS) og (b) hendes køn. Da hun skal definere disse variabler, så hun kan fortolke dem senere, identificerer hun SRDS-skalaen som alt fra 1 til 5; dette er kontinuerligt. Køn er binært, ligesom resultatet, og hun genkoder det som 0 = kvinde og 1 = mand.
Hun begynder med at indsamle nogle data om alle dem, der var blevet spist af en kæmpe mand, der spiser stor hvid haj i fortiden. Efter at have indsamlet dataene og kørt analysen af disse variabler for at bestemme deres forhold til at møde en utilsigtet nedgang til denne enorme havdyr, finder hun, at selve regressionen er betydelig. Analysen producerer output i nedenstående tabel. og beregner følgende resultater. Typisk vil en binær logistisk regressionsanalyse give dig mere output end dette, men i dag vil vi fokusere på oddsforholdet.
Prediktor |
p-værdi |
Oddsforhold |
Køn | ||
SDRS-score |
Som vi dækkede ovenfor, er en af disse forudsigere binær og den anden er kontinuerlig. Dette betyder, at vi er nødt til at fortolke de to lidt anderledes. Først er den binære score: køn. Vi ser først på p-værdien. Det er under 0,05 og fortæller os, at det er signifikant, og vi kan sikkert fortolke oddsforholdet. For at fortolke dette resultat er vi nødt til at vide, hvad en 0 (lav) og en 1 (høj) svarer til, og vores forsker minder om, at hun kodede dette som 0 = kvinde og 1 = mand. Hun finder dette at være en god ting, for når oddsforholdet er større end 1, beskriver det et positivt forhold. Det positive forhold betyder, at når køn “stiger”, stiger oddsene for at blive spist. Baseret på vores kodning betyder en “stigning” i køn et køn på 1 i stedet for 0 – med andre ord at være mand. Dette kan fortolkes således, at det at være i gruppen (1) eller være mandlig giver dig 5 gange større odds for at blive spist.
Hvis oddsforholdet for køn havde været under 1, ville hun har været i problemer, da et oddsforhold mindre end 1 indebærer et negativt forhold. Det betyder, at det at være mand ville svare til lavere odds for at blive spist. For at sætte dette i perspektiv, hvis hun havde kodet mand som 0 og kvinde som 1, ville det samme oddsforhold være inverteret til 0,2 eller (1/5). Dette betyder stadig, at kvinder havde mindre odds for at blive spist, da oddsforholdet ville have været mindre end 1.
Næste er resultatet for vores fiktive lækkerhedsskala. Den har en p-værdi på .001, hvilket er lavere end standard 0,05 cutoff, så denne variabel er signifikant. Fordi denne variabel er kontinuerlig, er fortolkningen af oddsforholdet lidt anderledes, men vi kan bruge den samme logik. Dette oddsforhold fortolkes i form af hver enhedsforøgelse på skalaen (dvs. gå fra 1 til 2, 2 til 3 osv.). For hver stigning i lækkerhedsscore øges oddsen for at blive spist af en kæberlignende uhyrlighed med en faktor 2. Dette betyder, at en person med en score på 2 på skalaen er 2 gange mere sandsynligt at blive spist end en person med en score på 1. Ligeledes er oddsene for en person med en score på 1 inverteret derfra (1/2) eller .5 for at beskrive, hvor meget mindre sandsynligt de bliver spist end en person med en score på 2. Alle af disse er i forhold til nogen med en tilstødende score (dvs. 1 mod 2, 2 vs.3 osv.). Men for at sammenligne nogen med en score på 2 til nogen med en 5, begynder tingene at blive mere…
Ved en lækkerhed på 2 er oddsene 2 gange mere sandsynlige end 1; ved 3 er oddsene 4 gange mere sandsynlige end 1 (da de er 2 gange mere sandsynlige end en lækkerhed på 2, hvilket er 2 gange mere sandsynligt end en score på 1). Efter denne logik, springer du mere end et punkt ad gangen fremad, bruger du følgende ligning: (Odds Ratio ^ antal intervaller forskel) = forskel i odds. Så for nogen med en score på 5 (4 intervaller fra en score på 1) er deres odds for at blive spist (2 ^ 4) 16 gange større end en person med en score på 1.
For at konkludere , er det vigtige at huske på oddsforholdet, at et oddsforhold større end 1 er en positiv tilknytning (dvs. højere tal for forudsigeren betyder gruppe 1 i resultatet), og et oddsforhold mindre end 1 er negativ tilknytning (dvs. , højere tal for forudsigeren betyder gruppe 0 i resultatet).