Det er ikke noe rart med oddsen: Tolke binær logistisk regresjon
Den binære logistiske regresjonen er kanskje ikke den vanligste formen for regresjon, men når den brukes, har den en tendens til å forårsake mye mer av hodepine enn nødvendig. Binære logistiske regresjoner er veldig lik deres lineære kolleger når det gjelder bruk og tolkning, og den eneste reelle forskjellen her er i typen avhengig variabel de bruker. I en lineær regresjon er den avhengige variabelen (eller det du prøver å forutsi) kontinuerlig. I en binær logistisk regresjon er den avhengige variabelen binær, noe som betyr at variabelen bare kan ha to mulige verdier. På grunn av dette, når vi tolker den binære logistiske regresjonen, snakker vi ikke lenger om hvordan våre uavhengige variabler forutsier en poengsum, men hvordan de forutsier hvilken av de to gruppene av den binære avhengige variabelen mennesker ender med å falle inn i. For å gjøre dette ser vi på oddsforholdet.
Vurder en binær logistisk regresjon utført av en forsker som nylig så på filmen Jaws og er livredd for å møte den samme skjebnen som noen av de mindre heldige karakterene i den film. Hun velger noen få prediktorvariabler for å vurdere sjansene for å bli spist av en gigantisk mann som spiser stor hvit hai, basert på (a) score på Shark Related Deliciousness Scale (SRDS), og (b) hennes kjønn. Fordi hun må definere disse variablene slik at hun kan tolke dem senere, identifiserer hun SRDS-skalaen som alt fra 1 til 5; dette er kontinuerlig. Kjønn er binært, akkurat som utfallet, og hun koder det på nytt som 0 = kvinne og 1 = mann.
Hun begynner med å samle inn data om alle de som hadde blitt spist av en gigantisk mann som spiser stor hvit hai tidligere. Etter å ha samlet inn dataene og kjørt analysen på disse variablene for å bestemme deres forhold til å møte en altfor tidlig død til dette enorme sjødyret, finner hun at selve regresjonen er betydelig. Analysen produserer produksjonen i tabellen nedenfor. og beregner følgende utfall. Vanligvis vil en binær logistisk regresjonsanalyse gi deg mer produksjon enn dette, men i dag vil vi fokusere på oddsforholdet.
Prediktor |
p-verdi |
Oddsforhold |
Kjønn | ||
SDRS-poengsum |
Som vi dekket ovenfor, er en av disse prediktorene binær og den andre er kontinuerlig. Dette betyr at vi må tolke de to litt annerledes. Først er den binære poengsummen: kjønn. Vi ser først på p-verdien. Det er under .05, og forteller oss at det er betydelig, og vi kan trygt tolke oddsforholdet. For å tolke dette resultatet, må vi vite hva en 0 (lav) og en 1 (høy) tilsvarer, og forskeren vår husker at hun kodet dette som 0 = kvinne og 1 = mann. Hun synes dette er bra fordi når oddsforholdet er større enn 1, beskriver det et positivt forhold. Det positive forholdet betyr at når kjønn «øker», øker oddsen for å bli spist. Basert på vår koding betyr en «økning» i kjønn et kjønn på 1 i stedet for 0 – med andre ord å være mann. Dette kan tolkes slik at det å være i (1) -gruppen, eller å være mann, gir deg 5 ganger større sjanser for å bli spist.
Hvis oddsforholdet for kjønn hadde vært under 1, ville hun har vært i trøbbel, ettersom et oddsforhold mindre enn 1 innebærer et negativt forhold. Dette betyr at det å være mann ville tilsvare lavere odds for å bli spist. For å sette dette i perspektiv, hvis hun hadde kodet hann som 0 og kvinne som 1, ville det samme oddsforholdet blitt omvendt til 0,2, eller (1/5). Dette betyr fortsatt at kvinner hadde mindre odds for å bli spist, ettersom oddsforholdet ville ha vært mindre enn 1.
Neste er resultatet for vår fiktive deilighetsskala. Den har en p-verdi på .001, som er lavere enn standard .05 cutoff, så denne variabelen er betydelig. Fordi denne variabelen er kontinuerlig, er fortolkningen av oddsforholdet litt annerledes, men vi kan bruke samme logikk. Dette oddsforholdet tolkes i form av hver enhetsøkning på skalaen (dvs. går fra 1 til 2, 2 til 3 osv.). For hver økning i delikatesspoeng øker oddsen for å bli spist av en kjeve-lignende uhyrlighet med en faktor på 2. Dette betyr at noen med poengsummen 2 på skalaen er 2 ganger mer sannsynlig å bli spist enn noen med poengsummen 1. Likeledes blir oddsen til noen med poengsummen 1 invertert derfra (1/2), eller .5, for å beskrive hvor mye mindre sannsynlig de blir spist enn noen med poengsummen 2. Alle av disse er i forhold til noen med tilstøtende poengsum (dvs. 1 mot 2, 2 vs.3, og så videre). Men for å sammenligne noen med poengsummen 2 til noen med en 5, begynner ting å legge seg opp …
Ved en deilighet på 2 er oddsen to ganger mer sannsynlig enn 1; ved 3 er oddsen 4 ganger mer sannsynlig enn 1 (siden de er 2 ganger mer sannsynlig enn en delikatesse på 2, som er 2 ganger mer sannsynlig enn en score på 1). Etter denne logikken, og hopper over mer enn ett punkt om gangen, bruker du følgende ligning: (Odds Ratio ^ antall differanser intervaller) = forskjell i odds. Så for noen med poengsummen 5 (4 intervaller fra poengsummen 1) er oddsen for å bli spist (2 ^ 4) 16 ganger større enn noen med poengsummen 1.
For å konkludere , det viktige å huske på oddsforholdet er at et oddsforhold større enn 1 er en positiv assosiasjon (dvs. at høyere tall for prediktoren betyr gruppe 1 i utfallet), og et oddsforhold mindre enn 1 er negativ assosiasjon (dvs. , høyere tall for prediktoren betyr gruppe 0 i utfallet).