Er is niets vreemds aan de oddsratio: interpretatie van binaire logistische regressie
De binaire logistische regressie is misschien niet de meest voorkomende vorm van regressie, maar wanneer deze wordt gebruikt, heeft het de neiging om veel meer hoofdpijn dan nodig. Binaire logistische regressies lijken erg op hun lineaire tegenhangers in termen van gebruik en interpretatie, en het enige echte verschil zit hier in het type afhankelijke variabele dat ze gebruiken. Bij een lineaire regressie is de afhankelijke variabele (of wat u probeert te voorspellen) continu. Bij een binaire logistische regressie is de afhankelijke variabele binair, wat betekent dat de variabele slechts twee mogelijke waarden kan hebben. Daarom hebben we het bij het interpreteren van de binaire logistische regressie niet langer over hoe onze onafhankelijke variabelen een score voorspellen, maar over hoe ze voorspellen in welke van de twee groepen van de binaire afhankelijke variabele mensen terechtkomen. Om dit te doen, kijken we naar de odds ratio.
Beschouw een binaire logistische regressie uitgevoerd door een onderzoeker die onlangs de film Jaws heeft bekeken en doodsbang is om hetzelfde lot te ondergaan als sommige van de minder bedeelde personages in dat film. Ze kiest een paar voorspellende variabelen om haar kansen om opgegeten te worden door een gigantische man-etende grote witte haai te beoordelen, gebaseerd op (a) score op de Shark Related Deliciousness Scale (SRDS), en (b) haar geslacht. Omdat ze deze variabelen moet definiëren zodat ze ze later kan interpreteren, identificeert ze de SRDS-schaal als variërend van 1 tot 5; dit is continu. Geslacht is binair, net als de uitkomst, en ze hercodeert het als 0 = vrouwelijk en 1 = mannelijk.
Ze begint met het verzamelen van gegevens over al degenen die zijn opgegeten door een gigantische man witte haai in het verleden. Na het verzamelen van de gegevens en het uitvoeren van de analyse van deze variabelen om hun relatie te bepalen met het ontmoeten van een vroegtijdig overlijden aan dit enorme zeedier, ontdekt ze dat de regressie zelf significant is. De analyse levert de output op in onderstaande tabel. en berekent de volgende uitkomsten. Normaal gesproken zou een binaire logistische regressieanalyse u meer output opleveren dan dit, maar vandaag zullen we ons concentreren op de odds ratio.
Predictor |
p-waarde |
Odds ratio |
Geslacht | ||
SDRS-score |
Zoals we hierboven hebben besproken, is een van deze voorspellers binair en de andere continu. Dit betekent dat we de twee een beetje anders moeten interpreteren. De eerste is de binaire score: geslacht. We kijken eerst naar de p-waarde. Het is lager dan 0,05, wat ons vertelt dat het significant is, en we kunnen de odds ratio veilig interpreteren. Om dit resultaat te interpreteren, moeten we weten waarmee een 0 (laag) en een 1 (hoog) overeenkomen, en onze onderzoeker herinnert zich dat ze dit codeerde als 0 = vrouwelijk en 1 = mannelijk. Ze vindt dit een goede zaak, want als de odds ratio groter is dan 1, beschrijft dit een positieve relatie. De positieve relatie betekent dat naarmate het geslacht “toeneemt”, de kans om opgegeten te worden toeneemt. Op basis van onze codering betekent een “toename” in geslacht een geslacht van 1 in plaats van 0 – met andere woorden, mannelijk zijn. Dit kan worden geïnterpreteerd in de betekenis dat als je in de (1) groep zit, of als je een man bent, je een 5 keer grotere kans hebt om opgegeten te worden.
Als de odds ratio voor geslacht lager was dan 1, zou ze dat doen in de problemen zijn geweest, aangezien een odds ratio van minder dan 1 een negatieve relatie impliceert. Dit betekent dat mannelijk zijn overeenkomt met een lagere kans om gegeten te worden. Om dit in perspectief te plaatsen: als ze mannelijk als 0 had gecodeerd en vrouwelijk als 1, zou dezelfde odds ratio zijn omgekeerd naar 0,2 of (1/5). Dit betekent nog steeds dat de vrouwtjes minder kans hadden om gegeten te worden, aangezien de odds ratio minder dan 1 zou zijn geweest.
Het volgende is het resultaat voor onze fictieve heerlijkheidsschaal. Het heeft een p-waarde van .001, wat lager is dan de standaard .05 cutoff, dus deze variabele is significant. Omdat deze variabele continu is, is de interpretatie van de odds ratio een beetje anders, maar we kunnen dezelfde logica gebruiken. Deze odds ratio wordt geïnterpreteerd in termen van elke eenheidstoename op de schaal (d.w.z. gaande van 1 naar 2, 2 naar 3, enz.). Dus voor elke verhoging van de score voor heerlijkheid, neemt de kans om opgegeten te worden door een kaakachtig monster met een factor 2 toe. Dit betekent dat iemand met een score van 2 op de schaal 2 keer meer kans heeft om opgegeten te worden dan iemand met een score van 1. Evenzo worden de kansen van iemand met een score van 1 van daaruit omgekeerd (1/2), of 0,5, om te beschrijven hoeveel minder waarschijnlijk ze worden gegeten dan iemand met een score van 2. Alle hiervan hebben betrekking op iemand met een aangrenzende score (dwz 1 vs. 2, 2 vs.3, enzovoort). Maar om iemand met een 2 te vergelijken met iemand met een 5, begint het op te tellen …
Bij een heerlijkheid van 2 is de kans 2 keer zo groot als 1; bij 3 is de kans 4 keer groter dan 1 (aangezien ze 2 keer zo waarschijnlijk zijn dan een verrukking van 2, wat 2 keer zo waarschijnlijk is dan een score van 1). Als u deze logica volgt en meer dan één punt tegelijk vooruit springt, gebruikt u de volgende vergelijking: (Odds Ratio ^ aantal intervallen verschil) = verschil in odds. Dus voor iemand met een score van 5 (4 intervallen van een score van 1), is hun kans om opgegeten te worden (2 ^ 4) 16 keer groter dan voor iemand met een score van 1.
Tot slot , het belangrijkste om te onthouden over de odds-ratio is dat een odds-ratio groter dan 1 een positieve associatie is (dwz een hoger getal voor de voorspeller betekent groep 1 in de uitkomst), en een odds-ratio kleiner dan 1 is een negatieve associatie (dwz , een hoger getal voor de voorspeller betekent groep 0 in de uitkomst).