Nie ma nic dziwnego w ilorazie szans: Interpretacja binarnej regresji logistycznej
Binarna regresja logistyczna może nie jest najczęstszą formą regresji, ale kiedy jest używana, powoduje o wiele więcej ból głowy niż to konieczne. Binarne regresje logistyczne są bardzo podobne do swoich liniowych odpowiedników pod względem użycia i interpretacji, a jedyna rzeczywista różnica polega na typie zmiennej zależnej, której używają. W regresji liniowej zmienna zależna (lub to, co próbujesz przewidzieć) jest ciągła. W binarnej regresji logistycznej zmienna zależna jest binarna, co oznacza, że zmienna może mieć tylko dwie możliwe wartości. Z tego powodu, interpretując binarną regresję logistyczną, nie mówimy już o tym, jak nasze zmienne niezależne przewidują wynik, ale o tym, w jaki sposób przewidują, do której z dwóch grup binarnej zmiennej zależnej wpadną ludzie. Aby to zrobić, przyjrzyjmy się ilorazowi szans.
Rozważmy binarną regresję logistyczną przeprowadzoną przez badacza, który niedawno oglądał film Szczęki i boi się, że spotka taki sam los, jak niektóre z mniej szczęśliwych postaci w tym film. Wybiera kilka predyktorów, aby ocenić swoje szanse na zjedzenie przez olbrzymiego żarłacza białego zjadającego człowieka, w oparciu o (a) wynik w Skali Smakowitości Rekina (SRDS) i (b) jej płeć. Ponieważ musi zdefiniować te zmienne, aby móc je później zinterpretować, określa skalę SRDS w zakresie od 1 do 5; to jest ciągłe. Płeć jest binarna, podobnie jak wynik, i zapisuje ją jako 0 = kobieta i 1 = mężczyzna.
Zaczyna od zebrania danych na temat wszystkich tych, którzy zostali zjedzeni przez gigantycznego człowieka, który biały rekin w przeszłości. Po zebraniu danych i przeprowadzeniu analizy tych zmiennych w celu określenia ich związku z przedwczesnym upadkiem tego ogromnego stworzenia morskiego, stwierdza, że sama regresja jest znacząca. Analiza daje wynik w tabeli poniżej. i oblicza następujące wyniki. Zwykle binarna analiza regresji logistycznej dałaby więcej wyników niż ta, ale dzisiaj skupimy się na ilorazie szans.
Predictor |
Wartość p |
Iloraz szans |
Płeć | ||
Wynik SDRS |
Jak omówiliśmy powyżej, jeden z tych predyktorów jest binarny, a drugi ciągły. Oznacza to, że musimy nieco inaczej zinterpretować te dwie kwestie. Pierwsza to wynik binarny: płeć. Najpierw przyjrzymy się wartości p. Jest poniżej 0,05, co mówi nam, że jest znaczące i możemy bezpiecznie zinterpretować iloraz szans. Aby zinterpretować ten wynik, musimy wiedzieć, czemu odpowiada 0 (niski) i 1 (wysoki), a nasza badaczka przypomina, że zakodowała to jako 0 = kobieta, a 1 = mężczyzna. Uważa, że to dobra rzecz, ponieważ iloraz szans jest większy niż 1, oznacza to pozytywny związek. Pozytywna zależność oznacza, że wraz ze „wzrostem” płci wzrasta prawdopodobieństwo zjedzenia. Zgodnie z naszym kodowaniem „wzrost” płci oznacza płeć równą 1 zamiast 0 – innymi słowy, bycie mężczyzną. Można to zinterpretować w ten sposób, że bycie w (1) grupie lub bycie mężczyzną daje 5 razy większe szanse na zjedzenie.
Gdyby iloraz szans dla płci był poniżej 1, mieli kłopoty, ponieważ iloraz szans mniejszy niż 1 wskazuje na negatywny związek. Oznacza to, że bycie mężczyzną wiązałoby się z mniejszą szansą na zjedzenie. Ujmując to z perspektywy, gdyby zakodowała mężczyznę jako 0, a kobietę jako 1, ten sam iloraz szans zostałby odwrócony do 0,2 lub (1/5). To nadal oznacza, że samice miały mniejsze szanse na zjedzenie, ponieważ iloraz szans byłby mniejszy niż 1.
Następny jest wynik naszej fikcyjnej skali smakowitości. Ma wartość p równą 0,001, która jest niższa niż standardowa wartość graniczna 0,05, więc ta zmienna jest istotna. Ponieważ ta zmienna jest ciągła, interpretacja ilorazu szans jest nieco inna, ale możemy użyć tej samej logiki. Ten iloraz szans jest interpretowany jako wzrost każdej jednostki na skali (tj. Przejście z 1 do 2, 2 do 3 itd.). Tak więc, dla każdego wzrostu oceny smakowitości, prawdopodobieństwo, że zostaniesz zjedzony przez potworność podobną do Szczęk zwiększa się dwukrotnie. Oznacza to, że ktoś z wynikiem 2 na skali ma 2 razy większe prawdopodobieństwo, że zostanie zjedzony niż ktoś z 1 punkt. Podobnie, szanse na kogoś z wynikiem 1 są odwrócone od tego miejsca (1/2), czyli 0,5, aby opisać, o ile mniej prawdopodobne jest, że zostaną zjedzone niż ktoś z wynikiem 2. z nich dotyczy kogoś z sąsiednim wynikiem (tj. 1 vs. 2, 2 vs.3 i tak dalej). Ale porównując kogoś z wynikiem 2 do kogoś z 5, rzeczy zaczynają się sumować…
Przy wyśmienitości 2 szanse są 2 razy większe niż 1; przy 3 szanse są 4 razy bardziej prawdopodobne niż 1 (ponieważ są 2 razy bardziej prawdopodobne niż smakowitość 2, czyli 2 razy bardziej niż 1). Zgodnie z tą logiką, przeskakując do przodu o więcej niż jeden punkt naraz, używasz następującego równania: (iloraz szans ^ liczba różnic w interwałach) = różnica w kursach. Tak więc, dla kogoś z wynikiem 5 (4 przedziały od 1), ich szanse na zjedzenie są (2 ^ 4) 16 razy większe niż ktoś z wynikiem 1.
Podsumowując , ważną rzeczą do zapamiętania na temat ilorazu szans jest to, że iloraz szans większy niż 1 jest skojarzeniem dodatnim (tj. wyższa liczba dla predyktora oznacza grupę 1 w wyniku), a iloraz szans mniejszy niż 1 jest skojarzeniem ujemnym (tj. , wyższa liczba dla predyktora oznacza grupę 0 w wyniku).