Nu există nimic ciudat în raportul Odds: Interpretarea regresiei logistice binare
Regresia logistică binară poate să nu fie cea mai comună formă de regresie, dar atunci când este utilizată, tinde să provoace mult mai mult o durere de cap decât este necesar. Regresiile logistice binare sunt foarte asemănătoare cu omologii lor liniari în ceea ce privește utilizarea și interpretarea, iar singura diferență reală aici este în tipul de variabilă dependentă pe care o folosesc. Într-o regresie liniară, variabila dependentă (sau ceea ce încercați să preziceți) este continuă. Într-o regresie logistică binară, variabila dependentă este binară, ceea ce înseamnă că variabila poate avea doar două valori posibile. Din această cauză, atunci când interpretăm regresia logistică binară, nu mai vorbim despre modul în care variabilele noastre independente prezic un scor, ci despre modul în care prezic în care dintre cele două grupuri ale variabilei dependente binare ajung să cadă. Pentru a face acest lucru, ne uităm la raportul de probabilități.
Luați în considerare o regresie logistică binară efectuată de un cercetător care a vizionat recent filmul Jaws și este îngrozit să se confrunte cu aceeași soartă ca și unele dintre personajele mai puțin norocoase din acea film. Ea alege câteva variabile predictive pentru a-și evalua șansele de a fi mâncată de un rechin alb gigant care mănâncă bărbați, pe baza (a) scorului pe Scara Deliciousness Related Shark (SRDS) și (b) a genului ei. Deoarece trebuie să definească aceste variabile, astfel încât să le poată interpreta mai târziu, identifică scara SRDS ca fiind cuprinsă între 1 și 5; acest lucru este continuu. Sexul este binar, la fel ca rezultatul, și o recodifică ca 0 = feminin și 1 = masculin.
Începe prin adunarea unor date despre toți cei care fuseseră mâncați de un om gigant care mănâncă rechin alb în trecut. După colectarea datelor și efectuarea analizei asupra acestor variabile pentru a determina relația lor cu întâlnirea cu o deces prematură a acestei imense creaturi marine, ea constată că regresia în sine este semnificativă. Analiza produce rezultatul din tabelul de mai jos. și calculează următoarele rezultate. De obicei, o analiză de regresie logistică binară vă va oferi mai mult rezultat decât acest lucru, dar astăzi ne vom concentra pe raportul de probabilități.
Predictor |
valoarea p |
Raport de șanse |
Sex | ||
scor SDRS |
După cum am arătat mai sus, unul dintre acești predictori este binar, iar celălalt este continuu. Aceasta înseamnă că trebuie să-i interpretăm pe cei doi puțin diferit. În primul rând este scorul binar: genul. Mai întâi ne uităm la valoarea p. Este sub 0,05, spunându-ne că este semnificativ și că putem interpreta în siguranță raportul de probabilități. Pentru a interpreta acest rezultat, trebuie să știm la ce corespund un 0 (scăzut) și un 1 (înalt), iar cercetătorul nostru amintește că a codificat acest lucru ca 0 = feminin și 1 = masculin. Ea consideră că acest lucru este un lucru bun, deoarece atunci când raportul de probabilități este mai mare de 1, acesta descrie o relație pozitivă. Relația pozitivă înseamnă că, pe măsură ce genul „crește”, șansele de a fi consumat cresc. Pe baza codificării noastre, o „creștere” a genului înseamnă un gen de 1 în loc de 0 – cu alte cuvinte, a fi bărbat. Acest lucru poate fi interpretat în sensul că a fi în grupul (1) sau a fi bărbat vă pune la șanse de 5 ori mai mari de a fi mâncat.
Dacă raportul de șanse pentru sex ar fi fost sub 1, ea ar fi au avut probleme, deoarece un raport de cote mai mic de 1 implică o relație negativă. Aceasta înseamnă că a fi bărbat ar corespunde cu șanse mai mici de a fi mâncat. Pentru a pune acest lucru în perspectivă, dacă ar fi codificat bărbatul la 0 și femeia la 1, același raport de șanse ar fi fost inversat la 0,2 sau (1/5). Acest lucru înseamnă totuși că femelele aveau șanse mai mici de a fi consumate, întrucât raportul de șanse ar fi fost mai mic de 1.
Următorul este rezultatul pentru scara noastră de delicioase fictive. Are o valoare p de .001, care este mai mică decât valoarea limită standard .05, deci această variabilă este semnificativă. Deoarece această variabilă este continuă, interpretarea raportului de cote este puțin diferită, dar putem folosi aceeași logică. Acest raport de cote este interpretat în funcție de creșterea fiecărei unități pe scară (adică, trecând de la 1 la 2, 2 la 3 etc.). Astfel, pentru fiecare creștere a scorului delicios, șansele de a fi mâncat de o monstruozitate asemănătoare cu fălcile cresc cu un factor de 2. Acest lucru înseamnă că cineva cu un scor de 2 pe scară este de 2 ori mai probabil să fie mâncat decât cineva cu un scor de 1. La fel, șansele cuiva cu un scor de 1 sunt inversate de acolo (1/2), sau, 5, pentru a descrie cât de puțin este probabil să fie mâncat decât cineva cu un scor de 2. Toate dintre acestea se referă la cineva cu un scor adiacent (adică 1 vs. 2, 2 vs.3 și așa mai departe). Dar pentru a compara pe cineva cu un scor de 2 cu cineva cu un 5, lucrurile încep să se adune …
La un nivel delicios de 2, șansele sunt de 2 ori mai mari decât 1; la 3, șansele sunt de 4 ori mai mari decât 1 (deoarece sunt de 2 ori mai mari decât o delicioasă de 2, care este de 2 ori mai probabilă decât un scor de 1). Urmând această logică, sărind peste mai multe puncte la un moment dat, utilizați următoarea ecuație: (Odds Ratio ^ număr de intervale diferență) = diferență de cote. Deci, pentru cineva cu un scor de 5 (4 intervale de la un scor de 1), șansele de a fi mâncat sunt (2 ^ 4) de 16 ori mai mari decât cineva cu un scor de 1.
Pentru a încheia , important de reținut despre raportul de cote este că un raport de cote mai mare de 1 este o asociere pozitivă (adică, un număr mai mare pentru predictor înseamnă grupa 1 în rezultat), iar un raport de cote mai mic de 1 este asociere negativă (adică , un număr mai mare pentru predictor înseamnă grupul 0 din rezultat).