Não há nada de estranho na razão de chances: interpretando a regressão logística binária
A regressão logística binária pode não ser a forma mais comum de regressão, mas quando é usada, tende a causar muito mais uma dor de cabeça do que o necessário. As regressões logísticas binárias são muito semelhantes às suas contrapartes lineares em termos de uso e interpretação, e a única diferença real aqui está no tipo de variável dependente que usam. Em uma regressão linear, a variável dependente (ou o que você está tentando prever) é contínua. Em uma regressão logística binária, a variável dependente é binária, o que significa que a variável pode ter apenas dois valores possíveis. Por isso, ao interpretar a regressão logística binária, não estamos mais falando sobre como nossas variáveis independentes predizem uma pontuação, mas como predizem em qual dos dois grupos da variável dependente binária as pessoas acabam caindo. Para fazer isso, olhamos a razão de probabilidade.
Considere uma regressão logística binária conduzida por um pesquisador que recentemente assistiu ao filme Tubarão e está com medo de enfrentar o mesmo destino de alguns dos personagens menos afortunados daquele filme. Ela escolhe algumas variáveis preditoras para avaliar suas chances de ser comida por um tubarão-branco gigante comedor de homens, com base em (a) pontuação na Escala de Deliciosidade Relacionada a Tubarões (SRDS) e (b) seu gênero. Como ela precisa definir essas variáveis para poder interpretá-las posteriormente, ela identifica a escala SRDS como variando de 1 a 5; isso é contínuo. O gênero é binário, assim como o resultado, e ela o recodifica como 0 = feminino e 1 = masculino.
Ela começa reunindo alguns dados sobre todos aqueles que foram comidos por um gigante comedor de homens tubarão branco no passado. Depois de coletar os dados e executar a análise dessas variáveis para determinar sua relação com o encontro com a morte prematura dessa enorme criatura marinha, ela descobre que a própria regressão é significativa. A análise produz o resultado na tabela abaixo. e calcula os seguintes resultados. Normalmente, uma análise de regressão logística binária forneceria mais resultados do que isso, mas hoje vamos nos concentrar na razão de chances.
Preditor |
valor p |
Razão de probabilidades |
Sexo | ||
Pontuação SDRS |
Como cobrimos acima, um desses preditores é binário e o outro é contínuo. Isso significa que temos que interpretar os dois de maneira um pouco diferente. O primeiro é a pontuação binária: gênero. Primeiro, olhamos para o valor p. Ele está abaixo de 0,05, indicando que é significativo e que podemos interpretar a razão de chances com segurança. Para interpretar este resultado, temos que saber a que correspondem um 0 (baixo) e um 1 (alto), e nossa pesquisadora lembra que codificou isso como 0 = feminino e 1 = masculino. Ela acha que isso é bom porque, quando a razão de chances é maior do que 1, descreve um relacionamento positivo. A relação positiva significa que conforme o gênero “aumenta”, as chances de ser comido aumentam. Com base em nossa codificação, um “aumento” no gênero significa um gênero de 1 em vez de 0 – em outras palavras, ser homem. Isso pode ser interpretado como significando que estar no grupo (1), ou ser homem, coloca você em 5 vezes mais chances de ser comido.
Se a razão de chances para o gênero fosse inferior a 1, ela teria tiveram problemas, pois uma razão de chances menor que 1 implica em um relacionamento negativo. Isso significa que ser homem corresponderia a uma probabilidade menor de ser comido. Para colocar isso em perspectiva, se ela tivesse codificado masculino como 0 e feminino como 1, a mesma razão de chances teria sido invertida para 0,2, ou (1/5). Isso ainda significa que as mulheres tinham menos chances de serem comidas, pois a razão de chances seria menor que 1.
O próximo é o resultado de nossa escala fictícia de delícias. Ele tem um valor de p de 0,001, que é inferior ao corte padrão de 0,05, portanto, essa variável é significativa. Como essa variável é contínua, a interpretação do odds ratio é um pouco diferente, mas podemos usar a mesma lógica. Este odds ratio é interpretado em termos de cada aumento de unidade na escala (ou seja, indo de 1 para 2, 2 para 3, etc.). Assim, para cada aumento na pontuação de delícias, as chances de ser comido por uma monstruosidade semelhante a Jaws aumentam por um fator de 2. Isso significa que alguém com uma pontuação de 2 na escala tem 2 vezes mais chances de ser comido do que alguém com uma pontuação de 1. Da mesma forma, as chances de alguém com uma pontuação de 1 são invertidas a partir daí (1/2), ou 0,5, para descrever a probabilidade de que eles sejam comidos do que alguém com uma pontuação de 2. Todos destes são em relação a alguém com uma pontuação adjacente (ou seja, 1 vs. 2, 2 vs.3 e assim por diante). Mas, para comparar alguém com pontuação 2 a alguém com 5, as coisas começam a se somar …
Com uma delícia de 2, as chances são 2 vezes mais prováveis do que 1; em 3, as chances são 4 vezes mais prováveis do que 1 (uma vez que são 2 vezes mais prováveis do que uma delícia de 2, que é 2 vezes mais prováveis do que uma pontuação de 1). Seguindo essa lógica, pulando mais de um ponto por vez, você usa a seguinte equação: (Odds Ratio ^ diferença do número de intervalos) = diferença nas chances. Então, para alguém com uma pontuação de 5 (4 intervalos de uma pontuação de 1), suas chances de ser comido são (2 ^ 4) 16 vezes maiores do que alguém com uma pontuação de 1.
Para concluir , o importante a lembrar sobre o odds ratio é que um odds ratio maior que 1 é uma associação positiva (ou seja, um número mais alto para o preditor significa o grupo 1 no resultado), e um odds ratio menor que 1 é uma associação negativa (ou seja, , um número mais alto para o preditor significa o grupo 0 no resultado).