Regressão Logística e Análise de Componentes
Por: deborabfs • 7/4/2015 • Trabalho acadêmico • 1.825 Palavras (8 Páginas) • 399 Visualizações
Atividade em sala de aula 05
Regressão Logística e Análise de Componentes
Esta atividade é individual e vale 10 pontos. Ela deve ser feita neste próprio arquivo e gravada na pasta indicada pelo professor.
Regressão logística
- Um modelo logístico foi ajustado para descrever a relação entre o cumprimento de meta individual (Y) num departamento de produção e as seguintes variáveis: salário (X1) em mil reais e nível de instrução (X2). Considere que a variável nível de instrução está sendo codificada da seguinte forma: 0 = sem instrução superior e 1 = com instrução superior
[pic 1]
[pic 2]
- Interprete o significado de cada coeficiente da regressão logística.
Em X1 , a probabilidade de um indivíduo conseguir cumprir a meta é 1,8 maior do que um empregado que ganha mil reais. E em X2 , a probabilidade de um indivíduo que possui curso superior conseguir cumpri a meta é 1,2 maior que quem não possui.
- Qual é a probabilidade de um empregado atingir a meta individual se ele não possuir instrução superior, mas tiver uma remuneração mensal de 3.000 reais?
[pic 3]
[pic 4]
[pic 5]
[pic 6]
[pic 7]
- Sabendo-se que um empregado possui nível superior e que as suas chances de atingir a meta correspondem a 0.60, qual deve ser o seu salário?
- Os dados no arquivo UTI.csv consistem da sobrevida de duzentos pacientes após a admissão a uma unidade de terapia intensiva (UTI). O objetivo é usar a regressão logística para prever a probabilidade de sobrevivência para estes pacientes até a alta do hospital. A variável dependente é a variável satus (status do paciente: 0 = viveu 1 = morreu).
Variáveis no arquivo que serão usadas.
AGE Idade do paciente em anos
SEX sexo do paciente (0 = homem, 1 = mulher)
RAC raça do paciente (0 = branco, 1 = preto, 2 = outro)
CAN o câncer é parte do problema? (0 = não, 1 = sim)
LOC Nível de consciência na admissão (0 = Sem coma ou entorpecimento, 1 = profundo entorpecimento, 2 = Em coma)
Lendo o arquivo no R.
> rm(list = ls()) # limpa a memória do R
> dados = read.table("uti.csv", sep=";", head=T)
> attach(dados); head(dados)
- Ajuste o modelo de regressão logística relacionando o STATUS com o sexo.
[pic 8]
> ### Modelo 01
> M01 = glm(STATUS ~ SEX, family = binomial)
> M01
Coefficients:
(Intercept) SEX
-1.4271 0.1054
Degrees of Freedom: 199 Total (i.e. Null); 198 Residual
Null Deviance: 200.2
Residual Deviance: 200.1 AIC: 204.1
- Qual é o significado do coeficiente da variável sexo?
Significa a probabilidade de pessoas do sexo feminino morrerem na UTI em relação ás pessoas do sexo masculino.
- Qual é estimativa da probabilidade de um paciente do sexo feminino que deu entrada na UTI morrer?
[pic 9]
[pic 10]
[pic 11]
A estimativa da probabilidade é de 21%.
- Qual é o significado da razão de chance (RC) do sexo?
Significa que a chance de uma pessoa do sexo feminino morrer é 10% do que uma pessoa do sexo masculino.
- Ajuste o modelo de regressão logística relacionando o STATUS com a raça.
[pic 12]
> ### Modelo 02
> # Como a raça (RAC) tem três categorias, é preciso criar variáveis
> # indicadoras (dummy) para cada categoria. No R, isto é feito usando
> # o comando factor(var). Como são três categorias será criado duas
> # variáveis dummy, sendo que o branco é a referência (0 e 0)
> M02 = glm(STATUS ~ factor(RAC), family = binomial)
> M02
Coefficients:
(Intercept) factor(RAC)1 factor(RAC)2
-1.31634 -1.32272 -0.06996
Degrees of Freedom: 199 Total (i.e. Null); 197 Residual
Null Deviance: 200.2
Residual Deviance: 197.9 AIC: 203.9
- Qual é estimativa da probabilidade de um paciente branco morrer? E de um paciente da cor preta morrer?
[pic 13]
[pic 14]
[pic 15]
A probabilidade de um paciente branco morrer é de 21%.
[pic 16]
[pic 17]
[pic 18]
A probabilidade de um paciente da cor preta morrer é de 6,6%.
- Ao cruzar variáveis explicativas com mais de duas categorias, como é o caso da variável LOC e RAC, com a variável resposta podem aparecer células com poucos casos que podem dificultar o ajuste do modelo logístico. Uma solução é combinar as células adjacentes.
> ## Tabela entre STATUS vs LOC e STATUS vs RAC
> table(STATUS,LOC) ; table(STATUS,RAC)
> ## Combinando as células adjacentes
> LOC[LOC==2] = 1 # o valor 2 é substituído pelo 1
> RAC[RAC==2] = 1 # o valor 2 é substituído pelo 1
>
> ## Agora as variáveis LOC e RAC têm duas categorias
...