Trabalho De Análise de Regressão
Por: Matheus Brandão • 24/6/2019 • Ensaio • 2.191 Palavras (9 Páginas) • 284 Visualizações
UFRJ |
Trabalho De Análise de Regressão |
|
Matheus Neves Brandao DRE:116092472 |
Curso: Ciências Atuariais Cidade: Rio de Janeiro
Rio de Janeiro, 16/06/2019 |
Sumário
- Introdução
- Desenvolvimento
- Modelos
- Previsão
- Conclusão primeira parte
- Penalização da clássica
- Bayesiana(com e sem penalização)
- Referencias
- Apendices
1--Introdução
Esse é um trabalho proposto pelo professor Ralph para os alunos que estão fazendo a matéria de Análise de Regressão na UFRJ. O trabalho se trata de uma análise de dados e de como achar um modelo melhor para esses dados apresentados. Além disso, após a apresentação do modelo escolhido como bom, terá de ser feita uma previsão para os quatro semestres seguintes, baseado na regressão feita. Já foi nos dado que são 11 variáveis, o número de observações é 1000, os dados são trimestrais, que os dados provavelmente tem relação com o tempo e o tipo de modelo que devemos usar (Modelo Linear de Regressão Múltipla). A segunda parte do trabalho no entanto será sobre a analise bayesiana e a penalização do melhor modelo tanto na forma clássica quanto na forma bayesiana.
2--Desenvolvimento
Temos o modelo linear de regressão múltipla:
𝑌 = 𝑋 𝛽 + 𝜀
E as hipóteses :
HP.1: Linearidade: yi = xi1β1 + xi2β2 + · · · + xipβp + ε;
HP.2: Posto completo: não existe nenhuma relação exata entre as variáveis repressoras do modelo;
HP.3: Exogeneidade das variáveis repressoras: E(εi|xi1, xi2, . . ., xip) = 0 ⇒ Cov(xi, εi) = 0 com xi = (xi1, xi2, . . ., xip) 0 .
HP.4: Homocedasticidade e auto correlação nula: cada distúrbio, εi, tem a mesma variância, σ², e é não correlacionado com qualquer outro distúrbio εj;
HP.5: Geração dos dados: os dados em (xi1, xi2, . . ., xip) podem ser qualquer mistura de constantes e variáveis aleatórias;
HP.6: Distribuição normal: os distúrbios são normalmente distribuídos.
Os critérios de avaliação para os modelos mostrados a seguir serão :
A proximidade de R² e R² ajustado a 1, se o modelo é Homocedastico, p-valor em T <0,05 ,se os resíduos seguem uma distribuição normal , o gráfico de correlograma (acf) e o teste de Shapiro.
3--Modelos
Primeiramente, veremos como os dados se comportam por si só. Ou seja, sem adicionar nenhuma variável a ele.
Resíduos: | Mínimo | 1 quantil | Mediana | 2 quantil | Máximo |
| -2241.21 | -914.09 | 4.17 | 969.78 | 2188.14 |
| Estimativa | Erro Padrão | Estatistica T-student | P-valor |
Intercepto | 1977.02 | 35.87 | 55.114 | 0 |
X1 | 5523.41 | 3702.64 | 1.492 | 0.13608 |
X2 | 107.10 | 365.22 | 0.293 | 0.76940 |
X3 | -229.00 | 185.43 | -1.235 | 0.21713 |
X4 | 5822.33 | 3710.53 | 1.569 | 0.11694 |
X5 | 64.49 | 95.01 | 0.679 | 0.49746 |
X6 | -172.00 | 360.83 | -0.477 | 0.63369 |
X7 | 187.16 | 181.18 | 1.033 | 0.30185 |
X8 | -354.13 | 118.70 | -2.983 | 0.00292 |
X9 | -30.01 | 88.73 | -0.338 | 0.73532 |
X10 | -5478.17 | 3702.17 | -1.480 | 0.13927 |
R quadrado | 0.02009 | |||
R quadrado ajustado | 0.01018 |
Vemos de cara que o modelo não é bom. Temos um R² ajustado extremamente baixo, o que me diz que o modelo explica pouco os valores observados. Além disso, a distribuição dos resíduos não está de acordo com a distribuição normal, logo ele não respeita a hipótese 6.
[pic 1]
Figura A : Mostra a dispersão dos resíduos em relação a mudança de X.
Segundamente, faremos um modelo onde adicionaremos também o tempo na equação , ou seja , a tendência. E assim veremos novamente como os dados se comportam, só que dessa vez levando o tempo em conta.(tempo indo de 1 a 1000). Essa figura A nos ajuda a ter ainda mais certeza de que esse é um modelo extremamente pobre , pois podemos ver claramente que a distribuição dos resíduos não esta de acordo com a distribuição normal.
...