Regressão Linear
Trabalho Escolar: Regressão Linear. Pesquise 862.000+ trabalhos acadêmicosPor: lleoni • 18/4/2014 • 1.332 Palavras (6 Páginas) • 352 Visualizações
REGRESSÃO LINEAR SIMPLES – PARTE 2
4. INFERÊNCIAS EM ANÁLISE DE REGRESSÃO
A reta de regressão calculada pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população.
Logo, os coeficientes a e b servem como estimativas pontuais dos dois parâmetros da população correspondente, A e B, e a equação yc = a + bx + uc é a uma estimativa da relação populacional yi = A + Bx.
Por que existe dispersão?
Porque não existe um relacionamento perfeito entre as duas variáveis na população. Há outras variáveis que influenciam os valores da variável dependente que não entram na análise de regressão.
Por que essas outras variáveis não estariam incluídas no estudo?
a) Com influência provavelmente pequena de cada uma dessas variáveis, o custo da inclusão supera o benefício;
b) Um ou dois fatores geralmente respondem por quase toda a variação da variável dependente;
c) O número de variáveis explanatórias potenciais é muito grande, dificultando os cálculos.
Essa dispersão significa que há muitas equações de regressão diferentes, que poderiam concebivelmente ser obtidas. Para cada valor de x, haverá muitos valores possíveis de y.
Supõe que há uma distribuição de y’s potenciais que segue a lei normal, que é chamada distribuição condicional (isto é, dado x). A distribuição condicional é igual ao valor médio de y na população. Para esse particular x, y = + x é estimada por yc = a + bx.
4.1. As premissas do modelo de regressão linear
1. Tem os parâmetros ‘a’ e ‘b’ lineares. Não pode ser b2, √a, etc.
2. Para cada valor de x existe um grupo de valores de y. Estes grupos de valores de y têm distribuição normal com o mesmo desvio padrão.
3. X, a variável independente, é não estocástica; é fixa em amostras repetidas; portanto se faz análise condicionada ao valor de X!
4. As médias das distribuições normais de y pertencem à reta de regressão.
5. O valor esperado dos desvios é nulo, pois a variância é mínima. E(Ui│Xi) = 0. Alguns valores de Y estão acima e outros abaixo da média (reta). Os resíduos são, portanto, positivos e negativos.
6. Homocedasticidade. Dado um valor de X, a variância dos desvios é constante e igual à variância da população; isto é, todos os desvios têm a mesma variância para todas as observações de X. Var (Ui│Xi) = σ2; Na heterocedasticidade, Var (Ui│Xi) = σ2i.
7. Ausência de autocorrelação serial entre os resíduos. Cov (Ui,Uj│ Xi, Xj) = 0. Os resíduos são independentes da variável independente. Se isto não existe, Yt dependerá de Xt e de Ut-1.
8. E (Ui,Xi) = 0. Sem covariância entre U e X, pois U representa outras variáveis explicativas. Então se há esta correlação, outras variáveis estão influenciando X.
9. n > k; Ou seja, o número de observações tem que ser maior que o número de variáveis independentes.
10. Var (X) deve ser positiva definida, isto é, X tem que variar na amostra.
11. Não pode haver erro ou viés na especificação do modelo.
12. Ausência de multicolinearidade. Para modelos múltiplos.
13. Os resíduos devem ter distribuição normal.
A partir de tais premissas, tem-se que responder à seguinte questão: Quão útil é a reta de regressão? A resposta estará baseada em duas medições importantes:
a) O erro padrão da estimativa; e
b) O coeficiente de determinação r2.
Estas estatísticas medem a eficiência dos estimadores, isto é a precisão com que a reta estará próxima dos valores observados de y. A menor variância é que definirá tal precisão.
4.2. Erro padrão da estimativa
Quão precisas são as diversas estimativas de regressão?
Devemos lembrar que os estimadores são função dos dados amostrais e variam, portanto, de amostra para amostra. Assim, genericamente, o erro padrão é o desvio padrão da distribuição dos estimadores em diversas amostragens.
A determinante principal da precisão é a quantidade de dispersão na população: quanto maior a dispersão, menor a precisão das estimativas.
A dispersão pode ser calculada pela fórmula, que é a raiz quadrada da variância:
SSE=SQR → SQUARE SUM OF ERRORS; SOMA DOS QUADRADOS DOS RESÍDUOS
A razão para (n – k) – [(n – 2) é uma forma específica] – é que perdemos k (número dos parâmetros estimados) graus de liberdade ao calcular as duas constantes ‘a’ e ‘b’ na equação de regressão. Portanto, k = graus de liberdade, isto é, restrições impostas ao total de observações. Lembre-se que uma reta necessita de pelo menos dois pontos; logo, para os pontos ‘a’ e ‘b’ são necessários duas das observações (quaisquer).
O uso de yc em lugar de y decorre de querermos usar a reta de regressão como centro, ou ponto de referência, para medir a dispersão em relação à reta.
Se os dados observados estiverem, por exemplo, contidos numa reta, se obterá uma reta estimada coincidente com estes pontos observados e se, a soma dos quadrados dos desvios será igual
...