Regressão Linear
Por: Henrique__S • 3/3/2016 • Trabalho acadêmico • 2.489 Palavras (10 Páginas) • 517 Visualizações
MINISTÉRIO DA EDUCAÇÃO[pic 1][pic 2]
Universidade Federal de Ouro Preto – UFOP
Departamento de Ciências Exatas e Aplicadas
Campus João Monlevade
DIOGO ALVES MATOS
LUÍS HENRIQUE DOS SANTOS
NAYARA NUNES FONSECA
ANÁLISE DE MODELO LINEAR DE REGRESSÃO
BASE DE DADOS - PROGRAMAÇÃO
JOÃO MONLEVADE – MG
MARÇO/2016
DIOGO ALVES MATOS
LUÍS HENRIQUE DOS SANTOS
NAYARA NUNES FONSECA
ANÁLISE DE MODELO LINEAR DE REGRESSÃO
BASE DE DADOS - PROGRAMAÇÃO
Atividade apresentada como parte das exigências da disciplina Estatística e Probabilidade – CEA307 do curso de Engenharia Elétrica da Universidade Federal de Ouro Preto - UFOP - Campus João Monlevade.
Docente: Cássius Henrique Xavier Oliveira
JOÃO MONLEVADE – MG
MARÇO/2016
- DESENVOLVIMENTO
- Análise exploratória dos dados
Os dados fictícios a seguir representam uma coleta de dados baseada em alguns programas escritos na linguagem tradicional aplicados em problemas da Engenharia Elétrica. Duas variáveis foram observadas:
y = problemas ou falhas na execução de programas;
x = dimensão do problema (medida numa escala de 1 a 5, em que 5 represente um problema de escala muito grande).
[pic 3]
Figura 1: Tabela da base de dados.
O objetivo é encontrar um modelo de regressão linear simples para essa base de dados, e então analisá-lo, para observar o nível de correlação entre as variáveis x e y. Como sabemos um modelo de regressão é definido por: [pic 4] obedecendo os seguintes critérios:
- A relação matemática entre Y e X é linear;
- Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória;
- A média do erro é nula, ou seja, [pic 5]; e
- Frequentemente, supomos que os erros têm distribuição Normal.
Tendo conhecimento das definições, podemos partir para a análise preliminar gráfica dos dados, gerada no R. Essa análise é realizada construindo-se os gráficos de dispersão, e boxplot entre as variáveis em questão.
Estes gráficos são importantes em qualquer análise de regressão já que por meio dele é possível ter uma estimativa do tipo de relação existente entre as variáveis (relação linear, quadrática, ...).
Esta relação na maioria das vezes não é perfeita, ou seja, os pontos não estão dispostos perfeitamente sobre a função que relaciona as duas variáveis mas deseja-se que estes pontos estejam próximos.
Analisando o gráfico boxplot (figura 3) com relação à variável x, podemos perceber nitidamente que confirmam nossos critérios definidos acima. O x tem valores fixos ou controlados, no nosso caso é a dimensão do problema na execução de programas, como já dito. Caracterizando-se como um valor fixo, na maioria das vezes simétrico. Assim a mediana e a média obrigatoriamente coincidem.
[pic 6]
Figura 2: Média mediana e moda das variáveis x e y.
O segundo gráfico (figura 3) que é um boxplot com relação à variável y, nos informa também, a respeito da simetria dos dados. Com o detalhe que sua análise não se assemelha ao anterior, mas sim possui grandes diferenças. Percebemos que possui dados bem mais concentrados entre 1 e 14, onde sua média é 11.8 e sua mediana é 6. Esse possui pontos discrepantes e vemos sua média e mediana distantes, consequentemente os dados podem ser considerados assimétricos.
[pic 7][pic 8]
Figura 3: Boxplot com relação às variáveis x e y respectivamente.
Por fim, o gráfico mais importante da análise é o gráfico dedispersão. Este dá indícios sobre a variabilidade associada as variáveis em questão e sobre pontos atípicos ou discrepantes.
Os dados para a análise de regressão e correlação simples são da forma: , , . . . . , com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear. Portanto este diagrama permite decidir empiricamente se um relacionamento linear entre x e y deve ser assumido. Por análise do diagrama de dispersão ao pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos em redor de uma reta imaginaria que passa através do enxame de pontos.[pic 9][pic 10][pic 11][pic 12]
Dadas as informações, podemos observar neste gráfico abaixo, que as relações que deveriam estar mais próximas (quanto mais próximas melhor) de uma reta, não se fazem tão presentes, esses estariam mais bem representados por outra função como a exponencial. Nesses casos deveríamos usar um outro modelo, mas como estamos tratando apenas de um modelo linear, vamos nos concentrar em juntar mais evidências de que esse modelo não se adequa à nossa base de dados.
Temos uma dispersão considerável do modelo à medida que aumentamos a variável x. Um fato interessante seria considerar apenas até a variável x = 4, assim teríamos possivelmente um ajuste melhor, mas não podemos corromper nossa base de dados, continuaremos com a prova anterior.
Como a inclinação da reta é positiva, concluímos que a correlação entre X e Y também é positiva, os fenômenos variam no mesmo sentido.
[pic 13]
Figura 4: Gráfico de dispersão do modelo.
1.2 Ajuste do Modelo de Regressão Linear Simples
[pic 14] | [pic 15] | [pic 16] | [pic 17] | [pic 18] | [pic 19] |
1 | 1 | 1 | 1 | 1 | 1 |
2 | 1 | 6 | 6 | 1 | 36 |
3 | 1 | 2 | 2 | 1 | 4 |
4 | 2 | 3 | 6 | 4 | 9 |
5 | 2 | 2 | 4 | 4 | 4 |
6 | 2 | 4 | 8 | 4 | 16 |
7 | 3 | 6 | 18 | 9 | 36 |
8 | 3 | 5 | 15 | 9 | 25 |
9 | 3 | 8 | 24 | 9 | 64 |
10 | 4 | 10 | 40 | 16 | 100 |
11 | 4 | 15 | 60 | 16 | 225 |
12 | 4 | 14 | 56 | 16 | 196 |
13 | 5 | 23 | 115 | 25 | 529 |
14 | 5 | 40 | 200 | 25 | 1600 |
15 | 5 | 38 | 190 | 25 | 1444 |
Somatórios | ||||
[pic 20] | [pic 21] | [pic 22] | [pic 23] | [pic 24] |
45 | 177 | 745 | 165 | 4289 |
...