Correlação e Regressão
Por: kmila_crt • 2/3/2017 • Trabalho acadêmico • 1.611 Palavras (7 Páginas) • 244 Visualizações
Correlação e Regressão – 4 bimestre
Correlação – Relações entre duas variáveis
DEFINIÇÃO: “Uma correlação é uma relação entre duas variáveis. Os dados podem ser representados por pares ordenados (x,y), onde x é a variável independente (ou explanatória) e y é a variável dependente (ou resposta).
Em diversas investigações deseja-se avaliar a relação entre duas medidas quantitativas. Por exemplo:
- Considere os dados da tabela 1.1 abaixo referentes ao peso e ao consumo calórico de 10 indivíduos.
Tabela 1.1 - Pesos (kg) e consumo calórico (kcal) de 10 pessoas
n | (x) Peso (Kg) | (y) Calorias (kcal) |
1 | 62 | 2400 |
2 | 75 | 3200 |
3 | 88 | 3800 |
4 | 70 | 3300 |
5 | 65 | 2800 |
6 | 58 | 2200 |
7 | 77 | 3400 |
8 | 55 | 2600 |
9 | 80 | 4000 |
10 | 48 | 2000 |
Três propósitos principais de tais investigações podem ser:
- para verificar se os valores estão associados. (Os valores de uma medida tendem a crescer (ou decrescer) à medida que a outra cresce?)
- para predizer o valor de uma variável a partir de um valor conhecido da outra.
- para descrever a relação entre variáveis. (Dado um aumento específico numa variável, qual o crescimento médio esperado para a segunda variável?)
A associação linear entre duas variáveis é avaliada usando correlação.
O primeiro estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para obter alguma ideia da forma e grau de associação entre duas variáveis.
Abaixo estão exemplos de dados com seus coeficientes de correlação correspondentes.
R = 0,4 | R = 0,7 | R = 1,0 (correlação linear positiva) |
[pic 1] | [pic 2] | [pic 3] |
R= - 0,3 | R = - 0,6 | R = -0,9 (correlação linear negativa) |
[pic 4] | [pic 5] | [pic 6] |
Interpretação do coeficiente de correlação
O valor de r está sempre entre - 1 e + 1, com r = 0 correspondendo a não associação.
Usamos o termo correlação positiva quando r > 0, e nesse caso à medida que x cresce também cresce y, e correlação negativa quando r < 0, e nesse caso à medida que x cresce, y decresce (em média).
Quanto maior o valor de [pic 7] (positivo ou negativo), mais forte a associação.
No extremo, se r = 1 ou r = -1 então todos os pontos no gráfico de dispersão caem exatamente numa linha reta. No outro extremo, se r = 0 não existe nenhuma associação linear.
[pic 8]
Mesmo tendo somente 10 observações, podemos ver que parece existir alguma associação entre peso (kg) e o consumo calórico (kcal) dos indivíduos.
Scatterplot of Calorias (kcal) vs Peso (Kg)
MTB > Correlation 'Peso (Kg)' 'Calorias (kcal)'.
Correlations: Peso (Kg); Calorias (kcal)
- Pearson correlation of Peso (Kg) and Calorias (kcal) = 0,937
- P-Value = 0,000
- R^2 = 0,8780
Coeficiente de determinação, R2
O quadrado do Coeficiente de Correlação de Pearson é chamado de coeficiente de determinação ou simplesmente R2. É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra. É pouco comum que tenhamos uma correlação perfeita (R2 = 1) na prática, porque existem muitos fatores que determinam as relações entre variáveis na vida real. No nosso exemplo, tivemos r =0,937, de modo que R2= (0,937 x 0,937) = 0,8780 ou 87,80%. Então cerca de 87,80% da variabilidade do peso (kg) pode ser descrito (ou explicado) pela variabilidade no consumo calórico (kcal) e vice-versa.
Fórmula para o Coeficiente de Correlação (r):
[pic 9]; onde n é o número de pares de dados.
Exemplo1. Encontrando o coeficiente de correlação.
Calcule o coeficiente de correlação para os dados dos gastos com propaganda e vendas da empresa informados. O que podemos concluir?
Gastos com propaganda (Milhões $) | Vendas da empresa (Milhões de $) | x.y | x^2 | y^2 |
2,4 | 225 | 540 | 5,76 | 50625 |
1,6 | 184 | 294,4 | 2,56 | 33856 |
2 | 220 | 440 | 4 | 48400 |
2,6 | 240 | 624 | 6,76 | 57600 |
1,4 | 180 | 252 | 1,96 | 32400 |
1,6 | 184 | 294,4 | 2,56 | 33856 |
2 | 186 | 372 | 4 | 34596 |
2,2 | 215 | 473 | 4,84 | 46225 |
15,8 | 1634 | 3289,8 | 32,44 | 337558 |
[pic 10] | [pic 11] | [pic 12] | [pic 13] | [pic 14] |
, onde n = 8
...