A Estatística Básica
Por: Nicolle Pires • 31/10/2018 • Relatório de pesquisa • 1.493 Palavras (6 Páginas) • 264 Visualizações
1ª Prova de Estatística
Nicolle Santos Pires ________________________________________ 11621EQU014
- A) [pic 1]
Para o gráfico de (X1, Y) a correlação é positiva e relativamente forte, ou seja, há uma certa tendência crescente da dependência entre as variáveis. [pic 2]
Para o gráfico de (X2,Y) a correlação é negativa e fraca, ou seja, é possível observar uma leve dependência decresente entre as variáveis.
[pic 3]
Para o gráfico (X2,X1) a correlação é negativa e fraca, ou seja a dependência entre as variáveis é decrescente e praticamente não é notada. [pic 4]
Para o gráfico (X3,X1) a correlação é negativa e fraca. Não há dependência decrescente entre as variáveis.
[pic 5]
Para o gráfico (X3,Y) a correlação é negativa e forte. É possível notar a dependência decrescente de Y em relação a X3. [pic 6]
Para o gráfico (X3,X2) a correlação é positiva e relativamente forte. É possível notar a dependência crescente com certa clareza.
B)
y | X1 | X2 | X3 | |
Logarítimo de Solubilidade (y) | 1 | 0.7327799 | -0.4490952 | -0.7805351 |
Solubilidade Parcial para a contribuição da Dispersão (x1) | 0.7327799 | 1 | -0.3574472 | -0.4736236 |
Solubilidade Parcial para a contribuição do momento dipolo (x2) | -0.4490952 | -0.3574472 | 1 | 0.6964577 |
Solubilidade Parcial para a contribuição da ponte de Hidrogênio (x3) | -0.7805351 | -0.4736236 | 0.6964577 | 1 |
Através do software R calculei a média aritmética de cada variável pra depois calcular a diferença entre entre cada um dos 26 valores atribuídos as variáveis e a média. Em seguida, calculei a variância pela própria função existente no R para esse fim. Ela também pode ser calculada pela fórmula:
[pic 7]
Após isso, calculei o desvio padrão, através da raiz quadrada da variância das variáveis de Y, X1, X2, X3. Dividi os valores da diferença pelo desvio padrão, multipliquei os resultados subsequentes para as relações e depois somei todos, para, em seguida dividir por 26 e obter a correlação linear entre as variáveis (Y,X1); (Y,X2); (Y,X3); (X1,X2); (X1,X3);(X2,X3).
Tabela: Relação entre as variáveis e as medidas usadas no calculo de correlação linear
Desvio Padrão | Variância | Média | |
Y | 0.1691221 | 0.02860228 | 0.2722277 |
X1 | 0.9454425 | 0.8938615 | 8.311538 |
X2 | 1.867619 | 3.488 | 2.8 |
X3 | 4.549855 | 20.70118 | 5.103846 |
C) De acordo com os gráficos e os coeficientes de correlação linear para cada cruzamento de variáveis, é possível concluir que o gráfico (X3,Y) possui a melhor dependência entre as variáveis. A correlação linear dele foi de quase – 0.8, um valor próximo de 1, o que significa forte tendência de decrescimento linear, ou seja a variação do logarítimo de solubilidade é influenciada pelos valores de solubilidade parcial para a contribuição da ponte de hidrogênio, o logarítmo diminui com o aumento da solubilidade. Os outros dois melhores coeficientes são (X1,Y) e (X2,X3). Seus coeficientes são aproximadamente 0.73 e 0.7, o que indica dependência positiva e linear, porém os valores estão mais distantes de serem uma reta como no gráfico (X3,Y). Esses valores mostram que o logarítimo de solubilidade cresce quando a solubilidade parcial para a contribuição de dispersão também cresce. O mesmo acontece entre X2 e X3.
Já para os demais gráficos os coeficientes de correlação linear são muito próximos de zero para dizer que as variáveis relacionadas possuem algum tipo de dependência.
D) Para a variável Y: [pic 8][pic 9]
Para a variável Y:
- q1= q(0,25)= 0,10375
- q2=q(0,50)=med(Y)= 0,27850
- q3=q(075)= 0,43575
- Ymin= 0,00002
- Ymax=0,49400
- q2– Ymin Ymax – q2 0.27848 0,2155[pic 10][pic 11][pic 12]
- q2 – q1 q3 – q2 0,17475 0,15725[pic 13][pic 14][pic 15]
- q1 – Ymin Ymax – q3 0,10355 0,05825[pic 16][pic 17][pic 18]
- as distâncias entre a mediana e os q1 e q3 não são menores que as distâncias entre q1 e q3 e os extremos.
É possível concluir que a variável não possui uma distribuição muito simétrica em relação aos dados. Porém, como a mediana, ou seja, o valor que divide a os valores de Y ao meio, está a uma distância relativamente próxima de q1 e q3 dá uma ideia de simetria, mesmo que ela esteja mais próxima de q3. Pelo histograma, o gráfico é assimétrico à direita.
Para a variável x1:[pic 19][pic 20]
Para a variável X1:
- q1= q(0,25)= 7,600
- q2=q(0,50)=med(Y)= 7,950
- q3=q(075)= 8,950
- X1min= 7,100
- X1max= 10,300
- q2– X1min X1max – q2 0,85 2,35[pic 21][pic 22][pic 23]
- q2 – q1 q3 – q2 0,35 1[pic 24][pic 25][pic 26]
- q1 – X1min X1max – q3 0,5 1,35[pic 27][pic 28][pic 29]
- as distâncias entre a mediana e os q1 e q3 não são menores que as distâncias entre q1 e q3 e os extremos.
Portanto, a distribuição não é nem um pouco simétrica. A mediana está muito mais próxima de q1 do que de q3, o que indica uma assimetria à esquerda, o que pode ser comprovado pelo histograma e a posição da mediana nele. ,Além disso, como todos os valores que indicam simetria na distribuição dos dados não são próximos, é realmente uma distribuição assimétrica.
Para a variável x2: [pic 30][pic 31]
Para a variável X2 há um valor que é um possível outlier, o valor 7,8.
...