A Introdução a Estatística
Por: Gustavo Ribeiro Aguera • 9/9/2019 • Artigo • 3.257 Palavras (14 Páginas) • 231 Visualizações
1. Teoria da medida
O que é medir?
Descrições versus explicações: uma medida deve ter os dois aspectos. Por exemplo, se afirmo que algo tem 4 metros, “4” é uma descrição e “metros” é uma explicação. Podemos concluir então que medidas são compostas por uma unidade e uma descrição geralmente numérica.
A medição apresenta dois aspectos:
- Validade: a “régua” mede de fato o que eu quero?
- Precisão: dado que a “régua” é válida, será que consigo comparar diferença entre coisas?
1.1. Pipeline da Ciência
Define um passo a passo que sempre é seguido quando se quer explicar qualquer fenômeno.
[pic 1]
Para analisar o fenômeno, primeiramente devemos pensar nas variáveis que são capazes de mensurá-las, para tal, utiliza-se a teoria da medida, esse é o passo mais importante, uma vez que, quando feito errado, gera um resultado errado ou falha em explicar o fenômeno.
Em seguida, analisa-se as variáveis e escolhe-se um teste estatístico que é compatível com o tipos das variáveis e cuja pergunta que ele responde é pertinente para o entendimento do fenômeno.
Com os passos anteriores feitos corretamente, conseguimos obter um resultado que explica o fenômeno.
1.2. Variável
Variável é todo dado diretamente observável que pode ser quantificado.
: dados são compostos somente por uma quantificação, informações são compostas por uma quantificação e uma unidade (descrição + explicação).[pic 2]
Fator: Agrupamento de variáveis gerando um fator latente.
As variáveis são divididas em duas categorias:
- Variáveis contínuas: Variáveis quantitativas, podem ser classificadas como discretas ou contínuas. Variáveis discretas são variáveis numéricas que têm um número contável de valores entre quaisquer dois valores. Uma variável discreta é sempre numérica. Por exemplo, o número de reclamações de clientes ou o número de falhas ou defeitos. Variáveis contínuas são variáveis numéricas que têm um número infinito de valores entre dois valores quaisquer. Uma variável contínua pode ser numérica ou de data/hora. Por exemplo, o comprimento de uma peça ou a data e hora em que um pagamento é recebido.
- Variáveis categóricas: as variáveis categóricas contêm um número finito de categorias ou grupos distintos. Os dados categóricos podem não ter uma ordem lógica. Por exemplo, os preditores categóricos incluem gênero, tipo de material e método de pagamento.
2. Teorema de mensuração das variáveis
Variáveis contínuas:
- Média: [pic 3]
- Variância: média dos desvios ao quadrado. O quanto os dados se distanciam da média em média.
- Desvio padrão: mesma definição operacional da variância.
: o desvio padrão mantêm a mesma unidade da média.[pic 4]
[pic 5]
- : Regra do 68, 95, 99[pic 6]
Se a distribuição dos dados é aproximadamente normal, então cerca de 68% dos valores dos dados estão dentro de um desvio padrão da média, cerca de 95% estão dentro de dois desvios padrões e cerca de 99,7% estão dentro de três desvios padrões.
[pic 7]
2.1. Mediana
Ponto médio de uma distribuição de dados.
1º passo: ordenar os valores; 2º passo: achar o ponto médio.
Vantagem: robusta contra outliers (pontos fora da curva).
Também pode ser calculada para variáveis categóricas ordinais, ou seja, que possuem uma ordem entre as categorias, exemplo: faixa de renda. A mediana não pode ser calculada para o caso de variáveis categóricas nominais (oposto de ordinais).
2.2. z-escore
É uma forma padronizada para normalização de variáveis contínuas.
[pic 8]
Se , isso indica que a observação é diferente de cerca de 95% da amostra, se , 99,7% da amostra. Portanto z é uma ótimo indicador de outliers.[pic 9][pic 10]
Com o cálculo do z, consigo também comparar medidas diferentes, como o número de apartamentos vendidos em diferentes estados ou até o peso de uma pessoa com sua altura (unidades diferentes).
3. Intervalo de confiança
O intervalo de confiança é um intervalo que, dado um nível de confiança x% (geralmente é 95%), ele possui x% de conter a média populacional.
Precisão: consistência da resposta. uma medida da precisão é o desvio padrão.
Acurácia: resultados próximos à média da população. Uma medida da acurácia é o erro padrão .[pic 11]
3.1. Teorema do limite central
O teorema central do limite é um teorema fundamental de probabilidade e estatísticas. O teorema descreve a distribuição da média de uma amostra aleatória de uma população com variância finita. Quando o tamanho amostral é suficientemente grande, a distribuição da média é uma distribuição aproximadamente normal.
[pic 12]
3.2. IC para médias (distribuição normal)
[pic 13]
[pic 14]
3.2. IC para proporção (distribuição binomial)
[pic 15]
[pic 16]
4. Gráficos
Os gráficos gerados em análises estatísticas são divididos em descritivos e inferenciais.
Os gráficos descritivos me dizem apenas sobre minha amostra. Exemplos: gráfico em barras, em linhas, boxplot.
[pic 17]
Os gráficos inferenciais me permitem inferir sobre a população. Exemplo: intervalo de confiança.
[pic 18]
5. Teste de Hipótese
- Hipótese nula : sem evidência (mais razoável).[pic 19]
[pic 20]
- Hipótese alternativa : faz o experimento.[pic 21]
[pic 22]
- : a chance de erro em afirmar que coisas são diferentes (rejeitar )[pic 23][pic 24]
5.1. Teste t (Teste AB)
- Teste t para 1 amostra
Pergunta de pesquisa: existe diferença entre a média amostral e um parâmetro médio populacional (valor de referência)?
[pic 25]
[pic 26]
Fórmula para o cálculo do t:
[pic 27]
“Cara” da distribuição t:
[pic 28]
- Teste t para 2 amostras independentes
Pergunta de pesquisa: existe diferença entre a média amostral da amostra a e a média amostral da amostra b? ou existe efeito de uma variável categórica (com dois grupos) sobre uma contínua?
...