A Introdução a Estatística

Por: Gustavo Ribeiro Aguera • 9/9/2019 • Artigo • 3.257 Palavras (14 Páginas) • 338 Visualizações

Página 1 de 14

1. Teoria da medida

O que é medir?

Descrições versus explicações: uma medida deve ter os dois aspectos. Por exemplo, se afirmo que algo tem 4 metros, “4” é uma descrição e “metros” é uma explicação. Podemos concluir então que medidas são compostas por uma unidade e uma descrição geralmente numérica.

A medição apresenta dois aspectos:

Validade: a “régua” mede de fato o que eu quero?
Precisão: dado que a “régua” é válida, será que consigo comparar diferença entre coisas?

1.1. Pipeline da Ciência

Define um passo a passo que sempre é seguido quando se quer explicar qualquer fenômeno.

[pic 1]

Para analisar o fenômeno, primeiramente devemos pensar nas variáveis que são capazes de mensurá-las, para tal, utiliza-se a teoria da medida, esse é o passo mais importante, uma vez que, quando feito errado, gera um resultado errado ou falha em explicar o fenômeno.

Em seguida, analisa-se as variáveis e escolhe-se um teste estatístico que é compatível com o tipos das variáveis e cuja pergunta que ele responde é pertinente para o entendimento do fenômeno.

Com os passos anteriores feitos corretamente, conseguimos obter um resultado que explica o fenômeno.

1.2. Variável

Variável é todo dado diretamente observável que pode ser quantificado.

: dados são compostos somente por uma quantificação, informações são compostas por uma quantificação e uma unidade (descrição + explicação).[pic 2]

Fator: Agrupamento de variáveis gerando um fator latente.

As variáveis são divididas em duas categorias:

Variáveis contínuas: Variáveis quantitativas, podem ser classificadas como discretas ou contínuas. Variáveis discretas são variáveis numéricas que têm um número contável de valores entre quaisquer dois valores. Uma variável discreta é sempre numérica. Por exemplo, o número de reclamações de clientes ou o número de falhas ou defeitos. Variáveis contínuas são variáveis numéricas que têm um número infinito de valores entre dois valores quaisquer. Uma variável contínua pode ser numérica ou de data/hora. Por exemplo, o comprimento de uma peça ou a data e hora em que um pagamento é recebido.
Variáveis categóricas: as variáveis categóricas contêm um número finito de categorias ou grupos distintos. Os dados categóricos podem não ter uma ordem lógica. Por exemplo, os preditores categóricos incluem gênero, tipo de material e método de pagamento.

2. Teorema de mensuração das variáveis

Variáveis contínuas:

Média: [pic 3]
Variância: média dos desvios ao quadrado. O quanto os dados se distanciam da média em média.
Desvio padrão: mesma definição operacional da variância.

: o desvio padrão mantêm a mesma unidade da média.[pic 4]

[pic 5]

: Regra do 68, 95, 99[pic 6]

Se a distribuição dos dados é aproximadamente normal, então cerca de 68% dos valores dos dados estão dentro de um desvio padrão da média, cerca de 95% estão dentro de dois desvios padrões e cerca de 99,7% estão dentro de três desvios padrões.

[pic 7]

2.1. Mediana

Ponto médio de uma distribuição de dados.

1º passo: ordenar os valores; 2º passo: achar o ponto médio.

Vantagem: robusta contra outliers (pontos fora da curva).

Também pode ser calculada para variáveis categóricas ordinais, ou seja, que possuem uma ordem entre as categorias, exemplo: faixa de renda. A mediana não pode ser calculada para o caso de variáveis categóricas nominais (oposto de ordinais).

2.2. z-escore

É uma forma padronizada para normalização de variáveis contínuas.

[pic 8]

Se , isso indica que a observação é diferente de cerca de 95% da amostra, se , 99,7% da amostra. Portanto z é uma ótimo indicador de outliers.[pic 9][pic 10]

Com o cálculo do z, consigo também comparar medidas diferentes, como o número de apartamentos vendidos em diferentes estados ou até o peso de uma pessoa com sua altura (unidades diferentes).

3. Intervalo de confiança

O intervalo de confiança é um intervalo que, dado um nível de confiança x% (geralmente é 95%), ele possui x% de conter a média populacional.

Precisão: consistência da resposta. uma medida da precisão é o desvio padrão.

Acurácia: resultados próximos à média da população. Uma medida da acurácia é o erro padrão .[pic 11]

3.1. Teorema do limite central

O teorema central do limite é um teorema fundamental de probabilidade e estatísticas. O teorema descreve a distribuição da média de uma amostra aleatória de uma população com variância finita. Quando o tamanho amostral é suficientemente grande, a distribuição da média é uma distribuição aproximadamente normal.

[pic 12]

3.2. IC para médias (distribuição normal)

[pic 13]

[pic 14]

3.2. IC para proporção (distribuição binomial)

[pic 15]

[pic 16]

4. Gráficos

Os gráficos gerados em análises estatísticas são divididos em descritivos e inferenciais.

Os gráficos descritivos me dizem apenas sobre minha amostra. Exemplos: gráfico em barras, em linhas, boxplot.

[pic 17]

Os gráficos inferenciais me permitem inferir sobre a população. Exemplo: intervalo de confiança.

[pic 18]

5. Teste de Hipótese

Hipótese nula : sem evidência (mais razoável).[pic 19]

[pic 20]

Hipótese alternativa : faz o experimento.[pic 21]

[pic 22]

: a chance de erro em afirmar que coisas são diferentes (rejeitar )[pic 23][pic 24]

5.1. Teste t (Teste AB)

Teste t para 1 amostra

Pergunta de pesquisa: existe diferença entre a média amostral e um parâmetro médio populacional (valor de referência)?

[pic 25]

[pic 26]

Fórmula para o cálculo do t:

[pic 27]

“Cara” da distribuição t:

[pic 28]

Teste t para 2 amostras independentes

Pergunta de pesquisa: existe diferença entre a média amostral da amostra a e a média amostral da amostra b? ou existe efeito de uma variável categórica (com dois grupos) sobre uma contínua?

...

Baixar como (para membros premium) txt (12.3 Kb) pdf (545.5 Kb) docx (561.5 Kb)

Continuar por mais 13 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar