Trabalho Completo Amostragem

Amostragem

Imprimir Trabalho!
Cadastre-se - Buscar 155 000+ Trabalhos e Monografias

Categoria: Outras

Enviado por: biacigoli 02 junho 2013

Palavras: 3134 | Páginas: 13

Amostragem

Objetivos do módulo

Caso você queira saber se uma determinada marca de uísque é boa, você precisa beber a garrafa inteira? A menos que você tenha acabado de bebê-la a resposta será certamente não. Todos nós sabemos que basta beber uma dose para conseguirmos avaliar a qualidade da bebida. Esta pequena dose é chamada de amostra, e o processo pelo qual estimamos a qualidade do uísque usando a avaliação de uma amostra é chamado de amostragem.

Agora, note que, se você quiser fazer o mesmo raciocínio para uma feijoada você terá que considerar alguns aspectos: O processo de amostragem ainda é válido, mas, a amostra certamente terá que ser maior do que aquela de uísque. E porque isso? Por que enquanto o uísque é totalmente homogêneo a feijoada tem um alto grau de heterogeneidade. Trocando em miúdos, se você pegar uma pequena amostra da feijoada corre o risco de não provar o paio, que está uma porcaria, e assim chegar a conclusões errôneas.

Em estatística a medida que nos informa qual é o grau de homogeneidade do universo que estamos trabalhando é o desvio padrão, e quanto maior ele for menos homogênea será o universo e a amostra.

Assim quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos saber qual é o seu desvio padrão.

Por outro lado observe que, quando você experimenta uma amostra para saber como funciona o universo todo você está fazendo uma estimação, ou seja, uma previsão do todo a partir de uma parte. Isso é possível, mas com um cuidado fundamental: A previsão está sujeita a um erro estatístico, ou seja, uma tolerância para mais e para menos em torno do valor previsto. Esta tolerância é chamada de erro máximo da estimativa, e deve ser estabelecido por você em função da resposta que você espera obter. Note que quanto menor for o erro que você está disposto a aceitar mais vai ser o tamanho da amostra que terá que ser colhida, ou seja, mais cara será sua amostragem.

Assim quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos estabelecer qual é o erro máximo esperado.

Por fim você terá que notar que essa sua estimativa merece certa confiança de sua parte, ou seja, o quanto você acredita que ela está certa. Lembre-se que se você quiser ter 100% de confiança, terá que pagar por isso. A amostra ficará grande e cara. Na maior parte das vezes uma confiança de 90 ou 95% é suficientemente boa para podermos tomar uma decisão segura e coerente. Certamente você trabalhou com uma confiança muito menor quando decidiu pedir a mão daquela garota bonita ou você aceitou o pedido de casamento daquele galante rapaz!

Assim quando quisermos saber qual é o tamanho que uma amostra deve ter, deveremos estabelecer qual é o nível de confiança com que devemos trabalhar.

Note, portanto que grande parte de nossas preocupações no processo de amostragem é a determinação do tamanho das amostras.

Amostragem, fundamentalmente, é o processo de colher amostras, estudá-las, determinando suas medidas estatísticas e a partir deste estudo induzir os parâmetros populacionais.

Quando falamos que estamos estimando um parâmetro estatístico queremos dizer que a partir do conhecimento de uma medida estatística iremos prever o valor da medida (parâmetro) populacional. Por exemplo, suponha que tenhamos escolhido aleatoriamente 100 alunos de Estatística, dentro de uma população de 1000 estudantes, coletado as notas de cada um e encontrado a média dessas notas. Suponha que essa média tenha sido 5,6. É lógico supor, em princípio que a média de todos os 1000 alunos de Estatística também seja igual a 5,6.

Para diferenciarmos as duas informações iremos utilizar simbologia diferente para as medidas estatísticas e para os parâmetros populacionais. Assim sendo diríamos que para a amostra de 100 alunos a média é: X= 5,6, e que para a população de 1000 estudantes a média estimada é µ = 5,6. As medidas estatísticas são simbolizadas por letras do nosso alfabeto e os parâmetros estatísticos por letras gregas.

Essa estimativa feita é chamada de estimativa por pontos e normalmente são preteridas em favor das estimativas por intervalos, que indicam a precisão ou exatidão. As estimativas por intervalos são dadas por dois números obtidos pela introdução do conceito de erro estatístico.

Assim sendo seria preferível apresentar a estimativa acima da seguinte maneira: o valor estimado para a média dos 100 estudantes mencionados é de 5,6±0,2, ou seja, a média será um valor entre 5,4 e 5,8. O valor 0,2 é o erro esperado nessa estimativa.

Os cálculos envolvendo essas estimativas serão mostrados a seguir.

3.1 – Teoria Elementar da Amostragem

Imagine uma população de grande quantidade de valores, da qual são retiradas todas as amostras possíveis de tamanho N. Para cada uma dessas amostras podemos calcular uma determinada grandeza estatística, digamos, por exemplo, a média, que irá variar de amostra para amostra. Todos os valores calculados juntos formarão uma distribuição amostral, que no caso da média se chamará distribuição amostral das médias. Para essa distribuição como qualquer outra distribuição pode ser calculada a média e o desvio padrão, portanto, podemos falar de média e desvio padrão da distribuição amostral das médias, por exemplo.

Observe que de maneira semelhante podemos conceituar distribuições amostrais das outras medidas estatísticas, como por exemplo, as distribuições amostrais das proporções, distribuição amostral das variâncias; distribuições amostrais dos desvios padrões, etc.

Nesse curso iremos nos ater às principais, ressaltando que as demais seguem exatamente os mesmo princípios.

Distribuição Amostral das Médias:

Admita que uma determinada população tenha média µ e desvio padrão σ, e que retiremos dessa população todas as amostras possíveis de tamanho N. Para cada amostra calculamos a média, e todas as médias calculadas irão compor a distribuição amostral das médias, cuja média é chamada de média da distribuição das médias e simbolizada por µx e o desvio padrão da distribuição das médias é simbolizado por σx, sendo o valor de ambos dados, respectivamente por:

e

O exemplo a seguir deixa mais claro o raciocínio e a utilização desses conceitos.

1- Sabemos que a altura média de 5000 estudantes universitário do sexo masculino é de 1,728 m com desvio padrão de 0,067 m. Desse grupo retiramos 100 amostras de 30 estudantes cada uma. Qual é a média da distribuição amostral das médias e qual é o desvio padrão da distribuição amostral das médias?

Observe que nos foi informados os seguintes dados:

• Média populacional: µ = 1,728

• Desvio padrão populacional: σ = 0,067

• Tamanho das amostras: N = 30

Assim sendo podemos calcular a média e o desvio padrão da distribuição amostral:

Sobre esses cálculos é importante ressaltar:

1- Não estamos considerando todas as amostras possíveis e imagináveis, somente 100 delas estão sendo levadas em conta. Isso faz com que essa não seja a verdadeira distribuição amostral das médias, mas uma amostragem experimental. No entanto como o número 100 é suficientemente grande podemos afirmar que essas duas distribuições são muito aproximadas, e do ponto de vista prático poderão ser consideradas iguais.

2- Esses cálculos foram considerados para uma população muito grande, tão grande que a consideramos infinita. Caso a população não fosse tão grande e a amostragem não fosse feita com reposição deveríamos fazer uma correção no cálculo do desvio padrão da distribuição amostral. Essa correção é feita pela multiplicação do valor do desvio padrão pela expressão: , onde Np é o tamanho da população. Assim o cálculo do desvio padrão ficaria sendo:

Perceba que na prática não ocorre diferenças, em virtude do tamanho muito grande da população.

3- O desvio padrão da distribuição amostral é normalmente chamado de erro padrão.

4- Para grandes valores de N (N≥30) a distribuição amostral é aproximadamente normal, independente do comportamento da população. Essa característica permite responder à seguinte questão:

2- Quantas das 100 amostras colhidas apresentarão valores médios acima de 1, 735 m?

Esse cálculo é feito de modo idêntico ao que fizemos no capítulo da distribuição normal, ou seja:

A probabilidade de que uma das amostras tiradas tenha valor médio superior a 1, 735 m é de 28,10%.

Distribuição Amostral das Proporções:

Admita que uma população seja infinita e que a probabilidade de ocorrência de certo evento é p (probabilidade de sucesso) e que retiremos dessa população todas as amostras possíveis de tamanho N. Para cada amostra calculamos a média, e todas as médias calculadas irão compor a distribuição amostral das proporções, cuja média é chamada de média da distribuição das proporções e simbolizada por µp e o desvio padrão da distribuição das proporções é simbolizado por σp, sendo o valor de ambos dados, respectivamente por:

e

O exemplo a seguir deixa mais claro o raciocínio e a utilização desses conceitos.

3- Em determinado processo produtivo 4% dos itens produzidos são defeituosos. Em dado momento retira-se da produção 500 itens produzido. Calcular:

a. Qual a média da distribuição amostral dessa proporção?

b. Qual é o desvio padrão dessa distribuição amostral das proporções?

c. Qual é a probabilidade de que desses 500 itens inspecionados 3% ou mais sejam defeituosos?

Observe que nos foi informados os seguintes dados:

• Probabilidade de sucesso: p = 4% ou 0,04

• Tamanho das amostras: N = 500

Assim sendo podemos calcular a média e o desvio padrão da distribuição amostral:

Para o cálculo do item c precisamos introduzir o fator de correção para variáveis discretas. Isso é necessário porque estaremos usando conceitos da distribuição normal, como se sabe uma distribuição para variáveis contínuas numa questão que envolve variáveis discretas. Isso é permitido porque o N é suficientemente grande (≥ 30), mas é necessário o uso do fator de correção: .

Nessa questão o fator de correção é de

Esse cálculo é feito de modo idêntico ao da distribuição normal, ou seja:

A probabilidade de que uma das amostras tiradas tenha valor médio superior a 1,735 m é de 28,10%.

Distribuição Amostral das Diferenças:

Dadas duas populações, das quais são retiradas amostras de NA da população A e NB elementos da população B a distribuição amostral das diferenças (das médias, das proporções ou de qualquer outra medida estatística) é caracterizadas pela diferença dos valores centrais e pela raiz quadrada da soma dos quadrados dos desvios padrões, dividido pelo tamanho da amostra, ou seja:

Para diferenças entre médias:

e

Para diferenças entre proporções:

e

As questões a seguir ajudarão a entender esses conceitos.

4- Os amortecedores do fabricante A rodam em média 65 000 km, com desvio padrão de 4500 km, normalmente distribuídos. Já os amortecedores do fabricante B duram em média 60 000 km, com desvio padrão de 3500 km. Suponha que foram testados 36 amortecedores da marca A e 49 amortecedores da marca B. Calcule:

a. Qual a média e o desvio padrão da distribuição amostral da diferença entre as vidas úteis?

b. Qual é a probabilidade de que a amostra dos amortecedores da marca A durem menos do que 3000 km do que os da marca B?

Observe que a diferença entre as amostras das vidas úteis dos amortecedores da Marca A e da marca B é em média de 5000 km a favor do primeiro, mas com um erro padrão de 901, portanto o cálculo da questão b será:

5- Os resultados de uma eleição mostraram que um candidato obteve 60% dos votos. Qual é a probabilidade de que duas amostras aleatórias, cada uma com 200 eleitores, apresentar uma diferença superior a 10% de uma em relação à outra?

Perceba que em principio não deveria haver diferença entre as duas amostras, mas é possível que a amostra A seja maior que a amostra B ou vice-versa. A probabilidade de que a amostra A tenha 10% a mais de eleitores que a amostra B é calculada da seguinte forma:

Devemos lembrar, no entanto que o oposto também pode ocorrer, ou seja, existem 1,83% de probabilidade que a amostra B tenha mais de 10% de eleitores que a amostra A, logo, a probabilidade que uma tenha mais do que 10% de eleitores do que a outra é de:

3.2 – Teoria da Estimação Estatística

No item anterior vimos que é possível prever o comportamento de amostras sabendo o comportamento da população do qual ela é retirada. Do ponto de vista prático, no entanto, normalmente é mais interessante o movimento ao contrário, ou seja, a partir do estudo de uma amostra estimar-se o comportamento de uma população.

Esse campo do estudo estatístico é conhecido como inferência estatística, e normalmente é feita com a definição dos chamados intervalos de confiança.

Suponha uma distribuição amostral das médias cuja média seja µX e o erro padrão σX. Note que uma amostra qualquer retirada da população correspondente deve pertencer a essa distribuição. Observe o gráfico abaixo:

Observe que a probabilidade de que a probabilidade de que uma amostra tenha valor médio entre µX - σX. e µX + σX é de 68,2%, quer dizer, temos uma confiança de 68,2% de que o valor médio de uma amostra qualquer esteja entre aqueles valores mencionados. Em outras palavras, o intervalo de confiança de 66,2% são os valores entre µX - σX. e µX + σX

De modo semelhante o intervalo de confiança de 99,7% está entre µX - 3σX. e µX + 3σX, e assim por diante.

O número de erros padrões que estabelecem a confiabilidade são chamados de coeficientes de confiança ou valores críticos e simbolizados por zc. Podemos determinar uma confiança a partir do valor crítico ou ao contrário determinar o valor crítico a partir da confiança desejada, utilizando a tabela da curva normal reduzida.

Por exemplo, caso queiramos trabalhar com uma confiabilidade de 90% o valor crítico será de 1,645. Chega-se a esse valor através do raciocínio estabelecido no gráfico abaixo

Utilizando a tabela da distribuição reduzida teríamos:

Perceba que a área 0,0500 e exatamente o ponto médio entre o valor 0,0495 (Z= - 1,65) e 0,0505 (Z= -1,64) daí o valor 1,645. O sinal negativo será ignorado por causa da simetria da curva. Existe um Zc positivo e outro negativo, simétricos.

A partir destes conceitos podemos determinar os vários intervalos de confiança:

Intervalo de confiança para a média:

Intervalo de confiança para as proporções:

Intervalo de confiança para as diferenças de médias:

Intervalo de confiança para as diferenças das proporções:

A multiplicação do valor crítico pelo erro padrão gera o chamado erro esperado ou margem de erro

Acompanhe abaixo algumas aplicações dos raciocínios desenvolvidos acima.

6- Um auditor contábil separou aleatoriamente uma amostra de 45 contas paga por uma empresa e encontrou um valor médio para elas de R$ 14.900,00 com desvio padrão de R$ 3600. Baseando-se nesses valores, qual foi o valor estimado para a média populacional, com 95% de confiabilidade?

A estimativa para a média é dada por: . Para se fazer essa estimativa precisamos das seguintes informações:

• Média:

• Valor Crítico: Zc = 1,96, conforme o seguinte cálculo:

• Desvio padrão: σ = s = 3600

• Tamanho da amostra: 45

Baseado nesse cálculo e nessa amostra podemos dizer que se estima que as contas dessa empresa tem um valor médio entre R$13.848 e R$ 15.952 com 95% de certeza.

7- Uma pesquisa eleitoral feita com 2500 eleitores revelou que o candidato X a determinado cargo eletivo teve 45% de intenções de voto. Qual a estimativa que se faria da votação que esse candidato teria, se a eleição fosse hoje com 99% de confiabilidade?

A estimativa para a proporção é dada por: . Para se fazer essa estimativa precisamos das seguintes informações:

• Proporção: p = 0,45

• Valor Crítico: Zc = 2,58, conforme o seguinte cálculo:

• Tamanho da amostra: 2500

ou

Desse modo podemos afirmar que, se a eleição fosse hoje o candidato A. teria 45% dos votos com uma margem de erro para mais ou para menos de 2,6% com 99% de certeza, ou então dizer que ele teria entre 42,4% e 47,6 % dos votos, com 99% de confiabilidade.

8- Uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2300 horas com desvio padrão de 200 horas. Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2000 horas com desvio padrão de 90 horas. Estimar com 90% de confiabilidade a diferença entre as vidas úteis de ambas as marcas de lâmpadas.

• Médias:

• Valor Crítico: Zc = 1,645, conforme o seguinte cálculo:

• Desvios padrões: σA = sA = 200; σB = sB = 90

• Tamanhos das amostras: NA = 300; NB = 150

As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 277,5 horas e 322,5 horas, com 90% de confiança.

9- Uma amostra aleatória, com 250 homens e 320 mulheres, revelou que 150 dos homens e 240 das mulheres apreciaram o design de um novo modelo de automóvel. Estimar com 98% de confiabilidade a diferença entre a proporção de todos os homens e mulheres em relação a esse novo automóvel.

• Proporções:

• Valor Crítico: Zc = 2,33, conforme o seguinte cálculo:

• Tamanho da amostra: NH = 250; NM = 320

ou

Estima-se que 15% a mais de mulheres do que homens gostem do design deste automóvel, com uma margem de erro de 9,2% e uma confiabilidade de 98%, ou em outras palavras, a diferença entre mulheres e homens nesse aspecto está entre 5,8% e 24,2%, com 98% de certeza.

Decorrência importante destes cálculos é a determinação do tamanho da amostra necessária para se atender a determinadas condições estatísticas. O raciocínio é o mesmo dos casos anteriores, invertendo-se, no entanto a incógnita procurada. A questão seguinte demonstra esse equacionamento.

10- Um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado cargo com uma confiabilidade de 95% e erro esperado de 2 horas. Baseado em estudos anteriores ele estima o desvio padrão das horas gastas em treinamento em 18 horas. Qual é o tamanho de amostra que com que deve trabalhar.

O erro esperado ou margem de erro é dado por: . Para se fazer essa estimativa precisamos das seguintes informações:

• Valor Crítico: Zc = 1,96, conforme o seguinte cálculo:

• Desvio padrão: σ = s = 18 horas

• Erro esperado desejável: 2 horas

Baseado nesse cálculo o analista deve trabalhar com uma amostra de 312 elementos.

De maneira semelhante podem ser calculados os tamanhos necessários para amostras em qualquer dos intervalos de confiança.