Estatistica
Exames: Estatistica. Pesquise 862.000+ trabalhos acadêmicosPor: • 23/11/2014 • 11.437 Palavras (46 Páginas) • 2.970 Visualizações
ESTATÍSTICA DESCRITIVA
I- PARTE
Definição de Estatística. Método Estatístico. Teoria Estatística
“A palavra estatística deriva da expressão status, em latim, e significa o estudo do estado”.
Alguns dados das Estatísticas no Brasil:
1º Censo 1872- D. Pedro II, objetivo quantificar a população livre no País.
Fundação do DGE-1836, hoje IBGE no governo de Getúlio Vargas o então Presidente convida para assumir a direção o baiano Mário Augusto Teixeira de Freitas.
1940- Começam os censos decenais não acontecendo somente em 1990, pois Collor quando assume transfere para 1991 alegando falta de verba.
2010- O maior e mais diversificado censo da história quantificando uma população de 190.732.694 milhões de habitantes em 26 Estados o Distrito Federal com 5565 municípios.
Maiores Estados do País
São Paulo 41.262.199 habitantes 645 munícipios IDH 0,783; Minas Gerais 19.597.330 habitantes 853 munícipios IDH 0,731; Rio de Janeiro 15.989.929 habitantes 92 munícipios IDH 0,761; Bahia 14.046.906 habitantes 417 munícipios IDH 0,660.
INTRODUÇÃO
ESTATÍSTICA: É um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos.
ANTIGUIDADE: os povos já registravam o número de habitantes, nascimentos, óbitos. Faziam "estatísticas".
IDADE MÉDIA: as informações eram tabuladas com finalidades tributárias e bélicas.
SEC. XVI: surgem as primeiras análises sistemáticas, as primeiras tabelas e os números relativos.
SEC. XVIII: a estatística com feição científica é batizada por GODOFREDO ACHENWALL. As tabelas ficam mais completas, surgem as primeiras representações gráficas e os cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de dados numéricos para se tornar "O estudo de como se chegar a conclusão sobre uma população, partindo da observação de partes dessa população (amostra)".
MÉTODO ESTATÍSTICO
MÉTODO: é um meio mais eficaz para atingir determinada meta.
MÉTODOS CIENTÍFICOS: destacamos o método experimental e o método estatístico.
MÉTODO EXPERIMENTAL: consiste em manter constante todas as causas, menos uma, que sofre variação para se observar seus efeitos, caso existam. Ex: Estudos da Química, Física, etc.
MÉTODO ESTATÍSTICO: diante da impossibilidade de manter as causas constantes (nas ciências sociais), admitem todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. Ex: Quais as causas que definem o preço de uma mercadoria quando a sua oferta diminui?
• Seria impossível, no momento da pesquisa, manter constantes a uniformidade dos salários, o gosto dos consumidores, nível geral de preços de outros produtos, etc.
A ESTATÍSTICA
É uma parte da matemática aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de decisões.
A coleta, a organização, a descrição dos dados, o cálculo e a interpretação de coeficientes pertencem à ESTATÍSTICA DESCRITIVA, enquanto a análise e a interpretação dos dados, associado a uma margem de incerteza, ficam a cargo da ESTATÍSTICA INDUTIVA ou INFERENCIAL, também chamada como a medida da incerteza ou métodos que se fundamentam na teoria da probabilidade.
.
FASES DO MÉTODO ESTATÍSTICO
1º - DEFINIÇÃO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema.
2º - PLANEJAMENTO: Como levantar informações? Que dados deverão ser obtidos? Qual levantamento a ser utilizado? Censitário? Por amostragem? E o cronograma de atividades? Os custos envolvidos? Etc.
3º - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo determinado.
Dados primários: quando são publicados pela própria pessoa ou organização que os haja recolhido. Ex: tabelas do censo demográfico do IBGE.
Dados secundários: quando são publicados por outra organização. Ex: quando determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE.
OBS: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o grande risco de erros de transcrição.
Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca.
coleta contínua: registros de nascimento, óbitos, casamentos;
coleta periódica: recenseamento demográfico, censo industrial;
coleta ocasional: registro de casos de dengue.
Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta, por analogia, por avaliação,indícios ou proporcionalização.
4º - APURAÇÃO DOS DADOS: Resumo dos dados através de sua contagem e agrupamento. É a condensação e tabulação de dados.
5º - APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se excluem mutuamente. A apresentação tabular, ou seja é uma apresentação numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.
6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva).
DEFINIÇÕES BÁSICAS DA ESTATÍSTICA
.
FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo seja possível a aplicação do método estatístico. São divididos em três grupos:
Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma simples observação. A estatística dedica-se ao estudo desses fenômenos. Ex: A natalidade na Grande Vitória, O preço médio da cerveja no Espírito Santo, etc.
Fenômenos individuais: são aqueles que irão compor os fenômenos de massa. Ex: cada nascimento na Grande Vitória, cada preço de cerveja no Espírito Santo, etc.
Fenômenos de multidão: quando as características observadas para a massa não se verificam para o particular.
DADO ESTATÍSTICO: é um dado numérico e é considerada a matéria-prima sobre a qual iremos aplicar os métodos estatísticos.
POPULAÇÃO: é o conjunto total de elementos portadores de, pelo menos, uma característica comum.
AMOSTRA: é uma parcela representativa da população que É EXAMINADA com o propósito de tirarmos conclusões sobre a essa população.
PARÂMETROS: São valores singulares que existem na população e que servem para caracterizá-la. Para definirmos um parâmetro devemos examinar toda a população. Ex: Os alunos do 2º ano da UNIME têm em média 1,70 metros de estatura.
ESTIMATIVA: é um valor aproximado do parâmetro e é calculado com o uso da amostra.
ATRIBUTO: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo.
VARIÁVEL ESTATÍSTICA: É o conjunto de resultados possíveis de um fenômeno.
VARIÁVEL QUALITATIVA: Quando seus valores são expressos por atributos e características.•.
Nominal: caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não podem ser expostos segundo um esquema ordenado. Ex.: religião, cor etc.
Ordinal: envolve dados que podem ser expostos em alguma ordem, mas as diferenças entre os valores dos dados não podem ser determinadas ou não tem sentido. Ex.: Nível de escolaridade.
VARIÁVEL QUANTITATIVA: Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos resultados possui uma estrutura numérica, trata-se, portanto da estatística de variável e se dividem em:
Discreta: se só assume valores inteiros, inclusive zero. Ex.: Número de alunos presentes às aulas de determinado professor; número de mortos em m surto de determinada doença. Geralmente, seus valores são resultado de um processo de contagem, razão pelos seus valores são expressos através de números inteiros não negativos.
Contínua: pode assumir qualquer número real em um intervalo contínuo. Ex.: Estatura e peso de atletas de um time de voley; temperatura máxima diária. Pode-se dizer que a variável contínua resulta normalmente de mensurações.
Exemplos -
. Cor dos olhos das alunas: qualitativa nominal
. Índice de liquidez nas indústrias capixabas: quantitativa contínua
. Produção de café no Brasil: quantitativa contínua
. Número de defeitos em aparelhos de TV: quantitativa discreta
. Comprimento dos pregos produzidos por uma empresa: quantitativa contínua
. O ponto obtido em cada jogada de um dado: quantitativa discreta
AMOSTRAGEM
MÉTODOS PROBABILÍSTICOS
Exige que cada elemento da população possua determinada probabilidade de ser selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N. Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir do conhecimento da amostra.
É uma técnica especial para recolher amostras, que garantem, tanto quanto possível, o acaso na escolha.
.
ALEATÓRIA SIMPLES
É o processo mais elementar e freqüentemente utilizado. É equivalente a um sorteio lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra.
Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de uma escola:
1º - numeramos os alunos de 1 a 90.
2º - escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos na urna e após mistura retiramos, um a um, nove números que formarão a amostra.
OBS: quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios, construída de modo que os algarismos de 0 a 9 são distribuídos ao acaso nas linhas e colunas.
.
.AMOSTRAGEM PROPORCIONAL ESTRATIFICADA:
Quando a população se divide em estratos (sub-populações), convém que o sorteio dos elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de elementos desses estratos.
Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São portanto dois estratos (sexo masculino e sexo feminino). Logo, temos:
SEXO População 10 % Amostra
MASC. 54 5,4 5
FEMIN. 36 3,6 4
Total 90 9,0 9
Numeramos então os alunos de 01 a 90, sendo 01 a 54 meninos e 55 a 90, meninas e procedemos o sorteio casual com urna ou tabela de números aleatórios.
.
AMOSTRAGEM SISTEMÁTICA:
Quando os elementos da população já se acham ordenados, não há necessidade de construir o sistema de referência. São exemplos os prontuários médicos de um hospital, os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador.
Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra formada por 50 casas para uma pesquisa de opinião. Podemos, neste caso, usar o seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que o número sorteado fosse 4 a amostra seria: 4ª casa, 22ª casa, 40ª casa, 58ª casa, 76ª casa, etc.
MÉTODOS NÃO PROBABILÍSITCOS
São amostragens em que há uma escolha deliberada dos elementos da amostra. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não probabilísticas não garantem a representatividade da população.
AMOSTRAGEM ACIDENTAL
Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos.
Ex: Pesquisas de opinião em praças públicas, ruas de grandes cidades;
AMOSTRAGEM INTENCIONAL
De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. O investigador se dirige intencionalmente a grupos de elementos dos quais deseja saber a opinião.
Ex: Numa pesquisa sobre preferência por determinado cosmético, o pesquisador se dirige a um grande salão de beleza e entrevista as pessoas que ali se encontram.
AMOSTRAGEM POR QUOTAS
Um dos métodos de amostragem mais comumente usados em levantamentos de mercado e em prévias eleitorais. Ele abrange três fases:
1ª - classificação da população em termos de propriedades que se sabe, ou presume, serem relevantes para a característica a ser estudada;
2ª - determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada, da população;
3ª - fixação de quotas para cada entrevistador a quem tocará a responsabilidade de selecionar entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção e cada classe tal como determinada na 2ª fase.
Ex: Numa pesquisa sobre o "trabalho das mulheres na atualidade", provavelmente se terá interesse em considerar: a divisão cidade e campo, a habitação, o número de filhos, a idade dos filhos, a renda média, as faixas etárias etc.
A primeira tarefa é descobrir as proporções (porcentagens) dessas características na população. Imagina-se que haja 47% de homens e 53% de mulheres na população. Logo, uma amostra de 50 pessoas deverá ter 23 homens e 27 mulheres. Então o pesquisador receberá uma "quota" para entrevistar 27 mulheres. A consideração de várias categorias exigirá uma composição amostral que atenda ao n determinado e às proporções populacionais estipuladas.
AMOSTRAGEM POR TIPICIDADE
Procura-se um subgrupo que seja típico, em relação à população como um todo. Tal subgrupo é utilizado como barômetro da população. Restringe as observações a ele, e as conclusões obtidas são generalizadas para o total da população. Exemplo: pesquisa de um grupo típico de drogados visando obter dados sobre os fatores que levaram os consumidores de drogas injetáveis a partilharem seringas e agulhas, apesar da elevada possibilidade de serem contaminados pela AIDS.
.
GRÁFICOS ESTATÍSTICOSG
São representações visuais dos dados estatísticos que devem corresponder, mas nunca substituir as tabelas estatísticas.
Características: Uso de escalas, sistema de coordenadas, simplicidade, clareza e veracidade.
Gráficos de informação: São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações desejadas estejam presentes.
Gráficos de análise: São gráficos que prestam-se melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de análise freqüentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico.
• Uso indevido de Gráficos: Podem trazer uma idéia falsa dos dados que estão sendo analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um problema de construção de escalas.
.
Classificação dos gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas.
.
1 - DIAGRAMAS:
São gráficos geométricos dispostos em duas dimensões. São os mais usados na representação de séries estatísticas. Eles podem ser :
1.1- Gráficos em barras horizontais.
1.2- Gráficos em barras verticais ( colunas ).
• Quando as legendas não são breves usa-se de preferência os gráficos em barras horizontais. Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.
A ordem a ser observada é a cronológica, se a série for histórica, e a
Decrescente, se for geográfica ou categórica.
1.2- Gráficos em barras compostas.
1.4- Gráficos em colunas superpostas.
• Eles diferem dos gráficos em barras ou colunas convencionais apenas pelo fato de apresentar cada barra ou coluna segmentada em partes componentes. Servem para representar comparativamente dois ou mais atributos.
1.5- Gráficos em linhas ou lineares.
• São freqüentemente usados para representação de séries cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico.
• Quando representamos, em um mesmo sistema de coordenadas, a variação de dois fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de área de excesso.
1.5- Gráficos em setores.
• Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado quando há, no máximo, sete dados.
• Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.
.
2 - ESTEREOGRAMAS:
São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.
.
3 - PICTOGRAMAS:
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo:
4- CARTOGRAMAS:
São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Para Reflexão: Porcentagens e Gráficos
1. (Enem-MEC) Uma pesquisa de opinião foi realizada para avaliar os níveis de audiência de alguns canais de televisão, entre 20h e 21h, durante uma determinada noite. Os resultados obtidos estão representados no gráfico de barras mostrado.
a) O número de residências atingidas nesta pesquisa foi de aproximadamente:
( ) 100 ( ) 135 ( ) 150 ( ) 200 ( ) 220
b) A porcentagem de entrevistados que declararam estar assistindo à TVB é aproximadamente:
( ) 15% ( ) 20% ( ) 22% ( ) 27% ( ) 30%
2. (UF-RN) Numa pesquisa de opinião, feita para verificar o nível de aprovação de um governante, foram entrevistadas 1000 pessoas, que responderam sobre a administração da cidade, escolhendo uma – e apenas uma – dentre as possíveis respostas: ótima, boa, regular, ruim e indiferente. O gráfico mostra o resultado da pesquisa.
De acordo com o gráfico, pode-se afirmar que o percentual de pessoas que consideram a administração ótima, regular ou boa é de:
( ) 28% ( ) 65% ( ) 71% ( ) 84%
3. Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em vinte lojas pesquisadas.
a) Quantas lojas apresentaram um preço de R$52,00?
b) Quantas lojas apresentaram um preço de até R$52,00 (inclusive)?
c) Qual o percentual de lojas com preço maior de que R$51,00 e menor de que R$54,00?
4. Um dado foi lançado 50 vezes e foram registrados os resultados do quadro.
Construa uma distribuição de freqüência sem intervalo de classe e determine:
a) A freqüência total (n)
b) A freqüência simples absoluta do primeiro elemento
c) A freqüência simples relativa do primeiro elemento
d) A freqüência simples absoluta do segundo elemento
e) A freqüência simples relativa do quinto elemento
5. (Enem-MEC) Uma escola de ensino médio tem 250 alunos que estão matriculados na 1ª, 2ª ou 3ª série. 32% dos alunos são homens e 40% dos homens estão na 1ª série. 20% dos alunos matriculados estão na 3ª série, sendo 10 alunos homens. Dentre os alunos da 2ª série, o número de mulheres é igual ao número de homens. A tabela pode ser preenchida com as informações dadas. O valor de a é:
( ) 10 ( ) 48 ( ) 92 ( ) 102 ( ) 120
6. (UF-GO) Uma pesquisa mostrou que a uma semana das inscrições para os principais vestibulares muitas candidatos ainda estavam indecisos em relação ao curso pretendido, como mostra a tabela.
De acordo com os dados, o número de candidatos que decidirão pelo curso de teste vocacional representa entre os indecisos:
( ) 1,3% ( ) 9,85% ( ) 10,15% ( ) 11,9% ( ) 13,2%
7. (Puccamp-sp) Dentre os resíduos industriais, destaca-se a emissão de gás carbônico, que causa o efeito estufa. O gráfico mostra como se distribuía a produção desse poluente em 1990. Se a produção dos países desenvolvidos era de 3,2 bilhões de toneladas, a produção dos países em desenvolvimento, em bilhões de toneladas, deve ser estimadas em cerca de:
( ) 2,7 ( ) 2,1 ( ) 1,8 ( ) 1,5 ( ) 1,2
8. (FUVEST-SP) Considere os seguintes dados obtidos em 1996 pelo censo do IBGE:
- A distribuição da população por grupos de idade é:
- As porcentagens de pessoas maiores de 18 anos filiadas ou não a sindicatos, órgãos comunitários e órgãos de classe são:
- As porcentagens de pessoas maiores de 18 anos filiadas a sindicados, órgãos comunitários e órgãos de classes são:
A partir dos dados acima se pode afirmar que número de pessoas, maiores de 18 anos, filiadas a órgãos comunitários é, aproximadamente, em milhões:
( ) 2 ( ) 6 ( ) 12 ( ) 21 ( ) 31
DISTRIBUIÇÃO DE FREQÜÊNCIA
É um tipo de tabela que condensa uma coleção de dados conforme as freqüências (repetições de seus valores).
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não foram numericamente organizados. É difícil formarmos uma idéia exata do comportamento do grupo como um todo, a partir de dados não ordenados.
Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51
ROL: É a tabela obtida após a ordenação dos dados (crescente ou decrescente).
Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Distribuição de frequência SEM INTERVALOS DE CLASSE: É a simples condensação dos dados conforme as repetições de seu valores. Para um ROL de tamanho razoável esta distribuição de freqüência é inconveniente, já que exige muito espaço. Veja exemplo abaixo:
Dados Freqüência
41 3
42 2
43 1
44 1
45 1
46 2
50 2
51 1
52 1
54 1
57 1
58 2
60 2
Total 20
Distribuição de freqüência COM INTERVALOS DE CLASSE:Quando o tamanho da amostra é elevado, é mais racional efetuar o agrupamento dos valores em vários intervalos de classe.
Classes Freqüências
41 |------- 45 7
45 |------- 49 3
49 |------- 53 4
53 |------- 57 1
57 |------- 61 5
Total 20
ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA (com intervalos de classe)
CLASSE: são os intervalos de variação da variável e é simbolizada por i e o número total de classes simbolizada por k. Ex: na tabela anterior k = 5 e 49 |------- 53 é a 3ª classe, onde i = 3.
LIMITES DE CLASSE: são os extremos de cada classe. O menor número é o limite inferior de classe ( li ) e o maior número, limite superior de classe ( Li ). Ex: em 49 |------- 53,... l3 = 49 e L3 = 53. O símbolo |------- representa um intervalo fechado à esquerda e aberto à direita. O dado 53 do ROL não pertence a classe 3 e sim a classe 4 representada por 53 |------- 57.
AMPLITUDE DO INTERVALO DE CLASSE: é obtida através da diferença entre o limite superior e inferior da classe e é simbolizada por hi = Li - li. Ex: na tabela anterior hi = 53 - 49 = 4. Obs: Na distribuição de freqüência c/ classe o hi será igual em todas as classes.
AMPLITUDE TOTAL DA DISTRIBUIÇÃO: é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. AT = L(max) - l(min). Ex: na tabela anterior AT = 61 - 41= 20.
AMPLITUDE TOTAL DA AMOSTRA (ROL): é a diferença entre o valor máximo e o valor mínimo da amostra (ROL). Onde AA = Xmax - Xmin. Em nosso exemplo AA = 60 - 41 = 19.
Obs: AT sempre será maior que AA.
PONTO MÉDIO DE CLASSE: é o ponto que divide o intervalo de classe em duas partes iguais. .......Ex: em 49 |------- 53 o ponto médio x3 = (53+49)/2 = 51, ou seja x3=( l3 + L3 )/2.
Método prático para construção de uma Distribuição de Freqüências c/ Classe
1º - Organize os dados brutos em um ROL.
2º - Calcule a amplitude amostral AA.
No nosso exmplo: AA = 60 - 41 = 19
3º - Calcule o número de classes através da "Regra de Sturges":
n I
nº de classes
3 |-----| 5 3
6 |-----| 11 4
12 |-----| 22 5
23 |-----| 46 6
47 |-----| 90 7
91 |-----| 181 8
182 |-----| 362 9
Obs: Qualquer regra para determinação do nº de classes da tabela não nos levam a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados.
No nosso exemplo: n = 20 dados, então,a princípio, a regra sugere a adoção de 5 classes.
4º - Decidido o nº de classes, calcule então a amplitude do intervalo de classe h > AA / i.
No nosso exemplo: AA/i = 19/5 = 3,8 . Obs: Como h > AA/i um valor ligeiramente superior para haver folga na última classe. Utilizaremos então h = 4
5º - Temos então o menor nº da amostra, o nº de classes e a amplitude do intervalo. Podemos montar a tabela, com o cuidado para não aparecer classes com freqüência = 0 (zero).
No nosso exemplo: o menor nº da amostra = 41 + h = 45, logo a primeira classe será representada por ...... 41 |------- 45. As classes seguintes respeitarão o mesmo procedimento.
O primeiro elemento das classes seguintes sempre serão formadas pelo último elemento da classe anterior.
REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO
Histograma, Polígono de freqüência e Polígono de freqüência acumulada.
Em todos os gráficos acima utilizamos o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo das abscissas) colocamos os valores da variável e na linha vertical (eixo das ordenadas), as freqüências.
.
Histograma: é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma é proporcional à soma das freqüências simples ou absolutas.
Freqüências simples ou absoluta: são os valores que realmente representam o número de dados de cada classe. A soma das freqüências simples é igual ao número total dos dados da distribuição.
Freqüências relativas: são os valores das razões entre as freqüência absolutas de cada classe e a freqüência total da distribuição. A soma das freqüências relativas é igual a 1 (100 %).
.
Polígono de freqüência: é um gráfico em linha, sendo as freqüências marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição.
.
Polígono de freqüência acumulada: é traçado marcando-se as freqüências acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe.
Freqüência simples acumulada de uma classe: é o total das freqüências de todos os valores inferiores ao limite superior do intervalo de uma determinada classe.
Freqüência relativa acumulada de um classe: é a freqüência acumulada da classe, dividida pela freqüência total da distribuição.
...CLASSE.. ......fi..... .....xi..... .....fri..... .....Fi..... ......Fri.....
50 |-------- 54 4 52 0,100 4 0,100
54 |-------- 58 9 56 0,225 13 0,325
58 |-------- 62 11 60 0,275 24 0,600
62 |-------- 66 8 64 0,200 32 0,800
66 |-------- 70 5 68 0,125 37 0,925
70 |-------- 74 3 72 0,075 40 1,000
Total 40 1,000
fi = freqüência simples; xi = ponto médio de classe; fri = freqüência simples acumulada;
Fi = freqüência relativa e Fri = freqüência relativa acumulada.
• Obs: uma distribuição de freqüência sem intervalos de classe é representada graficamente por um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de comprimento proporcional à respectiva freqüência.
.3. MEDIDAS DE POSIÇÃO
Introdução
São as estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal do gráfico da curva de freqüência.
• As medidas de posições mais importantes são as medidas de tendência central ou promédias (verifica-se uma tendência dos dados observados a se agruparem em torno dos valores centrais).
• As medidas de tendência centrais mais utilizadas são: média aritmética, moda e mediana. Outros promédios menos usados são as médias: geométrica, harmônica.
• As outras medidas de posição são as separatrizes, que englobam: a própria mediana, os decis, os quartis e os percentis.
.
MÉDIA ARITMÉTICA =
É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores.
......
onde xi são os valores da variável e n o número de valores.
.
Dados não-agrupados: Quando desejamos conhecer a média dos dados não-agrupados em tabelas de freqüências, determinamos a média aritmética simples.
Ex: Sabendo-se que a venda diária de arroz tipo A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 kilos, temos, para venda média diária na semana de:
.= (10+14+13+15+16+18+12) / 7 = 14 kilos
Desvio em relação à média: é a diferença entre cada elemento de um conjunto de valores e a média aritmética, ou seja:.
. di = Xi -
No exemplo anterior temos sete desvios:... d1 = 10 - 14 = - 4 , ...d2 = 14 - 14 = 0 , d3 = 13 - 14 = - 1 , ...d4 = 15 - 14 = 1 ,... d5 = 16 - 14 = 2 ,... d6 = 18 - 14 = 4 ...e. .. d7 = 12 - 14 = - 2.
.
Propriedades da média aritmética
1ª propriedade: A soma algébrica dos desvios em relação à média é nula.
• No exemplo anterior: d1+d2+d3+d4+d5+d6+d7 = 0
2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma variável, a média do conjunto fica aumentada ( ou diminuída) dessa constante.
• Se no exemplo original somarmos a constante 2 a cada um dos valores da variável temos:
Y = 12+16+15+17+18+20+14 / 7 = 16 kilos ou
Y = .+ 2 = 14 +2 = 16 kilos
3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (c), a média do conjunto fica multiplicada ( ou dividida) por essa constante.
• Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável temos:
Y = 30+42+39+45+48+54+36 / 7 = 42 kilos ou
Y = x 3 = 14 x 3 = 42 kilos
.Dados agrupados:
Sem intervalos de classe Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculino. Calcularemos a quantidade média de meninos por família:
Nº de meninos freqüência = fi
0 2
1 6
2 10
3 12
4 4
total 34
• Como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula:
..xi. ..fi. ..xi.fi .
0 2 0
1 6 6
2 10 20
3 12 36
4 4 16
total 34 78
onde 78 / 34 = 2,3 meninos por família
Com intervalos de classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula:
..
onde Xi é o ponto médio da classe.
Ex: Calcular a estatura média de bebês conforme a tabela abaixo.
Estaturas (cm) freqüência = fi ponto médio = xi ..xi.fi.
50 |------------ 54 4 52 208
54 |------------ 58 9 56 504
58 |------------ 62 11 60 660
62 |------------ 66 8 64 512
66 |------------ 70 5 68 340
70 |------------ 74 3 72 216
Total 40 2.440
Aplicando a fórmula acima temos: 2.440 / 40.= 61. logo... = 61 cm
MODA - Mo
É o valor que ocorre com maior freqüência em uma série de valores.
• Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa fábrica.
.A Moda quando os dados não estão agrupados
• A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se repete.
Ex: Na série { 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda é igual a 10.
• Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros.
Ex: { 3 , 5 , 8 , 10 , 12 } não apresenta moda. A série é amodal.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais.
Ex: { 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7. A série é bimodal.
.
A Moda quando os dados estão agrupados
a) Sem intervalos de classe: Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior freqüência.
Ex: Qual a temperatura mais comum medida no mês abaixo:
Temperaturas Freqüência
0º C 3
1º C 9
2º C 12
3º C 6
Resp: 2º C é a temperatura modal, pois é a de maior freqüência.
.
b) Com intervalos de classe: A classe que apresenta a maior freqüência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta.
Ex: Calcule a estatura modal conforme a tabela abaixo.
Classes (em cm) Freqüência
54 |------------ 58 9
58 |------------ 62 11
62 |------------ 66 8
66 |------------ 70 5
l
Logo Mo= 58+4/2=60
Obs: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição deva ser o valor mais típico da distribuição. Já a média aritmética é a medida de posição que possui a maior estabilidade.
MEDIANA - Md
A mediana de um conjunto de valores, dispostos segundo uma ordem ( crescente ou decrescente), é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.
.
A mediana em dados não-agrupados
Dada uma série de valores como, por exemplo: { 5, 2, 6, 13, 9, 15, 10 }
De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: { 2, 5, 6, 9, 10, 13, 15 }
O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9.
.
Método prático para o cálculo da Mediana:
Se a série dada tiver número ímpar de termos: O valor mediano será o termo de ordem dado pela fórmula :
.( n + 1 ) / 2
Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 2, 5 }
1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a mediana
A mediana será o 5º elemento = 2
.
Se a série dada tiver número par de termos: O valor mediano será o termo de ordem dado pela fórmula :....
.[( n/2 ) +( n/2+ 1 )] / 2
Obs: n/2 e (n/2 + 1) serão termos de ordem e devem ser substituídos pelo valor correspondente.
Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }
1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 }
n = 10 logo a fórmula ficará: [( 10/2 ) + (10/2 + 1)] / 2
[( 5 + 6)] / 2 será na realidade (5º termo+ 6º termo) / 2
5º termo = 2
6º termo = 3
A mediana será = (2+3) / 2 ou seja, Md = 2,5 . A mediana no exemplo será a média aritmética do 5º e 6º termos da série.
Notas:
• Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série.
• Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana com um dos elementos da série. A mediana será sempre a média aritmética dos 2 elementos centrais da série.
• Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo valor.
• A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma da diferenças marcantes entre mediana e média ( que se deixa influenciar, e muito, pelos valores extremos). Vejamos:
Em { 5, 7, 10, 13, 15 } a média = 10 e a mediana = 10
Em { 5, 7, 10, 13, 65 } a média = 20 e a mediana = 10
• isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma.
A mediana em dados agrupados
a) Sem intervalos de classe: Neste caso, é o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada.
Ex.: conforme tabela abaixo:
Variável xi Freqüência fi Freqüência acumulada
0 2 2
1 6 8
2 9 17
3 13 30
4 5 35
total 35
• Quando o somatório das freqüências for ímpar o valor mediano será o termo de ordem dado pela fórmula :
.
• Como o somatório das freqüências = 35 a fórmula ficará: ( 35+1 ) / 2 = 18º termo = 3..
• Quando o somatório das freqüências for par o valor mediano será o termo de ordem dado pela fórmula:
Ex: Calcule Mediana da tabela abaixo:
Variável xi Freqüência fi Freqüência acumulada
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
total 8
• Aplicando fórmula acima teremos:[(8/2)+ (8/2+1)]/2 = (4º termo + 5º termo) / 2 = (15 + 16) / 2 = 15,5
b) Com intervalos de classe: Devemos seguir os seguintes passos:
1º) Determinamos as freqüências acumuladas ;
2º) Calculamos ;
3º) Marcamos a classe correspondente à freqüência acumulada imediatamente superior à . Tal classe será a classe mediana ;
4º) Calculamos a Mediana pela seguinte fórmula:. M Md = l* + [( - FAA ) x h*] / f*
l* = é o limite inferior da classe mediana.
FAA = é a freqüência acumulada da classe anterior à classe mediana.
f* = é a freqüência simples da classe mediana.
h* = é a amplitude do intervalo da classe mediana.
Ex:
classes freqüência = fi Freqüência acumulada
50 |------------ 54 4 4
54 |------------ 58 9 13
58 |------------ 62 11 24
62 |------------ 66 8 32
66 |------------ 70 5 37
70 |------------ 74 3 40
total 40
= 40 / 2 =.20........... logo.a classe mediana será 58 |---------- 62
l* = 58........... FAA = 13........... f* = 11........... h* = 4
Substituindo esses valores na fórmula, obtemos:
Md = 58 + [ (20 - 13) x 4] / 11 = 58 + 28/11 = 60,54
OBS: Esta mediana é estimada, pois não temos os 40 valores da distribuição.
Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afetam de maneira acentuada a média aritmética.
• Quando a variável em estudo é salário.
SEPARATRIZES
Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores.
Essas medidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes.
.
QUARTIS - Q
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos, portanto de 3 quartis (Q1 , Q2 e Q3) para dividir a série em quatro partes iguais.
Obs: O quartil 2 ( Q2 ) SEMPRE SERÁ IGUAL A MEDIANA DA SÉRIE.
Quartis em dados não agrupados
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas " 3 medianas " em uma mesma série.
Ex 1: Calcule os quartis da série: { 5, 2, 6, 9, 10, 13, 15 }
- O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: { 2, 5, 6, 9, 10, 13, 15 }
- O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9 que será = Q2 = 9
- Temos agora {2, 5, 6 } e {10, 13, 15 } como sendo os dois grupos de valores iguais proporcionados pela mediana ( quartil 2 ). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série (quartil 2).
Logo em { 2, 5, 6 } a mediana é = 5 . Ou seja: será o quartil 1 = Q1 = 5
em {10, 13, 15 } a mediana é =13 . Ou seja: será o quartil 3 = Q = 13
Ex 2: Calcule os quartis da série: { 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13 }
- A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5
-
- O quartil 1 será a mediana da série à esquerda de Md : { 1, 1, 2, 3, 5, 5 }
Q1 = (2+3)/2 = 2,5
- O quartil 3 será a mediana da série à direita de Md : {6, 7, 9, 9, 10, 13 }
Q3 = (9+9)/2 = 9
Quartis para dados agrupados em classes
Usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana,
E fi / 2.... por ... k . E fi / 4 ... sendo k o número de ordem do quartil.
Assim, temos:
Q1 = . l* + [(E fi / 4 - FAA ) x h*] / f*
Q2 = . l* + [(2.E fi / 4 - FAA ) x h*] / f*
Q3 = . l* + [(3.E fi / 4 - FAA ) x h*] / f*
Ex 3 - Calcule os quartis da tabela abaixo:
classes freqüência = fi Freqüência acumulada
50 |------------ 54 4 4
54 |------------ 58 9 13
58 |------------ 62 11 24
62 |------------ 66 8 32
66 |------------ 70 5 37
70 |------------ 74 3 40
total 40
- O quartil 2 = Md , logo:
= 40 / 2 =.20........... logo.a classe mediana será 58 |---------- 62
l* = 58........... FAA = 13........... f* = 11........... h* = 4
Q2 = . l* + [(2.E fi / 4 - FAA ) x h*] / f*
- Substituindo esses valores na fórmula, obtemos:
Md = 58 + [ (20 - 13) x 4] / 11 = 58 + 28/11 = 60,54 = Q2
- O quartil 1 : E fi / 4 = 10
Q1 = . l* + [(E fi / 4 - FAA ) x h*] / f*
Q1 = 54 + [ (10 - 4) x 4] / 9 = 54 + 2,66 = 56,66 = Q1
.
- O quartil 3 : 3.E fi / 4 = 30
Q3 = . l* + [(3.E fi / 4 - FAA ) x h*] / f*
Q3 = 62 + [ (30 -24) x 4] / 8 = 62 + 3 = 65 = Q3
DECIS - D
A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será : k .E fi / 10 onde k é o número de ordem do decil a ser calculado. Indicamos os decis : D1, D2, ... , D9. Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais.
• De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo,o QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL, que por sua vez É IGUAL À MEDIANA.
Para D5 temos : 5.E fi / 10 = E fi / 2
Ex: Calcule o 3º decil da tabela anterior com classes.
k= 3 onde 3 .E fi / 10 = 3 x 40 / 10 = 12.
Este resultado corresponde a 2ª classe.
D3 = 54 + [ (12 - 4) x 4] / 9 = 54 + 3,55 = 57,55 = D3
PERCENTIL ou CENTIL
Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2, ... , P99. É evidente que P50 = Md ; P25 = Q1 e P75 = Q3.
• O cálculo de um centil segue a mesma técnica do cálculo da mediana, porém a fórmula será : k .E fi / 100 onde k é o número de ordem do centil a ser calculado.
Dispersão ou Variabilidade: É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação.
• A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto.
• Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:
X = { 70, 70, 70, 70, 70 }
Y = { 68, 69, 70 ,71 ,72 }
Z = { 5, 15, 50, 120, 160 }
- Observamos então que os três conjuntos apresentam a mesma média aritmética = 350/5 = 70
• Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa.
• Concluímos então que o conjunto X apresenta DISPERSÃO NULA e que o conjunto Y apresenta uma DISPERSÃO MENOR que o conjunto Z.
4. MEDIDAS DE DISPERSÃO ABSOLUTA
AMPLITUDE TOTAL: É a única medida de dispersão que não tem na média o ponto de referência.
• Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e o menor valor observado:
AT = X máximo - X mínimo.
Ex: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: AT = 70 - 40 = 30
Quando os dados estão agrupados sem intervalos de classe ainda temos :
AT = X máximo - X mínimo.
Ex:
xi fi
0 2
1 6
3 5
4 3
AT = 4 - 0 = 4
* Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então:
AT = L máximo - l mínimo
Ex:
Classes fi
4 |------------- 6 6
6 |------------- 8 2
8 |------------┤ 10 3
AT = 10 - 4 = 6
• A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão.
DESVIO QUARTIL: Também chamado de amplitude semi-interquatílica e é baseada nos quartis.
Símbolo: Dq e a Fórmula: Dq = (Q3 - Q1) / 2
Observações:
1 - O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos.
2- O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana.
3- Trata-se de uma medida insensível ã distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores que Q3.
Ex: Para os valores 40, 45, 48, 62 e 70 o desvio quartil será:
Q1 = (45+40)/2 = 42,5 Q3 = (70+62)/2 = 66 Dq = (66 - 42,5) / 2 = 11,75
DESVIO MÉDIO ABSOLUTO - Dm
Para dados brutos: É a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana.
• para a Média = Dm = E | Xi - | / n
• para a Mediana = Dm = E | Xi - Md | / n
• As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios.
Ex: Calcular o desvio médio do conjunto de números { - 4 , - 3 , - 2 , 3 , 5 }
= - 0, 2 e Md = - 2
Tabela auxiliar para cálculo do desvio médio
Xi Xi -
| Xi - |
Xi - Md | Xi - Md |
- 4 (- 4) - (-0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2
- 3 (- 3) - (-0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1
- 2 (- 2) - (-0,2) = -1,8 1,8 (- 2) - (-2) = 0 0
3 3 - (-0,2) = 3,2 3,2 3 - (-2) = 5 5
5 5 - (-0,2) = 5,2 5,2 5 - (-2) = 7 7
E = 16,8 E = 15
Pela Média : Dm = 16,8 / 5 = 3,36 Pela Mediana : Dm = 15 / 5 = 3
DESVIO PADRÃO - S
É a medida de dispersão mais geralmente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como: a raiz quadrada da média aritmética dos quadrados dos desvios e é representada por S .
• A fórmula acima é empregada quando tratamos de uma população de dados não agrupados.
Ex: Calcular o desvio padrão da população representada por - 4 , -3 , -2 , 3 , 5
Xi
- 4 - 0,2 - 3,8 14,44
- 3 - 0,2 - 2,8 7,84
- 2 - 0,2 - 1,8 3,24
3 - 0,2 3,2 10,24
5 - 0,2 5,2 27,04
E = 62,8
Sabemos que n = 5 e 62,8 / 5 = 12,56.
A raiz quadrada de 12,56 é o desvio padrão = 3,54
Obs: Quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará então:
• Se os dados - 4 , -3 , -2 , 3 , 5 representassem uma amostra o desvio padrão amostral seria a raiz quadrada de 62,8 / (5 -1) = 3,96
• O desvio padrão goza de algumas propriedades, dentre as quais destacamos:
1ª = Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera.
2ª = Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado (ou dividido) por essa constante.
• Quando os dados estão agrupados (temos a presença de freqüências) a fórmula do desvio padrão ficará :
ou quando se trata de uma amostra
Ex: Calcule o desvio padrão populacional da tabela abaixo:
Xi f i Xi . f i
. f i
0 2 0 2,1 -2,1 4,41 8,82
1 6 6 2,1 -1,1 1,21 7,26
2 12 24 2,1 -0,1 0,01 0,12
3 7 21 2,1 0,9 0,81 5,67
4 3 12 2,1 1,9 3,61 10,83
Total 30 63 E = 32,70
- Sabemos que E fi = 30 e 32,7 / 30 = 1,09.
- A raiz quadrada de 1,09 é o desvio padrão = 1,044
- Se considerarmos os dados como sendo de uma amostra o desvio padrão seria : a raiz quadrada de 32,7 / (30 -1) = 1,062
Obs: Nas tabelas de freqüências com intervalos de classe a fórmula a ser utilizada é a mesma do exemplo anterior.
VARIÂNCIA - S2
É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.
MEDIDAS DE DISPERSÃO RELATIVA
Coeficiente de Variação de Pearson - CVP
Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CVP: Coeficiente de Variação de Pearson (É A RAZÃO ENTRE O DESVIO PADRÃO E A MÉDIA REFERENTES A DADOS DE UMA MESMA SÉRIE).
CVP = (S / ) x 100
o resultado neste caso é expresso em percentual, entretanto pode ser expresso também através de um fator decimal, desprezando assim o valor 100 da fórmula.
Ex: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:
Discriminação M É D I A DESVIO PADRÃO
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
- Qual das medidas (Estatura ou Peso) possui maior homogeneidade?
Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor será o de maior homogeneidade ( menor dispersão ou variabilidade).
CVP estatura = ( 5 / 175 ) x 100 = 2,85 %
CVP peso = ( 2 / 68 ) x 100 = 2,94 %.
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos.
LISTA de Exercícios I
1)Classifique as variáveis abaixo:
a) Sexo
b) Classe social
c) Fator Sanguíneo
d) Idade
e) Temperatura
f) Patentes Militares
g) Pessoas negras no Brasil
h) Número de hospitais de uma cidade
2)Arredonde os números abaixo:
Para números inteiros
1, 5 52,0 8,7 51478,5 54,2 0,9
Para uma casa decimal
2,12 7,07 0,50 1,02 8,13 1,99
Para duas casas decimais
5,009 6,077 163,943 926,987 2972,934 99,999
Para três casas decimais
1,3255 29,3209 86,3250 1,9222 1,9930 326,3444
3) Os números abaixo estão relacionados os valores correspondentes ao consumo individual de energia elétrica, medido em quilowatts-hora, em um grupo de 50 usuários. Com esta referência construa uma tabela de freqüência e represente em um gráfico:
58 62 80 57 18 126 136 96 144 19
90 86 38 94 82 75 148 114 131 28
66 95 121 158 64 105 118 73 83 81
50 92 60 52 89 58 158 90 94 74
19 75 72 157 125 76 88 78 84 36
4) - Considere os dados abaixo referentes ao consumo de água, em m3, de 60 contas da Embasa, com base nestes dados construa uma tabela com as freqüências simples (fi) freqüência relativa (fri) e freqüência percentual (fri%).
32 6 22 11 34 40 16 26 23 31 27 10
45 25 50 18 23 35 22 30 14 18 20 13
33 48 20 12 31 39 17 58 19 16 12 21
51 12 19 15 41 29 25 13 23 32 14 27
28 37 26 44 11 53 38 46 17 36 28 49
LISTA DE EXERCÍCIOS II
1 - Classifique as variáveis abaixo:
(a) Tempo para fazer um teste.
(b) Número de alunos reprovados por turma.
(c) Nível sócio-econômico
(d) Status Social
(e) Gastos com livros
(f) Valor de um imóvel
2 - Os dados a seguir referem-se às notas 30 alunos da Turma A:
10 10 1 1 0 4 3 2 3 5
8 0 1 6 5 3 2 1 6 4
3 4 3 2 1 0 2 1 0 3
(a) Classifique a variável.
(b) Organize os dados em uma tabela adequada, fi, fri,fri(%), fa.
3 - Calcule as medidas de posição (média, moda, mediana) dos dados amostrais abaixo:
a) 5,7,6,8, 4
b) 13,19,16,15,18,16
c) 2, 1,3,5, 5,6,4,3
d) 6,3, 12, 9
LISTA DE EXERCÍCIOS III
1. Encontre a média aritmética a moda e a mediana para cada conjunto de dados abaixo.
a) {3, 7, 10, 15, 8, 4, 5, 10};
b) {800, 750, 640, 390, 560};
c) {13, 18, 20, 23, 19, 15, 14, 16};
2. Considere as distribuições de freqüências abaixo e determine para cada uma delas:
a) média aritmética
b) moda
I – Idades de 27 crianças obtidas em uma creche.
____________________________________________________
IDADES 0 1 2 3 4 5 6 TOTAL
____________________________________________________
N.º DE CRIANÇA 2 4 6 8 4 2 1 27
____________________________________________________
II – N.º de gols marcados por 34 times de futebol em um campeonato.
___________________________________________________
N.º DE GOLS 0 1 2 3 4 5 TOTAL
___________________________________________________
N.º DE TIMES 3 5 7 10 5 4 34
___________________________________________________
3.Estatura dos Alunos do Colégio Y – 2010
ESTATURAS (m) 1,50 |- 1,55 1,55 |- 1,60 1,60 |- 1,65 1,65 |- 1,70 1,70 |- 1,75 1,75 |- 1,80 TOTAL _________________________________________________________________________________________________________________
Nº DE ALUNOS 20 29 50 41 30 30 200
. Fonte: Fictícia
LISTA IV
1)Com base nos dados apresentados resolva os exercícios abaixo:
a)Os dados seguintes representam as idades de 30 crianças que estão abaixo do peso e necessitam com urgência de assistência médica.
10, 8, 2, 4, 0, 7, 5, 5, 2, 9, 6, 4, 7, 6, 5, 5, 5, 7, 6, 4, 0, 2, 3, 4, 7, 5, 3, 7, 6, 5
b)Os dados seguintes representam as idades de 24 crianças do Abrigo Esperança e Vida que estão recebendo o benefício bolsa escola e estão sendo acompanhadas pelos Assitentes Sociais e Psicólogos que fizeram uma análise anterior posterior em relação ao rendimento das crianças.
6, 2, 8, 4, 12, 7, 3, 7, 5, 7, 8, 6, 9, 4, 6, 11, 6, 10, 12, 6, 2, 10, 4, 3
Pede-se:
a) Rol (ordenar os dados)
b) Amplitude Total( Maior-Menor)
c) Valor de n=√n
d) Valor de h=At/√n
e) Construir uma tabela : com as frequências e o ponto médio(xi)
f) Média
g) Moda
h) Mediana
LISTA DE EXERCÍCIOS V
1) Calcule e identifique as medidas de posição (média, moda, mediana) dos dados abaixo:
a) 6, 13, 17, 8, 15, 11, 13,8
b) 7,10,13, 9,5,10,8
2) Dado a tabela abaixo, preencha e calcule as medidas de posição (média moda e mediana)
i CLASSES fi fri fri(%) xi xifi
1
2
3
4
5
6
7
8 0 ׀— 2
2 ׀— 4
4 ׀— 6
6 ׀— 8
8 ׀— 10
10 ׀— 12
12 ׀—14
14 ׀— 16 1
2
5
7
13
6
7
9
50 ∑xifi
3) A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes:
ÁREAS
(m2) 300 ι— 400 ι— 500 ι— 600 ι— 700 ι—800 ι— 900 ι— 1.000 ι— 1.100 ι— 1.200
Nº DE LOTES 14 46 58 76 68 62 48 22 6
Com referência a essa tabela, determine:
a. a amplitude total;
b. o limite superior da quinta classe;
c. o limite inferior da oitava classe;
d. o ponto médio da sétima classe;
e. a amplitude do intervalo da segunda classe;
f. a freqüência da quarta classe;
g. a freqüência relativa da sexta classe;
h. a freqüência acumulada da quinta classe;
i. o número de lotes cuja área não atinge 700 m2;
j. o número de lotes cuja área atinge e ultrapassa 800 m2;
k. a percentagem dos lotes cuja área não atinge 600 m2;
l. a percentagem dos lotes cuja área seja maior ou igual a 900 m2;
m. a percentagem dos lotes cuja área é de 500 m2, no mínimo, mas inferior a 1.000 m2;
n. a classe do 72º lote;
o. até que classe estão incluídos 60% dos lotes.
Lista de Exercícios VI
1) Dados as amostras simples: Calcule as medidas de posição (média, moda e mediana) e as medidas de dispersão (amplitude, desvio padrão e coeficiente de variação).
a) 9,7,13,16,8,11,12
b) 6,5,5,4,3,6,7
c) 1,0,2
2) Em um teste aplicado a 20 alunos, obteve-se a seguinte distribuição de pontos dispostos na tabela abaixo: Pede-se o cálculo da média, moda, mediana, desvio médio, variância, desvio padrão e coeficiente de variação
Classes fi fri fri(%) fa xi xi*fi Ixi-xI fi.Ixi-xI (xi-x)₂ fi.(xi-x)₂
35├45 1
45├ 55 3
55├65 8
65├ 75 3
75├ 85 3
85├ 95 2
20
∑fi ∑xi*fi ∑fiIxi-xI ∑(xi-x)2.fi
Fonte:Unime
Lista de Exercícios VII
1)Tempo de espera de clientes em duas filas; com base nos dados calcule as medidas de posição e as medidas de dispersão:
Fila 1- 6,5,9,8,13,11,7
Fila 2- 5,8,11,15,7,8,9
2 2)Os dados seguintes representam as notas de 30 discente da Unime no Enade 2013.1 .
Com base nestes dados pede-se
Classes fi fa xi xi*fi │xi-x│ fi.│xi-x│ (xi-x)2 fi(xi-x)2
0├2 3
2├4 6
4├6 11
6├8 6
8├10 4
20
∑fi ∑xi*fi ∑│xi-x│.fi ∑(xi-x)²fi
a) Média
b) Moda
c) Mediana
d) Desvio médio
e) Variância
f) Desvio Padrão
g) Coeficiente de variação
Lista VIII
FÓRMULA PARA O CÁLCULO DO TAMANHO DA AMOSTRA
• N = Tamanho da população
• E0 = erro amostral tolerável
• n0 = primeira aproximação do tamanho da amostra
• n = tamanho da amostra
EXEMPLO DO CÁLCULO DE TAMANHO DA AMOSTRA
N=200 famílias
Eo = erro amostral tolerável = 4% (E0 = 0,04)
N = 1/(0,04)2 = 625 famílias
n = (tamanho da amostra corrigido) = N*n0/N+n0 = 200*625 / 200 + 625 = 125.000/825 = 152 famílias
E se a população fosse de 200.000 famílias?
n= 200.000*625 / 200.000 + 625 = 623 famílias
Observe que:
N = 200 famílias, E0 = 4% → n = 152 famílias = 76% da população
N = 200.000 famílias, E0 = 4% → n = 623 famílias = 0,3% da população
1) Calcular o tamanho da amostra para as seguintes populações:
a) 2500 moradores de um determinado bairro com margem de erro de 2%.
b) 2401 eleitores de uma cidade com margem de erro de 3%.
c) 622 mulheres que deixam filhos em uma determinada creche com margem de erro de 4%.
d) 125000(população infinita) moradores de um determinado município com margem
de erro de 2% e 6%.
2) Foram aplicados alguns questionários em um determinado município, este município foi estratificado com 4 bairros distintos com base nos dados ap
...