Trabalho Classificação de Plantas Através de Métodos Estatísticos
Por: Maria Luiza Machioski SIlvano • 18/3/2020 • Artigo • 2.814 Palavras (12 Páginas) • 236 Visualizações
Classificação de plantas através de métodos estatísticos
Cecícilia Pagnozzi, Luiza Tedeschi, Maria Luiza Machioski, Nicholas Motozono
Abstract - The article presents a statistical methodology for a classification of plants using a sample of 150 plants with some information about them. For this, the Hierarchical Clustering method was used and the number of groups was chosen through the Dendrogram graph. The proposed approach reached a classification of 3 levels with a good dispersion among the data and if it is consistent with reality, showing a good alternative for the categorization of films.
Keywords - movie rating, statistical methodology, clustering
INTRODUÇÃO
Em nossas vidas a estatística está mais presente do que imaginamos, diariamente quando assistimos ao jornal, dados estatísticos nos são apresentados. Podemos explica-la como uma ciência que tem como objetivo, através de métodos e técnicas, limitar algumas incertezas.
O processo para a realização de um estudo estatístico possui várias fases, a decisão sobre qual assunto estudar e como fazer isso, a coleta dos dados, a inferência, o processamento dos dados e a divulgação das informações obtidas. Uma das fases mais importantes é a coleta de dados, pois sem os dados, não seria possível sequer, realizar o estudo.
Abaixo definimos alguns termos importantes para a compreensão do artigo ao seu decorrer.
Objetivo
O objetivo deste artigo é a classificação de plantas entre três diferentes espécies, a partir de uma base de dados com 150 amostras, contendo informações sobre largura e comprimento das sépala e pétalas das plantas.
População
Para a estatística, população é um grupo sobre o qual existe um certo motivo ou interesse para ser estudado. Alguns exemplos de população podem ser dados, como um grupo de risco para uma certa doença, um modelo específico de carro, entre outras opções.
Amostra
A amostra pode ser definida como um subconjunto da população. Podemos dizer que é uma parte da população, colhida e utilizada como base de dados para um estudo dentro da análise estatística. Existem vários fatores que decidem quais serão as amostras analisadas, como a facilidade de se obter algumas informações, e dificuldades para outras, os recursos disponíveis e grau de relevância.
Incerteza
A incerteza é causada pera inconsistência e variabilidade de eventos cotidianos ou específicos, e é um motivo para que seja tão difícil tomar decisões importantes e que envolvam muitas pessoas. Vamos analisar uma ação realizada por milhares de pessoas todo dia, a ida à padaria. Este evento envolve inúmeras incertezas, por exemplo: a quantidade de paõs disponíveis, a qualidade do pão, a quantidade de pessoas na fila, a demora para o atendimento, a agilidade dos atendentes, o horário de maior movimento, etc. Mesmo que alguém se prepare antes de ir à padaria, colhendo informações úteis, é impossível se livrar das incertezas, pois a vida é composta por diversos eventos inesperados, como um acidente envolvendo o padeiro, por exemplo.
Se formos definir a incerteza, dizemos que é uma estimativa que tem o poder de nos dizer qual é a confiabilidade do resultado de um estudo ou amostra. A área de estudo que se encarrega de quantificar corretamente a incerteza, é a probabilidade. Se a incerteza de um resultado for muito grande, a confiabilidade diminuiu, isso indica que ambas são inversamente proporcionasis. É possível calcular a incerteza mesmo não tendo os valores verdadeiros. Por isso a incerteza é muito mais aplicável e com um conceito mais instrumental que o erro. Há dois tipos de incerteza: do tipo A e do tipo B. Podemos observar suas diferenças na imagem abaixo: [pic 1]
Figura1. Avaliação de incertezas.( Lima; et al., 2012)
Estatística descritiva
A estatística descritiva tem o principal objetivo de descrever os dados obtidos para que seja possível sintetizar uma valores de mesma natureza, facilitando a visualização e possibilitando a extração das informações contidas nos dados, como a variação dos valores, a divisão dos grupos por características parecidas, entre outras coisas. Essa estatística expõe os dados de três formas: por tabelas, gráficos e medidas descritivas.
As medidas descritivas se classificam em quatro: as de tendência central, separatrizes, de dispersão e Boxplot. Mais abaixo veremos um pouco sobre cada uma delas. Porém, antes gostaríamos de citar a estatística inferencial, que utiliza dados não completos para tirar conclusões não tão satisfatórias como as da estatística descritiva, neste trabalho não utilizamos este tipo de estatística.
Medidas de tendência central
As medidas de tendência central, como o próprio nome diz, tendem a um ponto central dos dados coletados. As principais medidas de tendência central são a média, a moda e a mediana.
A média aritmética é a soma de todos os valores coletados como amostra e divididos pelo número total de valores. A moda é o valor que mais aparece entre os dados coletados.
Por fim, a mediana é o valor central das medições, sendo assim responsável por dividir o conjunto em duas partes iguais, se houverem dois valores centrais, para o caso de um conjunto par, os dois valores são somados e divididos por dois, gerando a mediana.
Separatrizes
São valores que ocupam posições no conjunto de dados, que tem o objetivo de dividi-los em partes iguais e são classificados em:
Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais.
Decil: Os decis dividem o conjunto de dados em dez partes iguais.
Percentil: Os percentis dividem o conjunto de dados em cem partes iguais.
Medidas de dispersão
Pode se dizer que é uma ajudante das medidas de tendência central, pois tem como intuito, auxiliar a descrever o conjunto de dados adequadamente. Indicando se os dados estão, ou não, próximos uns dos outros.
...