Mineração de dados
Por: Rafaelag • 9/11/2015 • Relatório de pesquisa • 406 Palavras (2 Páginas) • 306 Visualizações
Mineração de dados
Com a imensa quantidade de dados gerados todos os dias, se faz necessária uma boa administração dos mesmos para garantir a qualidade das informações. Nesse aspecto, a Mineração de dados entra como um método de grande importância para extrair informações de conjuntos complexos de dados, com aplicações nas mais variadas áreas do conhecimento. Podemos citar como exemplo a computação visual e gráfica, computação médica, redes de comunicações, engenharia de transportes, entre outras. De forma geral, o método corresponde ao processo de classificar amostras, agrupando-as de tal forma que os grupos, formados, também chamados de clusters, representem uma configuração em que cada elemento possua características semelhantes com qualquer elemento do mesmo cluster do que com elementos de outros. Esse processo de agrupamento é chamado de clusterização.
O problema aqui tratado, chamado “Seeds Data Test”, utiliza dados obtidos de uma pesquisa real feita na Universidade Católica João Paulo II, na Polônia e consiste em classificar 210 sementes de trigo, de acordo com seu Kernel, em “Kama”, “Rosa” ou “Canadense”, respectivamente. Para isso são analisados vários aspectos das sementes.
O objetivo é determinar a qual classe cada uma das sementes pertence, com a menor margem de erro, e aprender por que e como essa ferramenta tem se tornado cada vez mais utilizada no gerenciamento de informações. Assim, neste trabalho prático será utilizada a mineração de dados, que é rápida e eficaz, utilizando álgebra linear, que pode também ser empregado em resoluções de outros problemas de recuperação de dados.
ENTRADAS E SAIDAS
O problema fornece uma matriz de 210 linhas por 8 colunas. Cada uma das linhas da matriz representa uma semente e as 7 primeiras colunas, os atributos analisados na clusterização. A oitava coluna representa a classificação final e por isso será retirada da matriz que será usada na recuperação de dados, uma vez que é isso o que se deseja determinar.
A carga dos dados será realizada diretamente a partir do arquivo texto obtido da UCI, sem nenhuma alteração. O conteúdo do arquivo consiste apenas nos valores numéricos dos atributos.
Será obtido um gráfico de dispersão no qual cada ponto representará uma semente. Os pontos plotados formarão três clusters, cada um representando o tipo de semente analisada (Kama, Rosa ou Canadense), e serão diferenciados por cores para facilitar a sua identificação.
Após a conclusão da clusterização o gráfico obtido, conforme as informações supracitadas, será apresentado em anexo.
...