Mineraçao De Dados
Monografias: Mineraçao De Dados. Pesquise 862.000+ trabalhos acadêmicosPor: MarcoSerodio • 3/10/2013 • 3.697 Palavras (15 Páginas) • 408 Visualizações
1-INTRODUÇÃO
Desde o surgimento dos sistemas computacionais, um dos principais objetivos das organizações tem sido o de armazenar dados. Nas últimas décadas essa tendência ficou ainda mais evidente com a queda nos custos para a aquisição de hardware, tornando possível armazenar quantidades cada vez maiores de dados. Novas e mais complexas estruturas de armazenamento foram desenvolvidas, tais como: banco de dados, Data Warehouses, Bibliotecas Virtuais, Web outras.
A Mineração de Dados é uma das tecnologias mais promissoras da atualidade. Um dos fatores deste sucesso é o fato de dezenas, e muitas vezes centenas de milhões de reais serem gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informação útil é identificada. Em seu trabalho, Han refere-se a essa situação como "rico em dados, pobre em informação". Além da iniciativa privada, o setor público e o terceiro setor (Ongt’s) também podem se beneficiar com a Mineração de Dados.
2. MINERAÇÃO DE DADOS
A mineração de dados pode ser considerada como uma parte do processo de Descoberta de Conhecimento em Banco de Dados (KDD – Knowledge Discovery in Data bases). Segundo Goebel e Gruenwald (1999), o termo KDD é usado para representar o processo de tornar dados de baixo nível em conhecimento de alto nível, enquanto mineração de dados pode ser definida como a extração de padrões ou modelos de dados observados.
A mineração de dados combina métodos e ferramentas das seguintes áreas: aprendizagem de máquina, estatística, banco de dados, sistemas especialistas e visualização de dados.
2.2.1 Conceito de Mineração de dados
“Mineração de dados é a exploração e a análise, por meio automático ou semiautomático, de grandes quantidades de dados, a fim de descobrir padrões e regras significativos”.
Os principais objetivos da mineração de dados são descobrir relacionamentos entre dados e fornecer subsídios para que possa ser feita uma previsão de tendências futuras baseada no passado.
Os resultados obtidos com a mineração de dados podem ser usados no gerenciamento de informação, processamento de pedidos de informação, tomada de decisão, controle de processo e muitas outras aplicações.
A mineração de dados pode ser aplicada de duas formas: como um processo de verificação e como um processo de descoberta (Groth, 1998). No processo de verificação, o usuário sugere uma hipótese acerca da relação entre os dados e tenta prová-la aplicando técnicas como análises estatística e multidimensional sobre um banco de dados contendo informações passadas. No processo de descoberta não é feita nenhuma suposição antecipada. Esse processo usa técnicas, tais como descoberta de regras de associação, árvores de decisão, algoritmos genéticos e redes neurais.
2.1 Origem dos Dados
As técnicas de mineração de dados podem ser aplicadas sobre bancos de dados operacionais ou sobre Data Warehouse (DW) ou Data Mart, nos quais geralmente resulta uma informação melhor, pois os dados normalmente são preparados antes de serem armazenados no DW ou data mart (Dias ET AL, 1998). Podem ser aplicadas, também, sobre uma data set, que pode ser definido como um “banco de dados” (em um sentido fraco do termo) contendo apenas o conjunto de dados específico para um tipo de investigação a ser realizada.
“Um DW é um conjunto de dados baseado em assuntos, integrado, não volátil e variante em relação ao tempo, de apoio às decisões gerenciais” (Inmon, 1997, p.33). No princípio, a expressão representava simplesmente um armazém de dados, como é a tradução de DW; porém, ao longo do tempo, vem recebendo diversos incrementos em sua estrutura.
Um DW tem por objetivo oferecer organização, gerenciamento e integração de bancos de dados, assim como ferramentas de exploração dos mesmos, para se obtiver vantagens competitivas no mercado. É construído tendo como base outros bancos de dados operacionais que podem estar implementados em diferentes plataformas na organização. É usado, geralmente, em aplicações de suporte à tomada de decisão.
Um data mart é um DW departamental, ou seja, um DW construído para uma área específica da organização (Inmon, 1997). A técnica de data mart facilita a tomada de decisões em nível departamental e permite dados relacionais ou multidimensionais não voláteis (Dias ET AL, 1998).
2.2 Tarefas Desempenhadas por Técnicas de Mineração de dados
As técnicas de mineração de dados podem ser aplicadas a tarefas1 como classificação, estimativa, associação, segmentação e sumarização. Essas tarefas são descritas a seguir.
a) Classificação
A tarefa de classificação consiste em construir um modelo de algum tipo que possa ser aplicado a dados não classificados visando categorizá-los em classes. Um objeto é examinado e classificado de acordo com uma classe definida (Harrison, 1998).
“A tarefa de classificação pode ser considerada uma tarefa mal definida ,indeterminística, que é inevitável pelo fato de envolver predição” (Freitas, 2000, p. 65).
São exemplos de tarefas de classificação (Goebel e Gruenwald, 1999), (Mehta et al, 1996): classificar pedidos de créditos como de baixo, médio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente está mais propício a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento médico.
b) Estimativa (ou Regressão)
A estimativa é usada para definir um valor para alguma variável contínua desconhecida como, por exemplo, receita, altura ou saldo de cartão de crédito (Harrison, 1998). Ela lida com resultados contínuos, enquanto que a classificação lida com resultados discretos. Ela pode ser usada para executar uma tarefa de classificação, convencionando-se que diferentes faixas (intervalos) de valores contínuos correspondem a diferentes classes.
“Regressão é aprender uma função que mapeia um item de dado para uma variável de predição real estimada” (Fayyad, 1996, p. 13).Como exemplos de tarefas de estimativa tem-se (Fayyad, 1996), (Harrison, 1998): estimar o número de filhos em uma família; estimar a renda total de uma família; estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um paciente morrerá baseando-se nos resultados de um conjunto
...