Data Mining
Monografias: Data Mining. Pesquise 862.000+ trabalhos acadêmicosPor: daniloro1 • 8/1/2015 • 517 Palavras (3 Páginas) • 627 Visualizações
4 – Data Mining
4.1 – Conceito e Objetivo
Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação.
A premissa do Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário.
4.2 – Projeto
Pode ser dito com relativa confiança que é fácil começar um projeto de data mining, a dificuldade está em finalizá-lo de acordo com as expectativas. As promessas geradas, no início de um projeto, pela utilização de novas tecnologias que podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao avaliar as perspectivas de um novo projeto.
Dificuldades com extração dos dados, preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas para a execução do projeto.
As atividades de obtenção e limpeza dos dados normalmente consomem mais da metade do tempo dedicado ao projeto.
Para a execução de projetos de data mining e a correta alocação de recursos para os mesmos, foi desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes fases na implantação de um projeto. Esta metodologia foi chamada de CRISP-DM (Cross-Industry Standard Process for Data Mining), e pode ser obtida em http://www.crisp-dm.org .
Segundo a metodologia desenvolvida, a implementação de um sistema de data mining pode ser dividida seis fases interdependentes para que o mesmo atinja seus objetivos finais. São elas:
• Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para uma aplicação de data mining e um plano inicial de ataque ao problema.
• Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
• Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para uso pelos algorítmos de data mining.
• Modelagem: Seleção do(s) algorítmo(s) a serem utililizados e efetivo processamento do modelo. Alguns algorítmos necessitam dos dados em formatos específicos, o que acaba causando vários retornos à fase de preparação dos dados.
• Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar os modelos com a visão do
...