O Algorítmo de Mineração de Dados
Por: bruna8186 • 16/9/2018 • Trabalho acadêmico • 2.001 Palavras (9 Páginas) • 121 Visualizações
ALGORITMOS DE MINERAÇÃO DE DADOS
Nome do 1° autor
Instituição
Resumo
O artigo apresenta um projeto de pesquisa voltado para o processo de Mineração de Dados, entre os mais utilizados dentro dos diversos tipos de domínios. Entre os principais questionamentos estratégicos de uma organização, pode-se dizer que a capacidade de analisar rapidamente às interações e alterações impostas pelo mercado, esta relacionada à capacidade de avaliar as informações e transformá-las em estudo.
Palavras-chave: Mineração de Dados, Tarefas, Métodos, Ferramentas.
1 . Introdução
A mineração de dados é um meio de solução de problemas com grande quantidade de variáveis que muitas vezes acabam sendo difícil para o raciocínio humano. Estamos envolvidos com diversos problemas, e a utilização de mineração de dados pode trazer melhorias significativas, e para podermos trabalhar com esse tipo de análise precisamos de muito armazenamento e processamento.
Hoje, a computação nas nuvens tornou o armazenamento e o processamento de dados algo trivial, dados que provavelmente se perderiam em discos rígidos a 10 anos atrás hoje fazem parte da base de informação que algumas empresas possuem de seus clientes e usuários. Por se tratar do uso de métodos estatísticos e matemáticos, data mining possui uma história que remonta a períodos antes mesmo do computador como conhecemos (Arquitetura de Von Neumann), trazendo a tona técnicas como o Teorema de Bayes (Século 18), e analise de regressão (Século 19), todos métodos para busca de padrões em dados.
Com avanço na coleta de dados, a tecnologia permitiu que as entidades acumulassem em base de dados uma grande quantidade de informações. O conhecimento de dados tem provado ser extremamente desafiador. As técnicas mais utilizadas em análise de dados não podem mais ser usadas devido ao enorme conjunto de dados.
Há diversas pesquisas com ênfase no desenvolvimento de técnicas com objetivo de extrair informações em um grande volume de dados e transformar estas informações em conhecimento.
A finalidade principal da mineração de dados são a previsão e descrição. A previsão utiliza as variáveis que existem no banco de dados para antever valores futuros. A descrição busca os protótipos descrevendo os dados e para interpretação do usuário. A previsão e descrição variam de acordo com o sistema de mineração de dados utilizado.
Existem vários algoritmos de mineração de dados usados em específico para cada problema a ser resolvido. Estes são categorizados em algoritmos de associação, classificação, padrões seqüenciais e agrupamento. Os algoritmos de associação busca todas as associações em um conjunto de itens em uma operação. Algoritmos de classificação desenvolvem perfis de diferentes grupos. Algoritmos de padrões seqüenciais apresentam os padrões seqüenciais em restrições especificas. Algoritmos de agrupamento seccionam o banco de dados em subconjuntos ou grupos.
2. Fundamentação Teórica
Segundo Fayyan(1996), Data Mining é o processo não-trivial de identificar padrões válidos, úteis, novos e compreensíveis nos dados. Quando tratamos de padrão, falamos sobre uma forma de agrupamentos de um subconjunto de dados específico, ou até mesmo um modelo aplicado a este subconjunto. Por não-trivial, Fayyad nos diz que o processo não se trata apenas de simples cálculos de média ou valores predefinidos e já conhecidos, mas que também será necessário pesquisa sobre os dados dos padrões a respeito dos assuntos tratados.
Ainda não é consenso a definição dos termos KDD e Data Mining. Em Rezende [69], Wang [83] e Han et al. [27] eles são considerados sinônimos. Para Cios et al. [16] e Fayyad [20] o KDD refere-se a todo o processo de descoberta de conhecimento, e a Mineração de Dados a uma das atividades do processo. No entanto, todos concordam que o processo de mineração deve ser iterativo, interativo e divido em fases. Na figura 1 podemos ver uma representação do processo de KDD.
Até 1995 muitos cientistas consideravam o KDD e Data Mining como um sinônimos (Chen, 1996). No evento conhecido como Conferência Internacional de KDD onde houve a criação dedistinção entre as duas palavras (ADRIAANS e ZANTINGE, 1996), sendo assim, o KDD passou a englobar todo o procedimento, de coleta a interpretação dos dados, e data mining especificamente uma das etapas do KDD.
Segundo Hand(2007), Data Mining se trata de descobrir estruturas interessantes e valiosas dentro de grandes bases de dados. Hand nos da uma visão geral sobre Data Mining e nos mostra o envolvimento direto dessa matéria com a estatística, porém com uma ênfase para o campo de ferramentas utilizadas no processo. Em seu livro é exposto a necessidade de grande quantidade de dados, porém pontua a importância de se atentar ao armazenamento e a leitura desses dados, também cita as dificuldades fundamentais, como a representatividade dos dados, ou análise os dados em um período de tempo.
Por essa razão, podemos analisar o amadurecimento no campo de data mining, baseado na época de publicação do trabalho de Fayyad(1996) e no livro de Hand(2007). O Data Mining é uma das etapas dentro de um processo chamado KDD, dentro do contexto o papel de ser o responsável pela aplicação de algoritmos a dados previamente filtrados e limpos, tentando trazer desses dados padrões que possam ter algum valor.
A utilização desse gênero de tecnologia se expande a diversos setores, Fayyad(1996) cita exemplos de vários tipos onde em 1996 o Data Mining já era utilizado. Em campanhas de marketing, detectando padrões de comportamento dos clientes, sempre utilizado quando se trata de data mining: uma famosa rede de supermercados encontrou um padrão nos dados coletados de seus clientes.
Os clientes que compram fraldas tendem a comprar um fardo de cerveja também. Uma pessoa comum pode ter dificuldades para encontrar esse padrão, mas o Data Mining acaba expondo esse ponto de vista, e com esse tipo de conhecimento a rede de supermercados acabou explorando esse padrão e deixou os dois produtos em prateleiras próximas. Outro exemplo é na detecção de fraudes no uso de cartões de crédito, empresas como Visa e Mastercard verificam a todo momento transações de milhares de seus clientes, na busca de padrões quebrados (como compras com valores elevados, em regiões distantes das regiões comum do cliente, entre outros).
...