Mineração De Dados
Casos: Mineração De Dados. Pesquise 862.000+ trabalhos acadêmicosPor: Vericimo • 9/10/2013 • 3.298 Palavras (14 Páginas) • 445 Visualizações
1 INTRODUÇÃO.
A mineração de dados é o processo de descoberta de informações acionáveis em grandes conjuntos de dados. A mineração de dados usa análise matemática para derivar padrões e tendências que existem nos dados. Normalmente, esses padrões não podem ser descobertos com a exploração de dados tradicional pelo fato de as relações serem muito complexas ou por haver muitos dados.
Nos diferentes segmentos da sociedade, as instituições têm buscado na tecnologia recursos que agreguem valor aos seus negócios, seja agilizando operações, suportando ambientes ou viabilizando inovações. Diariamente, pessoas e instituições disponibilizam dados oriundos de tarefas cotidianas a estas plataformas tecnológicas através de simples atividades como compras no supermercado do bairro ou operações bancárias. Os sistemas de computação participam da vida das pessoas de forma cada vez mais próxima e constante. Não obstante, institutos científicos, indústrias, corporações e governos acumulam volumes gigantescos de dados, impulsionados também pela versatilidade e alcance proporcionados pela Internet.
Esta ampla disponibilidade de imensas bases de dados, aliada à eminente necessidade de transformar tais dados em informação e conhecimento úteis para o suporte à decisão, têm demandado investimentos consideráveis da comunidade científica e da indústria de software. A informação e o conhecimento obtidos podem ser utilizados para diversas aplicações, que vão do gerenciamento de negócios, controle de produção e análise de mercado ao projeto de engenharia e exploração científica.
As ferramentas e técnicas empregadas para análise automática e inteligente destes imensos repositórios são os objetos tratados pelo campo emergente da descoberta de conhecimento em bancos de dados (DCBD), da expressão em inglês Knowledge Discovery in Databases (KDD). Mineração de dados é a etapa em KDD responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.
A Mineração de Dados é uma das tecnologias mais promissoras da atualidade. Um dos fatores deste sucesso é o fato de dezenas, e muitas vezes centenas de milhões de reais serem gastos pelas companhias na coleta dos dados e, no entanto, nenhuma informação útil é identificada. Em seu trabalho, Han refere-se a essa situação como "rico em dados, pobre em informação". Além da iniciativa privada, o setor público e o terceiro setor (ONGt’s) também podem se beneficiar com a Mineração de Dados.
1.1 Algumas das áreas nas quais a Mineração de Dados é aplicada de forma satisfatória.
- Retenção de clientes: identificação de perfis para determinados produtos, venda cruzada;
- Bancos: identificar padrões para auxiliar no gerenciamento de relacionamento com o cliente;
- Cartão de Crédito: identificar segmentos de mercado, identificar padrões de rotatividade;
- Cobrança: detecção de fraudes;
- Telemarketing: acesso facilitado aos dados do cliente;
- Eleitoral: identificação de um perfil para possíveis votantes;
- Medicina: indicação de diagnósticos mais precisos;
- Segurança: na detecção de atividades terroristas e criminais;
- Auxílio em pesquisas biométricas;
- RH: identificação de competências em currículos;
- Tomada de Decisão: filtrar as informações relevantes, fornecer indicadores de probabilidade.
O uso da Mineração de Dados permite, por exemplo, que:
- Um supermercado melhore a disposição de seus produtos nas prateleiras, através do padrão de consumo de seus clientes;
- Uma companhia de marketing direcione o envio de mensagens promocionais, obtendo melhores retornos;
- Uma empresa aérea possa diferenciar seus serviços oferecendo um atendimento personalizado;
- Empresas planejem melhor a logística de distribuição dos seus produtos, prevendo picos nas vendas;
- Empresas possam economizar identificando fraudes;
- Agências de viagens possam aumentar o volume de vendas direcionando seus pacotes a clientes com aquele perfil.
2 ANÁLISE DOS PROBLEMAS E PREPARAÇÃO DOS DADOS.
O processo de análise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo é a possibilidade de selecionar os dados e definir as técnicas utilizadas na análise.
Conhecer o tipo dos dados com o qual se irá trabalhar também é fundamental para a escolha do(s) método(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quantitativos e qualitativos. Os dados quantitativos são representados por valores numéricos. Eles ainda podem ser discretos e contínuos. Já os dados qualitativos contêm os valores nominais e ordinais (categóricos). Em geral, antes de se aplicar os algoritmos de mineração é necessário explorar, conhecer e preparar os dados.
Nesse sentido, uma das primeiras atividades é obter uma visualização dos dados, de forma que se possa ter uma visão geral, para depois decidir-se quais as técnicas mais indicadas. Diversas são as técnicas utilizadas para a visualização dos dados.
Com uma visão inicial dos dados definida, é necessário explorá-los, buscando, além de mais conhecimento sobre os mesmos, encontrarmos valores que possam comprometer sua qualidade, tais como: valores em branco ou nulo, valores viciados, variáveis duplicadas, entre outras.
À medida em que problemas vão sendo encontrados e o entendimento vai sendo obtido, ocorre a preparação dos dados para que os algoritmos de mineração possam ser aplicados. O processo de preparação de dados compreende de 50 a 80% de todo o processo.
2.1 Limpeza dos dados.
Frequentemente, os dados são encontrados com diversas inconsistências: Registros incompletos, valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas de modo que eles não influam no resultado dos
...