A Mineração na Web
Por: gessicafp • 27/5/2016 • Artigo • 3.648 Palavras (15 Páginas) • 445 Visualizações
MINERAÇÃO NA WEB
Fabiana Cunico[1]
Gessica Foppa[2]
RESUMO
Este trabalho tem por objetivo abordar o conceito, as principais funcionalidades e técnicas sobre data mining, Web mining e descoberta do conhecimento na Web, bem como estudar e demostrar o funcionamento da ferramenta Web Data Extractor.
Palavras-chave: Data Mining; Descoberta do Conhecimento; Web Mining
1 INTRODUÇÃO
Com o avanço da tecnologia, um grande volume de dados e informações foram gerados e inúmeras paginas Web criadas, ao passo que se encontram disponíveis conteúdos das mais diversas áreas do conhecimento. Com esse crescente volume de informações torna-se importante o uso de mecanismos eficientes para a extração de dados relevantes e uteis na Web. Dessa forma, nesse artigo serão apresentados conceitos de mineração de dados e ferramentas para essa finalidade.
2 WEB MINING
Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações relevantes dos documentos e serviços ligados a Internet (AMO, _).
As tarefas principais da Web Mining são:
- Busca de documentos: Consiste em encontrar sites web contendo documentos específicos por palavra-chave. É o processo de extrair dados a partir de fontes de textos disponíveis na Internet como os conteúdos HTML.
- Seleção e pré-processamento de informação: Consiste em selecionar automaticamente informações obtidas na internet.
- Generalização: Consiste em descobrir padrões gerais em sites Web ou vários sites. Esta técnica envolve técnicas de Inteligência Artificial e Mineração de Dados
- Análise: Validação e interpretação dos padrões minerados
A mineração na web começou a ser estudada no ano de 1996. No entanto, nos últimos anos ela vem sendo melhor estudada. Existem dois fatores que contribuíram para esse estudo:
- Aumento das transações comerciais na web, que motivou o desenvolvimento das técnicas para mineração de uso através disso os sites puderem aprender melhor os perfis dos compradores, melhorando assim estratégias de venda;
- O desenvolvimento da web semântica e da tecnologia dos agentes da informação: Através desta a web pode estender a inteligência dos agentes.
A web é uma grande coleção de documentos heterogêneos onde surgem e desaparecem milhões de paginas todos os dias. A mineração de dados neste contexto é uma possibilidade ampla de ser explorada. A mineração de dados refere-se ao processo não trivial de identificação de padrões válidos, previamente desconhecidos e potencialmente úteis dos dados. No entanto, utilizar e compreender os dados disponíveis na Web não é uma tarefa simples, pois os dados são muito mais sofisticados e dinâmicos do que os sistemas de armazenamento de bancos de dados tradicionais (MARINHO;GIRARDI,_).
A Web não possui controle sobre a estrutura ou o tipo dos documentos que armazena virtualmente. Outro aspecto que diferencia a mineração de dados tradicional da mineração na Web é a existência de vínculos de hipertexto entre os seus documentos. Os vínculos de hipertexto são uma rica fonte de informações a ser explorada, pois ajudam em diversos processos da web (MARINHO;GIRARDI,_).
2.3 Categorias da mineração Web
A mineração na Web se divide em três categorias de acordo com a parte da Web a ser minerada: mineração de conteúdo, mineração de estrutura e mineração de uso.
- A mineração de conteúdo aborda a mineração dos dados contidos dentro dos documentos da Web.
- A mineração de estrutura trata da mineração das informações contidas entre os documentos da Web. Os documentos da Web se relacionam através de vínculos de hipertexto.
- A mineração de uso aborda a mineração das informações de uso da Web, que são as informações sobre como o usuário interage com a Web.
2.3.1 Mineração de Conteúdo
A mineração de conteúdo aborda o descobrimento de informações do conteúdo, dados, documentos e serviços da web. O conteúdo da Web não se forma somente de textos e sim de dados como áudio, vídeo, dados simbólicos, metadados e vínculos de hipertexto. Os dados de texto da Web podem ser de três tipos: desestruturados, tais como textos comuns, semiestruturados, tais como documentos HTML, e estruturados, como as tabelas de bancos de dados (MARINHO;GIRARDI,_).
Há uma linha separando a mineração de conteúdo e a recuperação de informação na Web. Não há um consenso sobre a relação entre as duas, alguns afirmam que a recuperação da informação na Web pode ser vista como uma instância da mineração de conteúdo, e outros associam a mineração de conteúdo com recuperação inteligente de informação. Isso acontece porque algumas vezes as duas acabam trabalhando juntas para alcançar determinado objetivo e uma acaba por complementar a outra (MARINHO;GIRARDI,_).
Há duas estratégias para a mineração de conteúdo: uma realiza a mineração diretamente do conteúdo dos documentos e a outra incrementa o poder de busca de outras ferramentas e serviços. Na primeira estratégia, os documentos pretendidos já foram recuperados e já estão prontos para serem minerados. Na segunda estratégia, a mineração de conteúdo ajudam às ferramentas e serviços de recuperação de informação.
2.3.2 Mineração de Estrutura
Na mineração de estrutura o importante são as informações que existem de forma implícita entre os documentos, envolve o que está por trás da interligação entre os documentos da web. O que liga esses documentos são os vínculos de hipertextos.
A Web pode ser entendida como um grafo orientado, onde os nós representam páginas, e as setas entrepares de nós representam vínculos entre as páginas. Essa representação da Web em forma de grafo apresenta uma forte semelhança com as chamadas redes sociais que, juntamente com a análise de citações, inspirou a pesquisa dessa categoria de mineração (MARINHO;GIRARDI,_ apud KUMAR, 2002).
Nas citações bibliográficas quando um artigo é bastante citado isso indica que provavelmente este é um artigo importante e de maior autoridade perante outros que abordam o mesmo tema. Acontece o mesmo com as páginas e documentos da Web. Os vínculos de hipertexto dão indicações interessantes de como as páginas se relacionam entre si, links apontando para uma página, por exemplo, podem indicar a sua importância, enquanto links “saindo” de uma página podem indicar entre outras coisas a continuação ou complemento dos tópicos abordados por ela (MARINHO;GIRARDI,_).
...