TrabalhosGratuitos.com - Trabalhos, Monografias, Artigos, Exames, Resumos de livros, Dissertações
Pesquisar

A Mineração na Web

Por:   •  27/5/2016  •  Artigo  •  3.648 Palavras (15 Páginas)  •  456 Visualizações

Página 1 de 15

MINERAÇÃO NA WEB

Fabiana Cunico[1]

Gessica Foppa[2]

RESUMO

Este trabalho tem por objetivo abordar o conceito, as principais funcionalidades e técnicas sobre data mining, Web mining e descoberta do conhecimento na Web, bem como estudar e demostrar o funcionamento da ferramenta Web Data Extractor.

Palavras-chave: Data Mining; Descoberta do Conhecimento; Web Mining

1 INTRODUÇÃO

Com o avanço da tecnologia, um grande volume de dados e informações foram gerados e inúmeras paginas Web criadas, ao passo que se encontram disponíveis conteúdos das mais diversas áreas do conhecimento. Com esse crescente volume de informações torna-se importante o uso de mecanismos eficientes para  a extração de dados relevantes e uteis na Web. Dessa forma, nesse artigo serão apresentados conceitos de mineração de dados e ferramentas para essa finalidade.

2 WEB MINING

Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações relevantes dos documentos e serviços ligados a Internet (AMO, _).

As tarefas principais da Web Mining são:

  • Busca de documentos: Consiste em encontrar sites web contendo documentos específicos por palavra-chave. É o processo de extrair dados a partir de fontes de textos disponíveis na Internet como os conteúdos HTML.
  • Seleção e pré-processamento de informação: Consiste em selecionar automaticamente informações obtidas na internet.
  • Generalização: Consiste em descobrir padrões gerais em sites Web ou vários sites. Esta técnica envolve técnicas de Inteligência Artificial e Mineração de Dados
  • Análise: Validação e interpretação dos padrões minerados

A mineração na web começou a ser estudada no ano de 1996.  No entanto, nos últimos anos ela vem sendo melhor estudada. Existem dois fatores que contribuíram para esse estudo:

  • Aumento das transações comerciais na web, que motivou o desenvolvimento das técnicas para mineração de uso através disso os sites puderem aprender melhor os perfis dos compradores, melhorando assim estratégias de venda;
  • O desenvolvimento da web semântica e da tecnologia dos agentes da informação: Através desta a web pode estender a inteligência dos agentes.

        A web é uma grande coleção de documentos heterogêneos onde surgem e desaparecem milhões de paginas todos os dias. A mineração de dados neste contexto é uma possibilidade ampla de ser explorada. A mineração de dados refere-se ao processo não trivial de identificação de padrões válidos, previamente desconhecidos e potencialmente úteis dos dados. No entanto, utilizar e compreender os dados disponíveis na Web não é uma tarefa simples, pois os dados são muito mais sofisticados e dinâmicos do que os sistemas de armazenamento de bancos de dados tradicionais (MARINHO;GIRARDI,_).

        A Web não possui controle sobre a estrutura ou o tipo dos documentos que armazena virtualmente. Outro aspecto que diferencia a mineração de dados tradicional da mineração na Web é a existência de vínculos de hipertexto entre os seus documentos. Os vínculos de hipertexto são uma rica fonte de informações a ser explorada, pois ajudam em diversos processos da web (MARINHO;GIRARDI,_).

2.3 Categorias da mineração Web

A mineração na Web se divide em três categorias de acordo com a parte da Web a ser minerada: mineração de conteúdo, mineração de estrutura e mineração de uso.

  • A mineração de conteúdo aborda a mineração dos dados contidos dentro dos documentos da Web.
  • A mineração de estrutura trata da mineração das informações contidas entre os documentos da Web. Os documentos da Web se relacionam através de vínculos de hipertexto.
  • A mineração de uso aborda a mineração das informações de uso da Web, que são as informações sobre como o usuário interage com a Web.


2.3.1  Mineração de Conteúdo

A mineração de conteúdo aborda o descobrimento de informações do conteúdo, dados, documentos e serviços da web. O conteúdo da Web não se forma somente de textos e sim de dados como áudio, vídeo, dados simbólicos, metadados e vínculos de hipertexto.        Os dados de texto da Web podem ser de três tipos: desestruturados, tais como textos comuns, semiestruturados, tais como documentos HTML, e estruturados, como as tabelas de bancos de dados (MARINHO;GIRARDI,_).

        Há uma linha separando a mineração de conteúdo e a recuperação de informação na Web. Não há um consenso sobre a relação entre as duas, alguns afirmam que a recuperação da informação na Web pode ser vista como uma instância da mineração de conteúdo, e outros associam a mineração de conteúdo com recuperação inteligente de informação. Isso acontece porque algumas vezes as duas acabam trabalhando juntas para alcançar determinado objetivo e uma acaba por complementar a outra (MARINHO;GIRARDI,_).

        Há duas estratégias para a mineração de conteúdo: uma realiza a mineração diretamente do conteúdo dos documentos e a outra incrementa o poder de busca de outras ferramentas e serviços. Na primeira estratégia, os documentos pretendidos já foram recuperados e já estão prontos para serem minerados. Na segunda estratégia, a mineração de conteúdo ajudam às ferramentas e serviços de recuperação de informação.

2.3.2 Mineração de Estrutura

Na mineração de estrutura o importante são as informações que existem de forma implícita entre os documentos, envolve o que está por trás da interligação entre os documentos da web. O que liga esses documentos são os vínculos de hipertextos.

A Web pode ser entendida como um grafo orientado, onde os nós representam páginas, e as setas entrepares de nós representam vínculos entre as páginas. Essa representação da Web em forma de grafo apresenta uma forte semelhança com as chamadas redes sociais que, juntamente com a análise de citações, inspirou a pesquisa dessa categoria de mineração (MARINHO;GIRARDI,_ apud KUMAR, 2002).

Nas citações bibliográficas quando um artigo é bastante citado isso indica que provavelmente este é um artigo importante e de maior autoridade perante outros que abordam o mesmo tema. Acontece o mesmo com as páginas e documentos da Web. Os vínculos de hipertexto dão indicações interessantes de como as páginas se relacionam entre si, links apontando para uma página, por exemplo, podem indicar a sua importância, enquanto links “saindo” de uma página podem indicar entre outras coisas a continuação ou complemento dos tópicos abordados por ela (MARINHO;GIRARDI,_).

...

Baixar como (para membros premium)  txt (25 Kb)   pdf (535 Kb)   docx (300.2 Kb)  
Continuar por mais 14 páginas »
Disponível apenas no TrabalhosGratuitos.com