APERFEIÇOAMENTO AUTOMÁTICO DOS CONJUNTOS DE TERMOS UTILIZADOS PELO YUCCA: UM COLETOR TEMÁTICO BASEADO EM GÊNERO
Por: Cesar Olimpio • 23/5/2018 • Monografia • 9.002 Palavras (37 Páginas) • 267 Visualizações
CÉSAR OLÍMPIO ANTUNES LIMA
Orientador: Guilherme Tavares de Assis
APERFEIÇOAMENTO AUTOMÁTICO DOS CONJUNTOS
DE TERMOS UTILIZADOS PELO YUCCA: UM COLETOR
TEMÁTICO BASEADO EM GÊNERO
Ouro Preto
Fevereiro de 2018Universidade Federal de Ouro Preto
Instituto de Ciências Exatas
Bacharelado em Ciência da Computação
APERFEIÇOAMENTO AUTOMÁTICO DOS CONJUNTOS
DE TERMOS UTILIZADOS PELO YUCCA: UM COLETOR
TEMÁTICO BASEADO EM GÊNERO
Monografia apresentada ao Curso de Bachare-
lado em Ciência da Computação da Universi-
dade Federal de Ouro Preto como requisito par-
cial para a obtenção do grau de Bacharel em
Ciência da Computação.
CÉSAR OLÍMPIO ANTUNES LIMA
Ouro Preto
Fevereiro de 2018Resumo
A recente popularização de acesso à Web vem provocando um extraordinário aumento no
volume de informações que é produzido e consumido. Nesse contexto, tornam-se fundamentais
o desenvolvimento e o aperfeiçoamento de mecanismos que promovam o acesso à informação
disponibilizada na Web de maneira fácil, rápida e precisa. Coletores tradicionais não são
capazes de identificar sub-espaços relevantes na Web relacionado a um tópico específico de
interesse; entretanto, coletores temáticos são ferramentas capazes de resolver, de maneira
eficaz e eficiente, o problema mencionado.
Geralmente, um processo de coleta temática
necessita, como parâmetro de entrada, de um conjunto bem definido de termos que expressam
o tópico de interesse desejado; dependendo de tal conjunto de termos, a eficácia de um de-
terminado processo de coleta pode não ser satisfatória. Existem distintas estratégias capazes
de promover a expansão automática de termos, que podem, no caso, melhorar a eficácia de
coletores. Em tal contexto, esse trabalho possui, como objetivo geral, a proposta, o desen-
volvimento e a integração em um coletor temático, denominado Yucca, de estratégias para o
aperfeiçoamento automático de conjuntos de termos necessários para a execução do mesmo.
Por enquanto, foi proposta, nesse trabalho, uma estratégia para tal fim. Experimentos iniciais
mostraram que tal estratégia proposta pode contribuir significativamente para a geração de
conjuntos aperfeiçoados de termos de gênero e conteúdo, necessários para a execução do Yucca.
Palavras-chave: Coleta temática, aperfeiçoamento de termos, expansão de consultas,
frequência de termos.
iSumário
1 Introdução
1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Objetivos Geral e Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Método de trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Delineamento da Monografia 5
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Revisão de Literatura
2.1
6
Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Abordagem original para coleta temática baseada em gênero . . . . . . . 6
2.1.1.1 Uso de Link Context . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1.2 Geração semi-automática de páginas-semente . . . . . . . . . . 10
2.1.1.3 Determinação automática de limites de similaridade . . . . . . 11
2.1.1.4 Aperfeiçoamento automático dos conjuntos de termos de gê-
nero e conteúdo . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2
2.1.2 Expansão de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Questionário SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Desenvolvimento e Experimentação Prática
20
3.1 Estratégia baseada em ponderação de termos . . . . . . . . . . . . . . . . . . . 20
3.2 Experimentação prática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 Considerações Finais 26
Referências Bibliográficas 28
iiLista de Figuras
2.1
Arquitetura de funcionamento da abordagem original para coleta temática (Assis
et al., 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
7
Arquitetura de funcionamento da geração automática de páginas-semente (Man-
garavite
...