TrabalhosGratuitos.com - Trabalhos, Monografias, Artigos, Exames, Resumos de livros, Dissertações
Pesquisar

O Agrupamento e seleção de vetores de similaridade para a desambiguação de nomes de autores em citações bibliográficas

Por:   •  16/8/2018  •  Relatório de pesquisa  •  2.509 Palavras (11 Páginas)  •  326 Visualizações

Página 1 de 11

Agrupamento e seleção de vetores de similaridade para a

desambiguação de nomes de autores em citações bibliográficas

Emilia Alves de Souza

Universidade Federal de Ouro Preto

emilia.alvess@gmail.com

Abstract

culo e ano da publicação. A remoção da ambigui-

dade ocorre através do agrupamento das ocorrên-

cias de nomes de autores similares e da atribuição

do nome de um autor para uma determinada refe-

rência.

O primeiro passo é formar grupos inicias de ci-

tações que correspondem a um mesmo autor. As ci-

tações são agrupadas se possuem nomes de autores

similares ou pelo menos um coautor em comum. A

partir dos clusters criados, são extraídos vetores de

similaridade. Cada vetor é baseado na comparação

das evidências que estão dentro de todas as citações

agrupadas.

Portanto, as citações que contém nomes de au-

tores similares, ou pelo menos um coautor em co-

mum, ou se as palavras do título e local da publi-

cação são correspondentes, isso significa que tais

citações pertencem à mesma classe. Inicialmente

os vetores de similaridade foram criados para as ci-

tações de toda coleção, mas o ideal é estratificar

os dados, rearranjando os clusters de forma a sele-

cionar os clusters que são dissimilares para garan-

tir a representatividade dos dados. Dessa maneira,

os clusters selecionados irão compor o conjunto de

treino e os demais clusters irão compor o conjunto

de teste. Feito isso, os dados de treino foram sub-

metidos à um classificador (SVM), para treinar uma

função de similaridade que irá inferir o autor cor-

reto para os dados de teste. A avaliação mostra ex-

perimentos utilizando citações extraídas da coleção

DBLP e o resultado, quanto ao método não super-

visionado, reproduz o agrupamento de clusters al-

tamente puros, porém nota-se grande fragmentação

Este trabalho tenta resolver o problema de am-

biguidade em citações bibliográficas através do

agrupamento de citações com nomes de autores si-

milares utilizando para isso funções de similari-

dade, além de gerar vetores de similaridade dos

grupos formados.

1. Introdução

Um dos grandes desafios na área de recuperação

de informação é a ambiguidade da linguagem hu-

mana, que ocorre quando palavras podem ter mais

do que um sentido. Existem muitos domínios en-

volvendo o problema de ambiguidade. O âmbito da

ambiguidade de nomes de um modo geral abrange

problemas específicos de acordo com o que se de-

seja tratar. No contexto de citações bibliográficas, a

ambiguidade de nomes de autores ocorre pela falta

de um padrão comum na representação das citações

e também devido ao armazenamento em diferentes

bibliotecas digitais.

Um nome de autor é ambíguo quando o mesmo

autor pode aparecer com nomes distintos, ou au-

tores distintos podem ter nomes similares. Os no-

mes de autores podem ser classificados de acordo

com os atributos explorados por evidências presen-

tes dentro das citações. Tais evidências represen-

tam informações específicas das citações, as mais

comuns são: nome de autor, nomes de coautores

que participam da autoria da publicação, título, veí-

1em relação ao agrupamento ideal.

Este artigo é organizado da seguinte forma. Na

seção 2, são apontados os principais métodos na

área de desambiguação de nomes de autores em ci-

tações bibliográficas. A seção 3 apresenta a descri-

ção do método para desambiguação de nomes que

será detalhado na seção 4. Por fim, na seção 6 é

reportado os resultados .

nal a serem selecionados e inseridos nos dados de

treino, aqueles que não foram selecionados com-

põe o conjunto de teste. Agora que o conjunto de

treino já foi gerado, é calculada uma função de de-

sambiguação, utilizando técnicas de aprendizagem

supervisionada, baseada em regras de associação,

que tentam prever os autores corretos para as ci-

tações no conjunto de teste. O trabalho

...

Baixar como (para membros premium)  txt (18.8 Kb)   pdf (71.6 Kb)   docx (584.1 Kb)  
Continuar por mais 10 páginas »
Disponível apenas no TrabalhosGratuitos.com