O Agrupamento e seleção de vetores de similaridade para a desambiguação de nomes de autores em citações bibliográficas
Por: Emilia Alves • 16/8/2018 • Relatório de pesquisa • 2.509 Palavras (11 Páginas) • 326 Visualizações
Agrupamento e seleção de vetores de similaridade para a
desambiguação de nomes de autores em citações bibliográficas
Emilia Alves de Souza
Universidade Federal de Ouro Preto
emilia.alvess@gmail.com
Abstract
culo e ano da publicação. A remoção da ambigui-
dade ocorre através do agrupamento das ocorrên-
cias de nomes de autores similares e da atribuição
do nome de um autor para uma determinada refe-
rência.
O primeiro passo é formar grupos inicias de ci-
tações que correspondem a um mesmo autor. As ci-
tações são agrupadas se possuem nomes de autores
similares ou pelo menos um coautor em comum. A
partir dos clusters criados, são extraídos vetores de
similaridade. Cada vetor é baseado na comparação
das evidências que estão dentro de todas as citações
agrupadas.
Portanto, as citações que contém nomes de au-
tores similares, ou pelo menos um coautor em co-
mum, ou se as palavras do título e local da publi-
cação são correspondentes, isso significa que tais
citações pertencem à mesma classe. Inicialmente
os vetores de similaridade foram criados para as ci-
tações de toda coleção, mas o ideal é estratificar
os dados, rearranjando os clusters de forma a sele-
cionar os clusters que são dissimilares para garan-
tir a representatividade dos dados. Dessa maneira,
os clusters selecionados irão compor o conjunto de
treino e os demais clusters irão compor o conjunto
de teste. Feito isso, os dados de treino foram sub-
metidos à um classificador (SVM), para treinar uma
função de similaridade que irá inferir o autor cor-
reto para os dados de teste. A avaliação mostra ex-
perimentos utilizando citações extraídas da coleção
DBLP e o resultado, quanto ao método não super-
visionado, reproduz o agrupamento de clusters al-
tamente puros, porém nota-se grande fragmentação
Este trabalho tenta resolver o problema de am-
biguidade em citações bibliográficas através do
agrupamento de citações com nomes de autores si-
milares utilizando para isso funções de similari-
dade, além de gerar vetores de similaridade dos
grupos formados.
1. Introdução
Um dos grandes desafios na área de recuperação
de informação é a ambiguidade da linguagem hu-
mana, que ocorre quando palavras podem ter mais
do que um sentido. Existem muitos domínios en-
volvendo o problema de ambiguidade. O âmbito da
ambiguidade de nomes de um modo geral abrange
problemas específicos de acordo com o que se de-
seja tratar. No contexto de citações bibliográficas, a
ambiguidade de nomes de autores ocorre pela falta
de um padrão comum na representação das citações
e também devido ao armazenamento em diferentes
bibliotecas digitais.
Um nome de autor é ambíguo quando o mesmo
autor pode aparecer com nomes distintos, ou au-
tores distintos podem ter nomes similares. Os no-
mes de autores podem ser classificados de acordo
com os atributos explorados por evidências presen-
tes dentro das citações. Tais evidências represen-
tam informações específicas das citações, as mais
comuns são: nome de autor, nomes de coautores
que participam da autoria da publicação, título, veí-
1em relação ao agrupamento ideal.
Este artigo é organizado da seguinte forma. Na
seção 2, são apontados os principais métodos na
área de desambiguação de nomes de autores em ci-
tações bibliográficas. A seção 3 apresenta a descri-
ção do método para desambiguação de nomes que
será detalhado na seção 4. Por fim, na seção 6 é
reportado os resultados .
nal a serem selecionados e inseridos nos dados de
treino, aqueles que não foram selecionados com-
põe o conjunto de teste. Agora que o conjunto de
treino já foi gerado, é calculada uma função de de-
sambiguação, utilizando técnicas de aprendizagem
supervisionada, baseada em regras de associação,
que tentam prever os autores corretos para as ci-
tações no conjunto de teste. O trabalho
...