Identificação de Aspectos de Candidatos Eleitorais em Comentários de Notícias com Base na Mineração de Opinião
Por: Claudio Aleixo • 3/4/2016 • Artigo • 1.193 Palavras (5 Páginas) • 379 Visualizações
Pontifícia Universidade Católica de Minas Gerais
Cláudio Antônio Aleixo Júnior
Jonathan Fernandes das Dores Lima
Renoá Almeida do Nascimento
BANCO DE DADOS – RESUMO DO ARTIGO CIENTÍFICO
Contagem
2015
Introdução
A mineração de opinião é uma área de estudo que analisa opiniões, sentimentos, emoções de
pessoas sobre entidades e seus aspectos, combinando técnicas de mineração de dados e
processamento da linguagem natural, e vem se estendendo a fontes de dados menos
estruturadas, como comentários de sites, redes sociais e blogs. Para realização desta pesquisa,
foram-se utilizados os comentários de notícias referentes à Eleição para prefeito de São Paulo
do jornal Folha de São Paulo. As entidades selecionadas foram os três principais candidatos a
prefeito, são eles José Serra, Fernando Haddad e Celso Russomano, e os aspectos
selecionados foram Saúde e Educação.
Problema e Motivação
Devido à liberdade de escrita possibilitada nos comentários de sites, as opiniões expressas em
fontes de opiniões menos estruturadas são mais difíceis de serem mineradas, tornando a tarefa
de encontrar o conteúdo e alvo da opinião bem complexa. Não obstante, dentro de um mesmo
comentário podem estar contidas múltiplas opiniões sobre múltiplas entidades, exigindo um
pré-selecionamento ainda mais elaborado quanto à separação de seu conteúdo. O grande
desafio proposto é como possibilitar e realizar a Identificação e sumarização da opinião dentro
de tais fontes fracamente estruturadas, motivando os mentores do projeto a procurar expandir
e melhorar a capacidade de mineração por meio de sentimentos realizada hoje na computação.
Objetivo
Através da triagem de comentários pré-selecionados e elaboração de um dataset para análise
dos mesmos, o objetivo deste trabalho é mostrar que é possível realizar uma abordagem de
mineração que permitisse detalhar a opinião dos leitores em relação a aspectos específicos dos
candidatos à eleição para o cargo de prefeito de São Paulo e aplicar sobre o Corpus escolhido,
através da mineração de sentimentos.
Metodologia
O Corpus que foi utilizado consiste de comentários de notícias sobre as eleições municipais
de São Paulo entre os meses de Setembro e Outubro de 2012, reduzido a 14.848 comentários,
divididos em 79.752 sentenças, criando dois Datasets para treinar e testar os classificadores de
opinião. O Dataset 1 é composto de 407 notícias, anotadas em relação aos tópicos de
1
Educação e Saúde. O Dataset 2 é composto de 2072 sentenças de comentários do mesmo
corpus, anotados conforme sua polaridade (negativa, neutra ou positiva). Um ponto a ser
observado em ambos os Dataset’s é que as sentenças e opiniões indiretas e/ou implícitas não
foram tratadas, pois necessitam de uma análise semântica de sentença mais profunda
e elaborada. O que não significa que não poderá ser abordada uma análise mais robusta
futuramente. Outra observação a se fazer sobre a coleta de dados é a falta de padrão dos
comentários, Como pode-se perceber, muitos comentários acabam sendo desvalorizados
durante o período de triagem, por serem impróprios para seleção. Muitos também não
apresentam nenhuma posição sobre nenhum candidato, o que torna ainda mais complicado
criar uma base sólida de dados para criação o que obrigou a se fazer uma coleta de
informações de um determinado aspecto em uma notícia que talvez não tenha tanta ligação
com a opinião expressa no comentário, para que não comprometesse os resultados, ou seja,
foram extraídos aspectos de comentários, sem levar em conta o assunto abordado na notícia
ao qual eles estão associados.
Sobre esses comentários foram levados considerados relevantes os que faziam menção ao
aspecto analisado, através da extração e mineração manual de comentários, foi possível criar
de forma efetiva gráficos demonstrando a aceitação populacional à respeito dos
candidatos essa menção, foi identificada a partir de um conjunto de termos representativos
referentes aos aspectos que foram selecionados a partir da co-ocorrência das palavras, que
foram retiradas do documento de domínio. Que por sua vez, foi gerado através de uma coleta
e tratamento de um novo corpus. Foi realizada a extração de um corpus diferente de notícias,
contendo 1000 notícias classificadas pela Folha de São Paulo com o rótulo Educação e outras
1000 com o de Saúde. Sendo esses corpus gerados a partir da classificação da Folha de São
Paulo. Seguindo os seguintes passos: primeiro foi chamado de documento de domínio, após a
extração dessas notícias são geradas as palavras candidatas que são tratadas juntamente com o
documento de domínio e as palavras sementes pelas ferramentas citadas nos experimentos,
com isso são gerados os termos representativos, referentes aos aspectos, que
logo contribuirá para a identificação e a classificação dos aspectos em cada comentário.
2
Experimentos
Nessa parte são utilizadas as técnicas escolhidas para testar a teoria e chegar aos resultados,
que foram três: EMIM, Phi-Squared e LSI.
As técnicas escolhidas foram as que utilizaram co-ocorrência, que tem por objetivo descobrir
se as palavras candidatas poderiam se tornar significativas para determinado aspecto, por
exemplo, a palavra câncer, caso ela alcançasse resultado satisfatório nas técnicas propostas ela
seria considerado um termo representativo do aspecto Saúde. Sendo que para um melhor
...