Identificação de Aspectos de Candidatos Eleitorais em Comentários de Notícias com Base na Mineração de Opinião

Por: Claudio Aleixo • 3/4/2016 • Artigo • 1.193 Palavras (5 Páginas) • 532 Visualizações

Página 1 de 5

Pontifícia Universidade Católica de Minas Gerais

Cláudio Antônio Aleixo Júnior

Jonathan Fernandes das Dores Lima

Renoá Almeida do Nascimento

BANCO DE DADOS – RESUMO DO ARTIGO CIENTÍFICO

Contagem

2015

Introdução

A mineração de opinião é uma área de estudo que analisa opiniões, sentimentos, emoções de

pessoas sobre entidades e seus aspectos, combinando técnicas de mineração de dados e

processamento da linguagem natural, e vem se estendendo a fontes de dados menos

estruturadas, como comentários de sites, redes sociais e blogs. Para realização desta pesquisa,

foram-se utilizados os comentários de notícias referentes à Eleição para prefeito de São Paulo

do jornal Folha de São Paulo. As entidades selecionadas foram os três principais candidatos a

prefeito, são eles José Serra, Fernando Haddad e Celso Russomano, e os aspectos

selecionados foram Saúde e Educação.

Problema e Motivação

Devido à liberdade de escrita possibilitada nos comentários de sites, as opiniões expressas em

fontes de opiniões menos estruturadas são mais difíceis de serem mineradas, tornando a tarefa

de encontrar o conteúdo e alvo da opinião bem complexa. Não obstante, dentro de um mesmo

comentário podem estar contidas múltiplas opiniões sobre múltiplas entidades, exigindo um

pré-selecionamento ainda mais elaborado quanto à separação de seu conteúdo. O grande

desafio proposto é como possibilitar e realizar a Identificação e sumarização da opinião dentro

de tais fontes fracamente estruturadas, motivando os mentores do projeto a procurar expandir

e melhorar a capacidade de mineração por meio de sentimentos realizada hoje na computação.

Objetivo

Através da triagem de comentários pré-selecionados e elaboração de um dataset para análise

dos mesmos, o objetivo deste trabalho é mostrar que é possível realizar uma abordagem de

mineração que permitisse detalhar a opinião dos leitores em relação a aspectos específicos dos

candidatos à eleição para o cargo de prefeito de São Paulo e aplicar sobre o Corpus escolhido,

através da mineração de sentimentos.

Metodologia

O Corpus que foi utilizado consiste de comentários de notícias sobre as eleições municipais

de São Paulo entre os meses de Setembro e Outubro de 2012, reduzido a 14.848 comentários,

divididos em 79.752 sentenças, criando dois Datasets para treinar e testar os classificadores de

opinião. O Dataset 1 é composto de 407 notícias, anotadas em relação aos tópicos de

Educação e Saúde. O Dataset 2 é composto de 2072 sentenças de comentários do mesmo

corpus, anotados conforme sua polaridade (negativa, neutra ou positiva). Um ponto a ser

observado em ambos os Dataset’s é que as sentenças e opiniões indiretas e/ou implícitas não

foram tratadas, pois necessitam de uma análise semântica de sentença mais profunda

e elaborada. O que não significa que não poderá ser abordada uma análise mais robusta

futuramente. Outra observação a se fazer sobre a coleta de dados é a falta de padrão dos

comentários, Como pode-se perceber, muitos comentários acabam sendo desvalorizados

durante o período de triagem, por serem impróprios para seleção. Muitos também não

apresentam nenhuma posição sobre nenhum candidato, o que torna ainda mais complicado

criar uma base sólida de dados para criação o que obrigou a se fazer uma coleta de

informações de um determinado aspecto em uma notícia que talvez não tenha tanta ligação

com a opinião expressa no comentário, para que não comprometesse os resultados, ou seja,

foram extraídos aspectos de comentários, sem levar em conta o assunto abordado na notícia

ao qual eles estão associados.

Sobre esses comentários foram levados considerados relevantes os que faziam menção ao

aspecto analisado, através da extração e mineração manual de comentários, foi possível criar

de forma efetiva gráficos demonstrando a aceitação populacional à respeito dos

candidatos essa menção, foi identificada a partir de um conjunto de termos representativos

referentes aos aspectos que foram selecionados a partir da co-ocorrência das palavras, que

foram retiradas do documento de domínio. Que por sua vez, foi gerado através de uma coleta

e tratamento de um novo corpus. Foi realizada a extração de um corpus diferente de notícias,

contendo 1000 notícias classificadas pela Folha de São Paulo com o rótulo Educação e outras

1000 com o de Saúde. Sendo esses corpus gerados a partir da classificação da Folha de São

Paulo. Seguindo os seguintes passos: primeiro foi chamado de documento de domínio, após a

extração dessas notícias são geradas as palavras candidatas que são tratadas juntamente com o

documento de domínio e as palavras sementes pelas ferramentas citadas nos experimentos,

com isso são gerados os termos representativos, referentes aos aspectos, que

logo contribuirá para a identificação e a classificação dos aspectos em cada comentário.

Experimentos

Nessa parte são utilizadas as técnicas escolhidas para testar a teoria e chegar aos resultados,

que foram três: EMIM, Phi-Squared e LSI.

As técnicas escolhidas foram as que utilizaram co-ocorrência, que tem por objetivo descobrir

se as palavras candidatas poderiam se tornar significativas para determinado aspecto, por

exemplo, a palavra câncer, caso ela alcançasse resultado satisfatório nas técnicas propostas ela

seria considerado um termo representativo do aspecto Saúde. Sendo que para um melhor

...

Baixar como (para membros premium) txt (8.7 Kb) pdf (86.7 Kb) docx (14 Kb)

Continuar por mais 4 páginas »

Disponível apenas no TrabalhosGratuitos.com

Ler documento completo Salvar