Aplicativo para descobrir usuários do Twitter
Por: Michel Wagner Ferreira • 15/6/2015 • Resenha • 666 Palavras (3 Páginas) • 390 Visualizações
Socialbots: Implicações na segurança e na credibilidade de serviços baseados no Twitter
CarlosFreitas¹, FabrícioBenevenuto¹, AdrianoVeloso¹
¹ Departamento de Ciência da Computação Universidade Federal de Minas Gerais (UFMG) – Belo Horizonte, MG – Brazil
{alessandro, fabricio, adrianov} @dcc.ufmg.br
Aplicações que utilizam de estatísticas de percepção pública geradas pelas redes sociais, precisam ter um grau de corretude para que os resultados não fiquem adulterados. Devido ao fato da existência de Bots – contas automatizadas – que buscam alterar a percepção pública, viu-se a necessidade de buscar entender as principais formas de ataque, bem como buscar mecanismos de defesa.
Baseado em um banco de dados com 54.981.152 usuários, que contém 1.755.925.520 tweets, foi investigado as contas suspensas para identificar bots, através de um método de detecção de atividade automática no Twitter. Além disso, foi selecionado uma amostra de um milhão de contas não suspensas que foram submetidas a testes de atividade automática conjuntamente com as contas suspensas. Uma conta é reprovada no teste quando apresenta comportamento altamente automatizado.
É esperado que usuários e bots possuem comportamento diferentes. Espera-se que humanos sejam mais sociais e ativos em conversas, enquanto que os bots postam mais tweets enviesados para algum tópico em particular ou contendo URLs. Para comprovar isto, analisamos um grande conjunto de atributos estraídos de padrões de comportamento e de escrita do texto. Consideramos três conjuntos de atributos (para medir a importância dos atributos calculamos o ganho de informação, isto é, redução esperada na entropia de cada um dos mesmos):
- Atributos de conteúdo: são baseados em propriedades dos tweets postados pelos usuários, que capturam características específicas relacionadas a forma com que os mesmo escrevem seus tweets.
- Atributos linguísticos: capturam propriedades específicas do padrão de escrita do usuário, visto que usuários que postam mensagens sobre vários tópicos geram conteúdo menos previsíveis do que aqueles que se restringem a um tópico em particular.
- Atributos do usuário: capturam características como a influência na rede do Twitter e as interações sociais do usuário.
Para avaliar o desempenho da abordagem foram utilizadas as métricas Precisão, Revocação, Macro-F1, Micro-F1 e Área sob a curva. Para explicar as métricas foi utilizado uma matriz de confusão. Essas métricas fornecem avaliações complementares da efetividade de um classificador. Nos experimentos foi utilizado o classificador Random Forest [Breiman 2001], visto que ele apresentou os melhores resultados. Todos os testes foram realizados usando validação cruzada com 20 partições. Em cada teste, o conjunto de dados foi separado em 20 amostras disjuntas, das quais uma é usada como teste e o restante como treino para o classificador. O processo é repetido 20 vezes, de forma que cada amostra é usada exatamente uma vez como teste. Isso gera 20 resultados diferentes, finalmente, reportamos os valores médios.
...