A MINERAÇÃO DE TEXTO
Por: Dijho • 6/10/2015 • Artigo • 750 Palavras (3 Páginas) • 340 Visualizações
MINERAÇÃO DE TEXTO
CASSIO CLEI RODRIGUES PINHEIRO , VITOR LUIS COSTA MASSIAS ,GUSTAVO LEITE,DIEGO LEONARDO
FAPAN – Faculdade Pan Amazônica
Eyzy1019@gmail.com, vitorluis777@hotmail.com, leite_gustavo@hotmail.com , dijhonvn1987@gmail.com.
Rua dos Mundurucus, 4.0.10 – Cremação – Belém/Pa
Artigo apresentado à Faculdade Pan Amazônica como requisito de obtenção de avaliação da NP1 da disciplina Sistemas de Informações Inteligentes
1. INTRODUÇÃO
Com o avanço das novas tecnologias vem impulsionada pela popularização da internet se comparando a uns anos atrás onde que poucas pessoas poderia ter acesso. Vem mudando a forma das interações entre pessoas e com o crescimento das redes sociais junto com seus usuários está cada vez mais fácil a interação entre eles e a formulação de ideias, discursões e opiniões de diferentes assuntos de. Com isto as administradoras das redes sociais estão interessadas em saber o que seus usuários POSTAM. Para elas saberem e usado diferentes técnicas de minerações de texto entre umas delas cera explicada no resumo abaixo.
Mineração de textos, também conhecido como mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais, em geral, se refere ao processo de extração de informações de interesse e padrões não-triviais ou descoberta de conhecimento em documentos de texto não-estruturados. Pode ser visto como uma extensão da mineração de dados ou da descoberta de conhecimento em bases de dados estruturadas.
A mineração de textos pode ser definida como uma aplicação de sistemas de computação que envolve hardware e software dedicados à análise textual.
Como muitas informações (mais de 80%) estão armazenadas em formato texto, acredita-se que as técnicas de mineração possuam um grande valor comercial.
2. MINERACAÇÃO DE TEXTO
Um dos lugares mais visíveis de verificar a mineração de texto ocorrendo e no Twitter, Nesta etapa, o algoritmo de classificação de textos Naive Bayes do Apache Mahout foi utilizado para gerar o modelo de classificação de tweets da Copa (JOSÉ A.C. FILHO em seu artigo). Para isso foi separada cada palavras dos tweets e comprada com outros tweets de usuários destinos para gerar o assunto mas falado.
Na Seleção de dados de grande coleções de documentos. Para facilitar e reduzir o espaço em dados e necessário usar a técnica de amostragem. Segundo (Maria Luiza C. Passini e Nelson F. F. Ebecken) O algoritmo foi implementado em basicamente três fases: inicial, supressão e seleção do novo conjunto de treinamento. Na 1º fase inicial foi feito a indexação dos documentos usando os termos, 2º fase foi usado supressão dividi aleatoriamente os conjuntos e subconjuntos na última fase seleção será que irão selecionar os anticorpos com maior similaridade e realizar a supressão.
As hierarquias de tópicos desempenham um papel importante na recuperação e organização de informação, principalmente em tarefa s de busca exploratória (Marchionini ,2006) maior problema nisso e que geralmente o usuário tem pouco domínio do tema e não se expressa direito na hora de buscar a palavras chaves Agrupamento de sequências pode-se usar em diversas áreas como utiliza das para o desenvolvimento da base de dados Plant Defense Mechanisms. base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico.( Adriano Barbosa da Silva) . com este metade o usuário iria fazer busca com palavras chaves .
...