Tcc Falando Sobre Coisas Intereçantes
Monografias: Tcc Falando Sobre Coisas Intereçantes. Pesquise 862.000+ trabalhos acadêmicosPor: robertodadssdasd • 24/11/2014 • 1.119 Palavras (5 Páginas) • 363 Visualizações
RESUMO
Atualmente, o volume de informação gerado aumenta exponencialmente, sendo que uma
parcela significativa das informações encontra-se em formato textual. A partir desse formato é
possível extrair determinados conhecimentos. Entretanto, face ao grande volume de
informações disponíveis, seja na web ou mesmo nas organizações, tal tarefa constitui-se como
um desafio computacional. Superado os obstáculos, o conhecimento obtido através de
informações textuais pode ser utilizado na tomada de decisão com o intuito de gerar vantagem
competitiva. Um dos meios de se extrair conhecimento é através da utilização do processo de
Descoberta de Conhecimento em Bases de Dados e, no caso de informações textuais, através
do processo de Descoberta de Conhecimento em Textos. De maneira geral, os processos de
descoberta de conhecimento tradicionais são custosos quando aplicados em grandes coleções
de documentos, por exemplo, a web. Com este pressuposto é proposto neste trabalho uma
arquitetura para descoberta de conhecimento a partir de bases textuais almejando sua
utilização em grandes fontes de informação. Para atingir este objetivo, a proposta utiliza, além
da computação distribuída visando o aumento de desempenho, um modelo com base no
conceito de correlação rápida. A demonstração de viabilidade é realizada através de um
protótipo que implementa a arquitetura proposta. O protótipo tem a capacidade de gerar
informações que relacionam padrões textuais (termos) e de permitir uma visão da evolução
temporal em determinado domínio de problema. A aplicação do protótipo em um cenário
possibilitou demonstrar que a arquitetura proposta é capaz de obter resultados consistentes e
satisfatórios, tanto para o entendimento de determinado domínio, quanto para a análise de
grandes bases textuais.
Palavras-chave: Descoberta de Conhecimento; Bases Textuais; Correlação de Informação;
Computação Distribuída. ABSTRACT
Currently the amount of information increases exponentially in which a great portion of these
information is in textual format. From this format is possible to extract knowledge. However,
considering the huge volume of information available, either the web or even in organizations,
this task can be seen as a computational challenge. The knowledge acquired through textual
information, once overcome the obstacles, can be used in decision making process aiming to
generate competitive advantage. This can be done through Knowledge Discovery in Text. In
general, traditional knowledge discovery processes are expensive when applied to large
corpus, for instance, the web. Taken it into account is proposed in this work an architecture
for knowledge discovery from textual databases aiming its use in large sources of information.
Aiming to achieve the main objective this work focus on distributed computing in order to
increase performance and on a fast correlation based model. The feasibility is demonstrated
through a prototype implemented using the proposed architecture. The prototype has proved
the ability to extract information by linking textual patterns (terms) and by allowing a
temporal view in a given domain. The application of the prototype in a scenario has
demonstrated that the proposed architecture is able to obtain consistent and satisfactory
results.
Keywords: Knowledge Discovery; Text Databases; Information Correlation; Distributed
Computing. LISTA DE FIGURAS
Figura 1 - Uma visão geral do processo de KDD.....................................................................22
Figura 2 - Uma visão geral do processo de KDT. ....................................................................24
Figura 3 - Detalhamento e diferenciação dos processos de KDD e KDT. ...............................25
Figura 4 - Vetores de contexto de Web Semântica e Ontologia, relacionados indiretamente por
Tesauro e SPARQL. .................................................................................................................30
Figura 5 - Modelo de descoberta ABC aberta. .........................................................................32
Figura 6 - Modelo de descoberta ABC fechada........................................................................33
Figura 7 - Representação gráfica da similaridade de vetores;(a) representa vetores pouco
similares e (b) representa vetores similares. .............................................................................35
Figura 8 - Representação da similaridade dos vetores de contexto de Web Semântica e
Ontologia. .................................................................................................................................35
Figura 9 - Taxonomia de Flynn. ...............................................................................................37
Figura 10 - Sistemas multiprocessadores (a), multicomputadores (b), e sistemas distribuídos
(c)..............................................................................................................................................38
...