Tfg Arquitetura
Monografias: Tfg Arquitetura. Pesquise 862.000+ trabalhos acadêmicosPor: marinnal • 19/11/2014 • 2.000 Palavras (8 Páginas) • 442 Visualizações
2. PROCESSOS DE DESCOBERTA DE CONHECIMENTO
2.1 DESCOBERTA DE CONHECIMENTO
Atualmente o número de informação gerada vem aumentando exponencialmente,
esta informação, se tratada corretamente pode ser uma grande aliada na tomada de decisão
dentro das organizações. Tuomi (1999) afirma que dados podem ser considerados como
simples fatos, que, quando estruturados tornam-se informação. A informação torna-se
conhecimento quando é interpretada, inserida em um contexto, ou quando é acrescentado um
significado a ela. Com este presuposto pode-se afirmar que dado é um pré-requisito para a
informação, e a informação é necessária para a geração de conhecimento.
A informação pode ser encontrada em três estados: estruturada, onde cada campo
possui a identificação da informação (Banco de Dados, Planilha de Textos); semiestruturada,
possui tags que possibilitam a marcação das informações (XML, RDF); ou não estruturadas,
que são textos em linguagem natural. “Apesar de um texto em linguagem natural ser
estruturado no sentido de possuir uma estrutura sintática, a referência a “estrutura” é feita no
âmbito da Ciência da Computação” (BOVO, 2011). As informações não estruturadas podem
ser encontradas em artigos, atas, sites, e-mails, ou seja, qualquer documento escrito em
linguagem natural. Uma organização gera diversos documentos não estruturados, que contêm
informações importantes sobre a realidade da organização, estes documentos muitas vezes são
ignorados, quando poderiam auxiliar no processo de tomada de decisão.
O aumento da quantidade de informação gerada está em evidencia uma vez que
diversos estudiosos analisam este fenômeno e meios de extrair conhecimento de toda esta
informação. “A velocidade e a amplitude com que o conhecimento gerado passou a ser 22
compartilhado provocaram o surgimento de uma dinâmica de reaproveitamento e produção de
novos conhecimentos, bem como o aparecimento de novas necessidades de tratar a
informação” (RAMOS; BRASCHER, 2009).
A partir da necessidade de uma análise mais apurada da informação gerada surgiu na
década de 90 o conceito de descoberta de conhecimento e os processos que possam conduzir a
isso. Estes processos evidenciam informações que provavelmente não seriam observadas sem
a utilização dos mesmos.
A descoberta de conhecimento pode ser dividida em duas vertentes: KDD e KDT.
Esta divisão tem como base o conteúdo que será analisado, em que, se o conteúdo foi
previamente organizado e estruturado o processo de descoberta utilizado será o KDD. Caso o
conteúdo encontre-se disperso em documentos textuais o processo utilizado será o KDT
(RAMOS, BRASCHER; 2009).
Os processos de descoberta de conhecimento são compostos por várias fases, sendo
que cada fase possui diversas tarefas a serem executadas. Uma tarefa é resolvida através da
escolha de uma técnica de resolução. Por fim, as técnicas de resolução utilizam algoritmos,
podendo haver mais de um algoritmo que possa ser aplicado a uma determinada técnica.
O processo de KDD, ou descoberta de conhecimento em banco de dados, pode ser
definido como “... um processo, não trivial, de identificar novos, válidos e potencialmente
úteis padrões nos dados” (FAYYAD et al., 1996). Em suma o principal objetivo do KDD é a
tradução de dados brutos em informações relevantes (VIANNA et al., 2010). A Figura 1
ilustra o fluxo do processo de KDD.
Figura 1 - Uma visão geral do processo de KDD.
Fonte: adaptado de (FAYYAD, 1996)23
Como pode ser observado o KDD é um processo iterativo no qual todas as fases são
importantes para se atingir o objetivo (SILVA, 2004). As fases tradicionais do processo de
KDD são:
Seleção de Dados: Nesta fase são selecionados os dados pertinentes ao domínio do
problema, em que fica evidente a necessidade da compreensão do domínio e dos objetivos
(SILVA, 2004). Este processo de seleção é realizado utilizando-se de um banco de dados
estruturado.
Pré-processamento: Esta etapa visa “eliminar os dados incompletos, problemas de
definição de tipos, eliminação de tuplas repetidas, etc” (BARION; LAGO, 2008). De forma
resumida esta etapa realiza pequenas correções e limpeza no banco de dados visando garantir
a consistência e a exclusão de dados desnecessários.
Transformação: Após o pré-processamento a etapa de transformação é responsável
por realizar a persistência dos dados tratados, deixando-os prontos para a mineração de dados.
A transformação está diretamente ligada à técnica de mineração de dados. Segundo Barion e
Lago (2008), o principal objetivo desta fase é “... facilitar a utilização das técnicas de
mineração
...