CONCEITO DE DATA WAREHOUSE
Ensaios: CONCEITO DE DATA WAREHOUSE. Pesquise 862.000+ trabalhos acadêmicosPor: djan • 25/11/2014 • 4.833 Palavras (20 Páginas) • 388 Visualizações
1. CONCEITO DE DATA WAREHOUSE
A definição de DW varia de autor para autor, indo desde a informação armazenada num banco de dados de suporte a decisão até o processo de modelagem, extração de dados operacionais e armazenamento num banco de dados DSS. No entanto, apesar dessa variação, existe um consenso com relação aos objetivos de se implementá-lo (isto é, prover aos usuários finais fácil acesso a dados íntegros e consistentes para tomadas de decisões nos negócios). O escopo dessa tomada de decisão pode ser tático, operacional, estratégico e mais amplo.
Sistemas de DW revitalizam os sistemas da empresa, pois:
. Permitem que sistemas mais antigos continuem em operação;
. Consolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes;
. Extraem benefícios de novas informações oriundas das operações correntes;
. Provém ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional.
Devemos considerar, no entanto, que um DW não contem apenas dados resumidos, podendo conter também dados primitivos. É desejável prover ao usuário a capacidade de aprofundar-se num determinado tópico, investigando níveis de agregação menores ou mesmo o data primitivo, permitindo também geração de novas agregações ou correlações com outras variáveis. Além dos mais, é extremamente difícil prever todos os possíveis dados resumidos que serão necessários. Limitar o conteúdo de um DW apenas a dados resumidos significa limitar os usuários apenas às consultas e análises que eles puderem antecipar frente a seus requisitos atuais, não deixando qualquer flexibilidade para novas necessidades.
O objetivo da tecnologia DW é de fornecer os subsídios necessários para a transformação de uma base de dados de uma organização, geralmente transacionais, on-line operacional e com um conjunto de dados relativamente recente (denominado banco de dados OL TP) para uma base de dados maior que não seja orientada ao ambiente operacional e que contenha o histórico de todos de interesse existentes na organização, denominado banco de dados OLAP e também conhecido como DW propriamente dito.
1.1. Características do Datawarehouse
Apresentamos a seguir as principais características da tecnologia DW que são: orientado por temas, integrado, variado no tempo e não volátil.
Orientado por temas: refere-se ao fato do DW armazenar informações sobre temas específicos importantes para o negocio da empresa. Exemplos típicos de temas são produtos, atividades, contas, clientes, etc. Em contrapartida, o ambiente operacional é organizado por aplicações funcionais. Por exemplo, em uma organização bancária, estas aplicações incluem empréstimos, investimentos e seguros.
A implementação de um tema pode corresponder a um conjunto de tabelas relacionadas. Por exemplo, considerando informações sobre vendas de funcionários, podem existir tabelas contento informações básicas dos funcionários (como código do funcionário, nome, endereço, sexo, data inicio, data fim, etc.), uma com dados do período 1948 a 1980, outra com dados para o período 1985-1990. Além destas, existem tabelas cumulativas intermediárias com as atividades dos funcionários entre 1980 e 1990, contendo registro resumo para as atividades de cada mês (contendo código do funcionário, mês , número de transações, média de vendas, total menor venda, total maior venda , total vendas canceladas, etc.), e, finalmente, encontram-se ainda tabelas detalhadas de atividades para os períodos 1987-1988 e 1989-1990 (incluindo código do funcionário, data atividade, numero da nota, numero pedido, quantia, cliente id, local, etc..).
Existem, portanto, para o mesmo tipo informação, diferentes níveis de detalhe e sumarização. Note-se que todas estas tabelas contêm um identificador comum, o código do funcionário, além de um elemento temporal como parte da chave de cada tabela. Nem sempre todas estas tabelas seriam mantidas em discos, sendo possível que, em alguns casos, as informações mais detalhadas das atividades dos vendedores fossem mantidas em fita magnética, ficando acessíveis apenas quando solicitadas.
Integrado: refere-se à consistência de nomes das unidades das variáveis, etc., no sentido de que os dados foram transformados até um estado uniforme. Por exemplo, considere-se sexo como um elemento de dado. Uma aplicação pode codificar sexo como M/F, outra como 1/0 e uma terceira como H/M. Conforme os dados são trazidos para o DW, eles são convertidos para um estado uniforme, ou seja, sexo e codificado apenas de uma forma. Da mesma maneira, se um elemento de dado é medido em centímetros em uma aplicação, em polegadas em outra, ele será convertido para uma representação única ao ser colocado no DW.
Variante no tempo: refere-se ao fato do dado em um DW referir-se a algum momento especifico, significando que ele não é atualizável, enquanto que o dado de produção é atualizado de acordo com mudanças de estado do objetivo em questão, refletindo, em geral, o estado do objeto no momento do acesso. Em um DW, a cada ocorrência de uma mudança, uma nova entrada é criada, para marcar esta mudança.
O tratamento de séries temporais apresenta características especificas, que adicionam complexidade ao ambiente do DW. Processamentos mensais ou anuais são simples, mas dias e messes oferecem dificuldades pelas variações encontradas nos números. Deve-se considerar que não apenas os dados têm umas características temporal, mas também os metadados, que incluem definições dos itens de dados, rotinas de validação, algoritmos de derivação, etc. Sem a manutenção do histórico dos metadados, as mudanças das regras de negócio que afetam os dados na DW são perdidas, invalidando dados históricos.
Não volátil: significa que o DW permite apenas a carga inicial dos dados e consultas a estes dados, o chamado ambiente ”load-and-access”. Após serem integrados e transformados, os dados são carregados em bloco para o DW, para que estejam disponíveis aos usuários para acesso. No ambiente operacional, ao contrario, os dados são, em geral, atualizados registro a registro, em múltiplas transações. Essa volatilidade requer um trabalho considerável para assegurar integridade e consistência através de atividades de rollback, recuperação de falhas, commits e bloqueios. Um DW não requer este grau de controle
...