Monografia Azure Database Fundamentals
Por: Fernando Rodrigues • 3/12/2021 • Monografia • 15.170 Palavras (61 Páginas) • 165 Visualizações
O que são dados?
Os dados são uma coleção de fatos, como números, descrições e observações usadas na tomada de decisão. Podemos classificar os dados como estruturados, semiestruturados ou não estruturados.
Dados estruturados são armazenados em tabela, de linhas e colunas. Os bancos de dados que armazenam essa informação são chamados de banco de dados relacionais.
Já os dados semiestruturados não são armazenados em banco de dados relacional, mas ainda se baseiam em alguma estrutura. Um exemplo são os documentos armazenados em JSON (JavaScript Object Notation). Também há outros tipos de dados semiestruturados. Os exemplos incluem repositório de chave-valor e bancos de dados de grafo. Um banco de dados de valor-chave armazena matrizes associativas. Nessas matrizes, uma chave serve como um identificador exclusivo para recuperar um valor específico.
Por exemplo, arquivos de áudio e vídeo e arquivos de dados binários podem não ter uma estrutura específica. Eles são chamados de dados não estruturados.
Como os dados são definidos, armazenados e acessados na computação em nuvem?
Os estruturados são armazenados em banco de dados relacional, como o SQL Server ou o Banco de Dados SQL do Azure, que é um serviço executado em nuvem. O ato de configurar um servidor de banco de dados em nuvem é chamado de provisionamento.
Também é possível provisionar outros serviços do Azure, como por exemplo o Armazenamento de Blobs do Azure, para armazenamento de dados não estruturados, como arquivos de vídeo ou áudio. Já para armazenar dados semiestruturados, como documentos, poderá usar um serviço como o Azure Cosmos DB.
Depois de provisionado, é preciso configurar o serviço para os usuários consigam acessar os dados. Você pode definir vários níveis de acessos:
- O acesso somente leitura significa que os usuários podem ler, mas não podem modificar os dados existentes e nem criar dados.
- O acesso de leitura/gravação fornece aos usuários a capacidade de ver e modificar os dados existentes.
- O privilégio de proprietário fornece acesso completo aos dados, incluindo o gerenciamento da segurança, como adicionar novos usuários e remover o acesso de usuários existentes.
Soluções de processamento de dados
As soluções de processamento de dados geralmente se enquadram em uma das duas categorias seguintes: sistemas analíticos e sistemas de processamento de transações.
O que é um sistema transacional?
Um sistema transacional registra transações. Uma transação pode ser financeira, como a movimentação de dinheiro entre contas em um sistema bancário, ou pode fazer parte de um sistema de varejo, como acompanhar pagamentos de bens e serviços efetuados pelos clientes.
Os sistemas transacionais geralmente são de alto volume, às vezes manipulando muitos milhões de transações em um dia. Os dados que estão sendo processados têm que estar acessíveis com rapidez. O trabalho executado por sistemas transacionais é geralmente conhecido como OLTP (Processamento de Transações Online).
Para dar suporte ao processamento rápido, os dados de um sistema transacional geralmente são divididos em pequenas partes. Por exemplo, se você estiver usando um sistema relacional, cada tabela envolvida em uma transação conterá apenas as colunas necessárias para executar a tarefa transacional. Para isso, em um sistema relacional, cada tabela envolvida na transação conterá apenas colunas com informações necessárias para executar a tarefa transacional. Isso é chamado de normalização, e pode permitir que o sistema transacional armazene em cache grande parte das informações necessárias para executar transações na memória, acelerando a taxa de transferência, mas pode deixar as consultas mais complexas.
O que é um sistema analítico?
Um sistema analítico foi projetado para dar suporte a usuários empresariais que precisam consultar dados e obter uma visão do panorama geral das informações mantidas em um banco de dados. Os sistemas analíticos se preocupam com a captura de dados brutos e o seu uso para gerar insights, que são usados para tomar decisões empresariais.
A maioria dos sistemas de processamento de dados analíticos precisa executar tarefas semelhantes: ingestão de dados, transformação de dados, consulta de dados e visualização de dados. A imagem abaixo ilustra os componentes em um sistema de processamento de dados típico.
[pic 1]
- Ingestão de dados: A ingestão de dados é o processo de captura de dados brutos. Alguns desses dados podem vir de um sistema OLTP separado. Para processar e analisar esses dados, primeiro você deve armazená-los em um repositório de algum tipo. O repositório pode ser um repositório de arquivos, um banco de dados de documentos ou mesmo um banco de dados relacional.
- Transformação/Processamento de Dados: Os dados brutos podem não estar em um formato adequado para a realização de consultas. Os dados podem conter anomalias que precisam ser filtradas ou podem exigir algum tipo de transformação. Depois que os dados são ingeridos em um repositório de dados, você deve executar algumas operações de limpeza e remoção de eventuais dados questionáveis ou inválidos ou executar agregações, como o cálculo de lucro, margem e outros KPIs (indicadores chave de desempenho). Os KPIs representam como as empresas são medidas quanto ao crescimento e ao desempenho.
- Realização de Consultas de Dados: Depois que os dados são ingeridos e transformados, você pode executar consultas sobre eles para efetuar análises. Muitos sistemas de gerenciamento de banco de dados fornecem ferramentas para permitir que você execute consultas ad hoc sobre seus dados e gere relatórios regulares.
- Visualização de Dados: Os dados representados em tabelas, como linhas e colunas ou como documentos, nem sempre são intuitivos. A visualização dos dados geralmente pode ser útil como uma ferramenta para examinar os dados. Você pode gerar gráficos como gráficos de barras, gráficos de linhas, plotar resultados em mapas geográficos, gráficos de pizza ou ilustrar como os dados são alterados ao longo do tempo. A Microsoft oferece ferramentas de visualização como o Power BI para fornecer uma representação gráfica avançada dos dados.
As características de dados relacionais e não relacionais
Os bancos de dados relacionais fornecem, provavelmente, o modelo mais bem compreendido para a manutenção de dados. A estrutura simples de tabelas e colunas torna o modelo mais fácil de usar, inicialmente, mas a estrutura rígida pode trazer problemas. Você pode resolver esses problemas usando um processo chamado normalização. Normalmente, o resultado final do processo de normalização é que seus dados são divididos em um grande número de tabelas estreitas e bem definidas (uma tabela estreita é uma tabela com poucas colunas), com referências de uma tabela para outra. No entanto, a realização de consultas sobre os dados geralmente requer a remontagem de informações de várias tabelas unindo novamente os dados em tempo de execução.
...