Arquitetura de Coleta e Armazenamento de Dados: Hadoop e Spark
Por: gilson.costa • 15/7/2020 • Trabalho acadêmico • 803 Palavras (4 Páginas) • 282 Visualizações
Disciplina: Arquitetura de Coleta e Armazenamento de Dados: Hadoop e Spark.
Identificação da tarefa: Tarefa 1.2. Envio de arquivo.
Pontuação: 15 pontos.
Tarefa 1.2
Questão 1 (5 pontos)
No contexto de NoSQL e NewSQL, apresente um exemplo de código:
- NoSQL: selecione na tabela “records” os registros onde “publicationdate” forem superior à data ‘2001/1/1’
R:
Select realizado no banco de dados MongoDB:
Db.redords.find( { publicationdate: {$gt: “2001/1/1”} } ) ;
- NewSQL: Deletar uma coluna de uma tabela chamada “colName”
R:
Delete realizado no banco de dados voltDB:
ALTER TABLE Records DROP COLUMN colName;
Questão 2 (5 pontos)
Responda à questão a seguir:
- Como funciona a arquitetura Big Data e Analytics?
Um dos principais objetivos de qualquer programa Big Data e Analytics é executar processos de negócios de maneira mais eficaz e eficiente. Isso significa canalizar a inteligência que se obtém da análise diretamente nos processos que a empresa está realizando.
Em um nível alto, isso inclui:
- Análise embutida na aplicação - A incorporação de análise nos aplicativos que os trabalhadores usam ajuda-os a tomar decisões mais informadas. Regras e recomendações otimizadas - Processos automatizados também podem se beneficiar da análise. Essa forma de processos de negócios é executada usando lógica de negócios predefinida. Com regras e recomendações otimizadas, o insight da análise é usado para influenciar a lógica de decisão à medida que o processo é executado.
- Navegação guiada pelo usuário - Alguns processos exigem que os
usuários realizem ações auto direcionadas para investigar um problema e determinar um curso de ação. Sempre que possível, o sistema deve aproveitar as informações disponíveis para orientar o usuário no caminho de investigação mais apropriado. - Gerenciamento de desempenho e estratégia - O Analytics também pode fornecer informações para orientar e apoiar os processos de gerenciamento de desempenho e estratégia de um negócio. Isso pode ajudar a garantir que a estratégia seja baseada em uma análise sólida. Da mesma forma, pode acompanhar o desempenho dos negócios versus objetivos, a fim de fornecer informações sobre o desempenho da estratégia.
DÊ UM EXEMPLO para cada tópico a seguir:
- Dados Operacionais: É um repositório de dados onde são colocados os dados que uma empresa utiliza no seu dia a dia para que sejam consultados por outros sistemas ou por áreas de inteligência
- Dados COTS: Os aplicativos COTS geralmente incluem pacotes analíticos que funcionam como data marts que são transformados a partir de dados operacionais.
- Conteúdo: Documentos, vídeos, apresentações etc. Essas formas
de informação podem ser vinculadas a outras formas de dados para dar
suporte à navegação, pesquisa, análise e descoberta entre tipos de dados. - Dados autoritativos: São dados mestres tais como entidades comerciais chaves padronizadas, como cliente e produto. E os dados referentes a classificação, como os códigos de status e códigos de moedas.
- Dados gerados pelo sistema: Seria os dados como logs do sistema, tags RFID e saída do sensor.
- Dados Externos: Como os feeds de mídias sociais, blogs e classificações independentes de produtos e serviços.
- Dados Históricos: O ambiente deve manter os dados para fins de histórico. Em que os dados devem ser organizados para acomodar grandes volumes e estruturados para acomodar facilmente as mudanças nos negócios sem revisões de esquema. Como, por exemplo, os dados de movimentação de produtos no estoque, de movimentação bancaria.
- Dados analíticos: Como os dados analíticos da web que são vitais para o sucesso do marketing de busca. Uma vez que os insights obtidos com a análise dos dados permitem melhorar e otimizar suas campanhas publicitarias.
Questão 3 (5 pontos)
Descreva o escalonamento de um modelo de fluxo de trabalho e seu problema. Use suas próprias palavras.
R:
Os fluxos de trabalhos são geralmente executados usando recursos distribuídos, em que os dados exigidos pelo aplicativo podem ser recuperados de vários locais diferentes na rede, pois existem várias réplicas dos dados. E no final ou durante a execução podem ser produzidos novos dados a partir dos dados de entrada e não apresentado uma grande diferença em relação entre eles.
...