MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS
Por: Menano • 7/3/2021 • Trabalho acadêmico • 650 Palavras (3 Páginas) • 201 Visualizações
[pic 1]
[pic 2]
UNIVERSIDADE ESTÁCIO DE SÁ
MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS
Resenha Crítica de Caso
William Moura Menano
Trabalho da disciplina: Ecosistema Hadoop
Tutor: Prof. Regina Lucia Napolitano Felicio Felix Batista
Rio de Janeiro
2021
HELLO HADOOP WORLD — PRIMEIROS PASSOS COM HADOOP E MAPREDUCE
Referência:
DA SILVA, Marku Vinicius. Hello Hadoop World — Primeiros passos com
Hadoop e MapReduce. Harvard Business School, Novembro 2017.
Disponível em: https://medium.com/@markuvinicius/hello-hadoop-world-primeiros-passos-com-hadoop-e-mapreduce-9b368dd7eeb7.
Acessado em: 18/01/2021
https://www.cetax.com.br/blog/apache-hadoop/
https://computerworld.com.br/inovacao/hadoop-ou-spark-veja-qual-se-aplica-melhor-para-sua-empresa/
Introdução
O presente trabalho representa uma resenha crítica sobre o paper “Hello Hadoop World — Primeiros passos com Hadoop e MapReduce” do autor Marku Vinicius da Silva. O paper tem como objetivo destacar a importância do Ecossitema Hadoop nas organizações. Como exemplo de aplicação, Marku constrói um programa em Java chamado MovieLens e ainda aborda quais os problemas e as soluções adotadas pelas empresas.
Marku descreve como o programa MapReduce processa o famoso dataset: MovieLens, além do passo a passo do processo.
Desenvolvimento
O autor do paper cita muito bem como é complicado trabalhar com grandes bancos/volumes de dados e como o Hadoop veio para resolver o armazenamento massivo de informações e um processamento mais distribuído.
Diante dessa dificuldade de manipulação de dados, surge o Hadoop.
Conforme citado pelo Marku “Hadoop é uma plataforma de software open-source para computação distribuída, escalável e tolerante a falhas desenvolvido e mantido pela Apache Software Foundation.”. Por ser um software open-source, ele pode ser compartilhado pela rede pelos desenvolvedores, permitindo acesso sem restrições a qualquer pessoa. Ele trabalha com clusters de computadores utilizando linguagens simples.
Trabalhar com grande massa de dados em um banco de dados tradicional hoje em dia é muito difícil, além de perder muito em performance. Diante deste cenário, foi criado um software com alto processamento de dados chamado Hadoop, software este com excelente processamento de dados, armazenamento, governança, acesso, segurança e operações para grandes e complexos volumes de dados.
O Hadoop é uma solução adequada para Big Data por diversos motivos:
1 - É um software open-source, como já citado, fato este que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de desenvolvedores;
...