Entendendo a tecnologia Hadoop
Por: Gleydson Lins • 28/1/2017 • Artigo • 1.155 Palavras (5 Páginas) • 310 Visualizações
[pic 1][pic 2][pic 3][pic 4][pic 5][pic 6][pic 7][pic 8]
[pic 9]
Análise de Hadoop e Apache Hive
Jadiel Bruno M Guimarães
Gleidson
Análise de Hadoop apache hive[pic 10]
Introdução:[pic 11]
Apache Hadoop é um framework baseado em Java que suporta aplicações distribuídas. Ele permite que aplicativos para trabalhar com milhares de nós e petabytes de dados. Hadoop foi inspirado por documentos MapReduce do Google e Google File System (GFS). Hadoop é um alto nível de projeto Apache e com uma comunidade de base ampla. Yahoo! tem sido o maior contribuinte para o projeto.
Hadoop: Processamento de grandes quantidades de dados (TB e PB) em grandes aglomerados de hardware comodity. Este é composto por 2 sistemas:
• Armazenamento: HDFS
• Procesamento: MapReduce
E isso traz uma série de vantagens:
• Baixo custo
• Facilidade de uso
• Tolerancia a falhos
HADOOP[pic 12]
Hadoop pode acessar diferentes tipos de sistemas de arquivos (local, HDFS, KFS, S3, ...)
Vantages HDFS: Hadoop Distributed File System:
• Projetado para armazenar arquivos grandes em hardware commodity
• largura de banda alta
• Confiabilidade pela replicação
• Tolerância a Falhas inconvenientes
• latência alta
• Não eficiente com muitos arquivos pequenos
• Alterações sempre no final dos arquivos
• Não permita que vários escritores
Os principais processos estão ligados para HDFS:
• NameNode: Mantém informações (metadados) dos arquivos que residem no HDFS
• DataNode: Manter dados e são responsáveis pela replicação da mesma
• NameNode secundário: manter postos de controle de NameNode
# hadoop dfs –help
A interface principal para acessar o HDFS é CLI mediata:
Lectura de datos HDFS
[pic 13]
Escritura de datos HDFS
[pic 14]
(imágenes cortesía de Tomás Fernández Pena del CITIUS-USC)
Objetivos do teste[pic 15]
Os principais objectivos do conjunto de teste são:
• Dimensionar rendimiento y escalabilidad del HDFS de Hadoop.
• Algoritmos MapReduce tentar avaliar a escalabilidade e sua capacidade de paralelização.
• Verifique a capacidade de integrar Hadoop MapReduce e aberto a outras soluções e ferramentas para fornecer soluções de computação e de armazenamento alternativos:
o Uma melhor utilização dos recursos existentes.
o Eles trazem uma redução de custos e consumo diminuir potencia.
o Que eles são escaláveis
Descrição de hardware[pic 16]
O valor de referência é dividido em 2 conjuntos de testes. Um primeiro conjunto para o conjunto SVGD, Focada em dimensionamento escalabilidade e paralelização de MapReduce e um segundo conjunto, para o conjunto SVGD2, orientada sistema de desempenho distribuídos dimensionamento arquivo Hadoop (HDFS).
SVGD no cluster têm sido utilizados 16 nós com 2 Processador AMD Opteron 6174 2.2GHz, por nó (24 núcleos por nó no total) e conectividade Gigabit Ethernet.
Para o grupo SVGD2 eles têm sido usados 8 nós com 2 processadores Intel Sandy Bridge E5-2670 2,6 GHz por nó (16 núcleos por nó no total) e conectividade Infiniband 40Gbps.
Descrição HIVE[pic 17]
O Hive é um framework para soluções da Data Warehousing, executar no ambiente do Hadoop, construídas inicialmente pelo time de desenvolvimento do Facebook em 2007. Ele nasceu a partir da necessidade de gerenciar, analisar e aprender sobre o comportamento dos usuários a partir do imensos volume de dados gerado a cada dia no Facebook. A escolha pelo Hadoop foi incentivada pelo baixo custo, escalabilidade e evitar a dependência sobre custos de licenças e manutenção anual que são comuns nos bancos de dados do mercado.
Outro ponto também que levou ao desenvolvimento foi o baixo desempenho das soluções de mercado para realizar operações de Full Scan em grandes volumes de dados. O Hive foi criado também visando aproveitar os “skills” de uso do SQL dos analistas e desenvolvedores Facebook,que não eram na epoca tão proficientes em Java para usar o Mapreduce. Atualmente é um projeto da apache( http://hive.apache.org).
Como a finalidade principal do hive é analisar dados, o mesmo deve ser capaz de se integrar com soluções de business inteligence existentes no mercado.
Hive utiliza uma linguagem chamada HiveQl (Hive query language), que transforma as sentenças SQL em Jobs MapReduce executados no cluster Hadoop.
Os comandos existentes no SQL tais como create table, select, describe, drop table, etc existem no hive, mas temdiferenças tal como a clausula ROW FORMAT do create table. Para popular tabelas pode ser utilizado o comando LOAD DATA, que obtém a entrada de dados e carrega no warehouse do hive.
Podem ser utilizados agregadores como Max, SUM, Count, etc que necessitam da clausula GROUP BY, tal como no SQL.
...