MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS
Por: João Batista • 29/4/2020 • Trabalho acadêmico • 907 Palavras (4 Páginas) • 245 Visualizações
[pic 1]
[pic 2]
UNIVERSIDADE ESTÁCIO DE SÁ
MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS
Tecnologias que utilizam BIG DATA
João Batista
Trabalho da disciplina Prática e Laboratório I
Tutor: José Luiz dos Anjos Rosa
Fortaleza
2019
[pic 3]
Prática e Laboratório I
Apache Pig, Apache Spark, Hbase Hadoop
Apache Pig
É uma abstração do MapReduce. Podemos realizar todas as operações de manipulação de dados no Hadoop usando o Apache Pig. A propriedade mais importante do Pig é a paralelização, sua estrutura foi totalmente pensada para trabalhar com isso, o que por sua vez, permite a manipulação de conjuntos de dados muito grandes. Ele trabalha com dados de várias fontes, incluindo dados estruturados e não estruturados, armazenando os resultados no Hadoop Data File System.
exemplo de execução de um script PIG:
Após criar um arquivo-texto, enviei-o para máquina virtual através do FTP.
/trabalho/exemplos/pig.txt
Script pig.txt:
Marilia Fonseca 85995267847 Fortaleza Engenheiro
Larissa Braga 84986372663 Natal Palestrante
Carlos Marques 31993728746 Maceio Investidor
Claudia Duarte 51998274923 Porto Alegre Engenheira
Maria Andrade 71986320865 Salvador Professora
Criei o arquivo /trabalho/exemplos/script01.pig:
A = LOAD '/trabalho/exemplos/pig.txt' using PigStorage (' ') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray);
B = FOREACH A generate FName, LName, MobileNo, Profession;
DUMP B;
Após isso rodei o script:
pig /trabalho/exemplos/script01.pig
O Script foi executado sem especificar nada, o retorno foi:
Marilia Fonseca 85995267847 Fortaleza Engenheiro
Larissa Braga 84986372663 Natal Palestrante
Carlos Marques 31993728746 Maceio Investidor
Claudia Duarte 51998274923 Porto Alegre Engenheira
Maria Andrade 71986320865 Salvador Professora
Apache Spark
Tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribuída. O Spark tem diversos componentes para diferentes tipos de processamentos, todos construídos sobre o Spark Core, que é o componente que disponibiliza as funções básicas para o processamento como as funções map, reduce, filter e collect.
Para o Spark usar um exemplo de contagem de palavras usando comandos de shell. O texto a seguir é os dados de entrada e o arquivo nomeado é spark.txt no caminho /trabalho/exemplos/
Spark.txt
people are not as beautiful as they look, as they walk or as they talk. they are only as beautiful as they love, as they care as they share.
Programa SparkWordCount.scala:
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark._
object SparkWordCount {
def main(args: Array[String]) {
...