A Estatística Aplicada ao Data Science
Por: osuzldor • 14/11/2024 • Trabalho acadêmico • 841 Palavras (4 Páginas) • 9 Visualizações
ESTATÍSTICA APLICADA AO DATA SCIENCE
Atividade 1
Nesta unidade você foi apresentado a um Breve Histórico sobre a Estatística Aplicada ao Data Science. Neste caso, tendo em vista o que você aprendeu, descreva este histórico.
Resposta:
“Estatística Aplicada ao Data Science” é o resultado da fusão da Estatística com a Ciência dos Dados. Cientistas da computação utilizam modelos e conceitos desenvolvidos pela estatística, da mesma forma que estatísticos utilizam algoritmos da ciência da computação, especialmente relacionados a aprendizado de máquina. O cientista de dados carrega os genes das duas profissões: um estatístico com viés de computação, e um cientista da computação com viés estatístico.
Historicamente, a estatística é bem mais antiga do que a ciência de dados. A estatística se desenvolveu como uma ciência sobretudo a partir do século XIX, amadurecendo ao longo da primeira metade do século XX. O surgimento dos primeiros computadores no final da primeira metade do século XX abriu espaço para o desenvolvimento da ciência de dados ao longo da segunda metade daquele século, fortemente dependente da estatística.
Descrevo a seguir um breve histórico das duas ciências.
O uso de conceitos estatísticos data de mais de 2.500 anos. De acordo com o College of Liberal Arts and Sciences UIOWA:
* Século V antes de Cristo: Atenienses estimaram a altura de escada necessária para escalar as paredes da Plateia multiplicando o número de tijolos pela altura de tijolo mais comum (a moda);
* Grécia Antiga: O conceito de média de dois números já era bem conhecido pelos gregos.
* 801-873: Al-Kindi escreveu sobre como utilizar análise de frequência para decifrar mensagens criptografadas;
* 1599: Edward Wright utilizou o conceito de mediana para determinação de uma localização com uso de bússola. O termo “mediana” foi introduzido por Galton em 1881.
* 1662: John Graunt estimou a população de Londres em 384 mil pessoas, utilizando registros do número de funerais por ano (13 mil), taxa de mortalidade (3 pessoas por cada 11 famílias por ano), e uma média de 8 pessoas por família;
* Início do século XVIII: Jacob Bernoulli e De Moivre deram importantes contribuições ao estudo de probabilidades;
* 1755: Thomas Simpson mostrou que o uso de médias reduz os desvios quadrados, e introduziu o conceito de funções de densidade de probabilidade. Algumas funções de densidade de probabilidade propostas: semicircular (Lambert 1765), exponencial (Laplace 1774), parabólica (Lagrange 1776), normal (Laplace 1778, embora ela só tenha recebido esse nome em 1873);
* 1805: Adrien Legendre introduziu o conceito de mínimos quadrados, que nas duas décadas seguintes se tornou padrão na astronomia;
* 1810: Laplace propôs o Teorema do Limite Central;
* Final do século XIX: Francis Galton introduziu os conceitos de regressão para a média e correlação; Francis Edgeworth foi o primeiro a comparar as médias de duas populações, precursor do “t test”; Karl Pearson introduziu conceitos como coeficiente de correlação de Pearson, P-value, Pearson’s chi-square test, e principal component analysis;
* 1911: surge um dos mais antigos departamentos de estatística em Universidade: University College, London (Karl Pearson’s department);
Neste ponto da história, a Estatística já era uma ciência madura. Nas quatro décadas seguintes, a tecnologia evoluiria permitindo o desenvolvimento, em 1946, do Eniac (Electronic Numerical Integrator and Computer), o primeiro computador eletrônico e digital automático: pesava 30 toneladas, empregava cerca de 18 mil válvulas e realizava 4.500 cálculos por segundo. O terreno estava preparado para o surgimento da Ciência dos Dados:
* 1957: Arthur Samuel introduziu o conceito de “aprendizado de máquina" associado ao programa “Samuel Checkers-Playing”;
* 1962: John Tukey escreveu o artigo “The Future of Data Analysis”, em que previa a fusão dos universos
...