O Data Mining
Por: Victor Hugo • 21/3/2021 • Projeto de pesquisa • 501 Palavras (3 Páginas) • 305 Visualizações
[pic 1]
DATA MINING
Pós-graduação em BigData
Prof. Alberto – abtavares@gmail.com
Tema do trabalho
O aplicativo Lá vem o Ônibus usa como fonte de dados, uma base temporal de informações disponibilizada pela própria prefeitura, que por sua vez recolhe (em uma periodicidade de 10 segundos) as informações a partir de leitura de aparelhos (com gps), localizados dentro de cada ônibus, que esteja em circulação. Podemos considerar que o app possui uma forte eficiência na execução de sua proposta, mas a experiência com esse aplicativo, indicou basicamente, dois problemas relevantes.
O primeiro problema refere-se ao que chamamos, áreas de sombras, no momento do recolhimento dos dados, o que pode provocar a ocorrência de geração de informação inadequada e incorreta para o usuário do aplicativo.
O segundo problema está na incapacidade do aplicativo em formular uma previsão em um determinado tempo no futuro, a posição geográfica de um determinado ônibus de uma determinada linha. A única previsão de que o aplicativo sugere é da previsão temporal de chegada do próximo ônibus em um determinado ponto de espera, usado pelos passageiros.
Sendo assim, de posse desses problemas, consolidar um dataset de pesquisa, como também a formulação de uma hipótese de solução para prever a posição do veículo, em função do tempo e do histórico das suas posições.
[pic 2] [pic 3]
Busca e obtenção do dataset
O dataset é público e encontra-se disponível no sítio http://dadosabertos.rio.rj.gov.br/apiTransporte/apresentacao/rest/index.cfm/obterTodasPosicoes
Construir uma base de dados, na linguagem R, com valores históricos de, no mínio 2 dias, com a finalidade de obter uma massa de dados suficiente e relevante
Os dados do sítio da prefeitura, são disponibilizados no formato Json onde será necessário, em tempo em tempos, dessa execução, armazenar os dados recolhidos em arquivos com formato csv.
Filtrar os dados, escolhendo apenas uma linha de ônibus, próxima ao seu domicílio.
Informações disponibilizadas:
- x: Posição da observação no dataset gerado, antes da execução do nosso filtro.
- datahora: Data e Hora da obtenção das informações dos equipamentos dos ônibus, com a máscara: DD-MM-YYYY HH24:MI:SS
- ordem: Alfanumérico, que basicamente define o identificação de um ônibus específico.
- linha: Numérico, que define o número da linha de ônibus.
- Latitude: Numérico, que define posição geográfica.
- Longitude: Numérico, que define posição geográfica.
- Velocidade: Numérico, que informa a velocidade em KM, no momento da captura dos dados.
Análise exploratória dos dados.
De posse dos arquivos no formato csv, construir um outro código em R, para a análise exploratória dos dados coletados.
- Estatística descritiva;
- Gráficos
Criar Modelo de previsão para as posições do ônibus:
...