ANÁLISE DE DADOS: POPULAÇÃO CARCERÁRIA BRASILEIRA PERFIL POR GÊNERO
Por: maximilion12 • 28/5/2018 • Artigo • 1.187 Palavras (5 Páginas) • 287 Visualizações
ANÁLISE DE DADOS: POPULAÇÃO CARCERÁRIA BRASILEIRA PERFIL POR GENERO.
Matheus Máximo Rodrigues Campos e Rodolfo Eliezer Soares.
Graduandos do Curso de Sistemas de Informação, Pontifícia Universidade Católica de Minas Gerais, PUC-MG.
- Objetivo
Com a população carcerária brasileira em aumento constante chegando a quarta maior do mundo em 2014, dado este tomado como motivador para este estudo, baseado no levantamento da população carcerária desenvolvido pelo Infopen, com análise em 2014, este artigo tem como objetivo realizar análise o perfil da população carcerária brasileira, afim de definir qual o padrão mais recorrente dentro desta base de dados.
- Referencial Teórico
A análise das grandes quantidades de dados armazenadas nas tabelas de dados disponibilizadas pela Infopen, visando encontrar informações não conhecidas, exige técnicas adequadas, sendo o KDD uma técnica que permite extrais estas informações. Podemos definir de forma geral estas tarefas como:
- Seleção;
- Pré-processamento;
- Transformação;
- Data-Mining;
- Interpretação/Avaliação.
[pic 1]
A imagem a cima mostra, de maneira sequencial, o processo para obtenção de informações, onde cada passo representa:
- Dados: armazenados em uma ou mais base(s) de dados, no nosso caso, tabelas de levantamento do Ifongen;
- Dados Selecionados: dos dados disponíveis será escolhido o conjunto que contenham informações relevantes para a questão.
- Dados processados: dados selecionados serão pré-processados, serão tratados, removendo qualquer informação discrepante possa contaminar nossa base
- Dados Transformados: depois de tratados, os dados serão transformados para adequá-los a ferramenta que se deseja utilizar, no nosso caso, o Power BI.
- Data-Mining: os dados aplicados aos algoritmos escolhidos na ferramenta irão resultar em padrões, que serão analisados de maneira recursiva.
-Conhecimento: analisando nossos padrões nos dados, podemos levantar informações a fim de solucionar a questões previamente estabelecidas.
- Descrição do Processo de Descoberta do Conhecimento
- Escopo Inicial
De posse da base de dados referente a população carcerária de 2014 de âmbito federal, entendeu-se que a abrangência dos dados era muito grande. A partir deste momento, muitas foram as mudanças no escopo.
A ideia inicial era de se trabalhar com todos os dados disponibilizados, porém como o processo para gerar informações sobre esses dados era muito demorado, visto que havia mais de 90 atributos relacionados, logo, esse passo foi descartado.
Posteriormente, a ideia foi alterada para se trabalhar somente com os atributos de Sexo, Faixas de Idade, Faixas de Escolaridade, Faixas de Instrução e Etnias. Porém o processo de levantamento de perfil para análise em arvore em arvore de decisão continuou não sendo viável.
Finalmente, decidiu-se trabalhar com estes registros, porém, realizando análise pelo Power BI, e aplicando a técnica de KDD, pudesse traçar um perfil e uma análise estatística deste perfil em tempo hábil.
- Análise do Negócio
O problema em questão, neste artigo, é o de se analisar os dados disponibilizados na base de dados, referente a população carcerária brasileira, para se verificar o padrão de maior incidência entre os presos em municípios brasileiros. - Base de Dados
A(s) base(s) de dado(s) foram encontradas nos seguintes links:
http://dados.mj.gov.br/dataset/infopen-levantamento-nacional-de-informacoes-penitenciarias/resource/5652dceb-d81a-402f-a5c8-e4d9175241f5
http://atlasbrasil.org.br/2013/
As bases de dados foram encontradas em fontes distintas, a ideai seria realizar a análise da população carcerária e relaciona-las aos dados do Atlas Brasil afim de correlacionar os dados sobre os municípios e seus dados sociais.
É importante salientar que os dados acima referem-se à base de dados completa, ou seja, todos os registros a nível nacional.
[pic 2]
- Gerando Modelo de Dados para Análise
Sobre o modelo de dados original, foi feita uma análise de todos os atributos, de acordo com o escopo do artigo e a pergunta que se pretende responder, muitos dados do modelo original eram desnecessários para o novo modelo. Deste modo foi gerado um novo modelo, desmembrando a tabela de dados da população carcerária em 5 novas tabelas, afim de relaciona-las e analisa-las, conforme modelo abaixo.
[pic 3] - Extração de Dados
A maneira encontrada para se poder cruzar dados e levantar informações sobre nossa base, foi realizada primeiramente a análise para seleção de quais atributos da base seriam utilizados para nossa análise. Uma vez selecionados os atributos, realizamos a varreduras dos campos para eliminar valores não usáveis, como campos nulos ou campos com valores que não fossem esperados (como textos em lugares de números), logo após esta etapa foi realizada uma quebra da base inicial bruta de dados em tabelas de características usáveis para que fossem feitas suas associações e assim realizarmos os filtros necessários para que seja adquirido alguma informação sobe aquela base.
...