Pergunta Sobre "Sobre acessibilidade, é CORRETO afirmar:"
Por: Bruno Ariel • 29/8/2021 • Artigo • 533 Palavras (3 Páginas) • 192 Visualizações
Transformação de Dados
- Data Preparation for Data Mining
Livro de preparação de dados
Ele diz que realmente por mais que o Machine Learning é uma linguagem complicada e controlar todo o cenário, o resultado do Data Mining são impactados pelos dados, pelo formato dos dados.
Importante relembrar a questão das transformação dos dados, porém mais focada ao Machine Learning.
Exemplo famoso do Keggle, Titanic.
A ideia é para aprendizado supervisionado.
O atributo principal é survival. Verificar qual o atributo principal.
Fazer uma análise dos dados.
Validar a questão dos campos, dos shapes, dos tipos de dados, descrição dos dados (qual o registro e o tipo que ele detectou)
Verificar a codificação dos dados.
Categórico costuma colocar objetc.
Problema de um atributo ser número e não categórico, o algoritmo pode fazer operação em cima dos valores do atributo. Pode ser considerado um atributo intervalar, ele vai querer medir uma distância entre os dois valores.
Utilizar o describe para exibir as informações do dataset carregado de forma detalhado.
Iremos trabalhar em cima de DataFrames
.info gera um resumo dos dados
.describe gera uma estatística descritiva dos dados
Iremos filtrar os dados de acordo com o tipo da coluna.
Pegar as colunas que são só objetcs
Exibir os dados categóricos.
Verificar os dados omissos
Verificar se os dados estão balanceados
- Remover atributo irrelevantes
- Transformação das variáveis
Criando uma nova coluna
Pegando só a letra da cabine
- Valores omissos ou inconsistentes
- Substituir por zero, media e outras valores correspondentes.
Gerar um histograma
Distribuição simétrica
Necessário para saber por qual valor substituir valores faltantes, inconsistentes ou omissos
- Detectar os outliers
Detectar o outlier
Verificar a necessidade da remoção dos dados
- Criando nos atributos
- Criado um atributo Family para somar todos que são da família
- Utilizar o coeficiente da relação de Pearson
- Reduzir dimensão dos dados removendo valores muito correlacionados
-
- Modelo ético para avaliação https://github.com/Trusted-AI/AIF360/tree/master/examples
-
...