Relatório Do Projeto De Ciência De Dados
Por: Lekhodias • 6/6/2024 • Artigo • 574 Palavras (3 Páginas) • 117 Visualizações
RELATÓRIO DO PROJETO DE CIÊNCIA DE DADOS
Aluno: Leonardo Luca Dias de Mendonça
RA: 21753030
Objetivo
Criar um modelo de ciência de dados empregando técnicas como Algoritmo Genético, Lógica Fuzzy, Redes Neurais, Deep Learning, Árvore de Decisão, entre outras, para prever o valor mensal gasto no cartão de crédito por novos clientes.
Contexto
A empresa de cartões de crédito enfrentou uma queda nas vendas de novos cartões devido à pandemia. Com a dificuldade em vender cartões pelo método tradicional, a equipe de marketing decidiu adquirir uma base de novos clientes de uma empresa de empréstimos. O objetivo é avaliar a base atual de clientes e criar modelos que identifiquem o perfil do cliente que utiliza cartões de crédito, além de prever o possível valor gasto por cada novo cliente.
Dados Levantados
Os dados fornecidos incluem as seguintes variáveis:
ID: Número único do cliente na base;
Renda: Valor da renda anual do cliente (Valor dividido por R$ 10.000);
Limite: Limite de crédito estabelecido para o cliente;
Rating: Índice de qualidade do empréstimo para os clientes (quanto maior o rating melhor pagador é o cliente);
Cartões: Quantidade de cartões que o cliente possui;
Idade: Idade do cliente;
Educação: Número de anos de estudo do cliente;
Sexo: Masculino ou Feminino;
Estudante: Se o cliente estuda ou não;
Casado: Se o cliente é casado ou não;
Etnia: Qual é a etnia do cliente; e
Gasto Mensal: Valor gasto com o cartão mensalmente.
Metodologia
1. Preparação dos Dados
Importação e Visualização Inicial dos Dados:
Leitura dos dados do arquivo CCARDBALANCE.xlsx. Visualização e análise descritiva inicial para entender a distribuição e correlações entre as variáveis.
Visualizar as primeiras linhas do dataset: print(data.head())
Verificar informações básicas e valores ausentes: print(data.info()) print(data.describe())
2. Transformação das Variáveis Categóricas
As variáveis categóricas foram transformadas em numéricas utilizando mapeamentos e codificação one-hot.
3. Tratamento de Valores Ausentes
Os valores ausentes foram preenchidos com a mediana das respectivas colunas.
4. Separação dos Dados
Os dados foram separados em variáveis independentes (X) e dependente (y), e divididos em conjuntos de treinamento e teste.
5. Treinamento do Modelo
O modelo de Árvore de Decisão foi treinado com os dados de treinamento.
6. Avaliação do Modelo
O modelo foi avaliado utilizando o conjunto de teste, e a métrica de erro absoluto médio (MAE) foi calculada.
Resultados
O erro absoluto médio (MAE) obtido foi de aproximadamente 96,48.
A importância das features foi visualizada para entender quais variáveis mais influenciam o modelo.
Conclusão
O modelo utilizado foi o de Árvore de Decisão, que conseguiu prever o gasto mensal dos clientes com um erro absoluto médio de 96,48. A análise da importância das variáveis indicou que fatores como Renda, Limite de Crédito e Rating têm grande influência na previsão do gasto mensal. Para futuras melhorias, é recomendável ajustar os parâmetros do modelo e experimentar com outros algoritmos de regressão para potencialmente aumentar a precisão das previsões.
ANEXO
...