Este projeto tem como objetivo prever a inadimplência de clientes com base em dados de aplicação para crédito e histórico de pagamentos. Usamos algoritmos de machine learning supervisionado para construir modelos preditivos que classificam os clientes como bons ou maus pagadores.
Foram utilizados dois arquivos públicos:
application_record.csv: Contém dados pessoais e socioeconômicos dos clientes.credit_record.csv: Contém o histórico de pagamentos dos clientes com status mensal de crédito.
- Remoção de colunas com muitos valores ausentes (
OCCUPATION_TYPE); - Eliminação de duplicatas;
- Conversão de variáveis categóricas para numéricas com
LabelEncoder.
- Visualização da distribuição da renda total;
- Verificação de desequilíbrio das classes.
- Junção dos datasets via
ID; - Criação da variável target (
STATUS: 0 = bom pagador, 1 = mau pagador); - Normalização com
MinMaxScaler.
- Uso do
SMOTEpara gerar dados sintéticos da classe minoritária.
-
Modelos utilizados:
GradientBoostingClassifierDecisionTreeClassifierVotingClassifier
-
Treinamento e avaliação com matriz de confusão e acurácia.
- Importância das variáveis no modelo de Gradient Boosting;
- Visualização da árvore de decisão.
| Modelo | Acurácia (exemplo) | Vantagens |
|---|---|---|
| Gradient Boosting | 93%+ | Alta performance e robustez |
| Decision Tree (profunda) | 87%+ | Interpretação visual fácil |
Os valores exatos de acurácia podem variar conforme o split do dataset.
- Histograma da renda dos clientes;
- Matriz de confusão para avaliação de modelos;
- Gráfico de importância das variáveis;
- Árvore de decisão plotada com critérios de divisão.
- Validação do Modelo de confusão com ML
- Matriz de confusão para análise final
- Clone o repositório:
git clone https://github.com/lucasgrezzi/ProjCredito
cd ProjCredito




