Skip to content

rivalent/TelecomX-Parte2

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Análise Preditiva de Evasão de Clientes – Relatório Técnico

1. Objetivo da Análise

O propósito principal deste projeto de análise de dados é prever a evasão (churn) de clientes com base em seus dados de serviço e perfil.
O objetivo é identificar os clientes com maior probabilidade de cancelar seus serviços, permitindo à empresa implementar estratégias de retenção proativas e direcionadas.


2. Estrutura e Organização do Projeto

Este projeto é conduzido em um ambiente Jupyter Notebook, seguindo uma pipeline de análise de dados que inclui:

  • ETL (Extração, Transformação e Carga): O arquivo ETL.ipynb foi utilizado para processar os dados brutos de um arquivo JSON.
  • Dados Tratados: O resultado do processo de ETL, o arquivo dados_telecom_tratados.csv, é a base para a análise preditiva.
  • Análise Exploratória e Modelagem: O código para análise exploratória de dados (EDA) e a criação dos modelos preditivos são realizados sequencialmente.

3. Processo de Preparação dos Dados

A preparação dos dados foi uma etapa fundamental para garantir a qualidade do modelo. Etapas executadas:

  • Limpeza e Tratamento:
    • Remoção da coluna ID_Cliente (sem valor preditivo).
    • Remoção de Custo_Diario (derivada de Custo_Mensal e causaria multicolinearidade).
  • Codificação de Variáveis Categóricas:
    Aplicado One-Hot Encoding para variáveis como Contrato, Metodo_Pagamento, etc.
  • Balanceamento de Classes:
    • Proporção inicial: 26% evasão vs. 74% permanência.
    • Utilizado SMOTE para criar exemplos sintéticos da classe minoritária, resultando em dados balanceados.
  • Separação de Conjuntos:
    • 80% treino (X_train, y_train)
    • 20% teste (X_test, y_test)
    • Com estratificação para manter a proporção de evasão.

4. Modelagem e Escolha dos Algoritmos

Dois modelos de machine learning foram selecionados:

  1. Regressão Logística

    • Modelo linear sensível à escala dos dados.
    • Utilizou StandardScaler para padronizar.
    • Escolha inicial pela interpretabilidade.
  2. Random Forest

    • Baseado em árvores de decisão.
    • Não exige padronização.
    • Captura relações não lineares complexas.

5. Análise Exploratória de Dados (EDA) e Insights

Principais descobertas:

  • Relação com o Tempo de Serviço:
    Clientes que evadem tendem a ter tempo de serviço curto.
    Boxplot de Meses_Servico mostrou mediana menor nos evadidos.

  • Impacto do Tipo de Contrato:
    Contratos mensais têm maior taxa de evasão do que anuais/bianuais.

  • Relação com Custo:
    Clientes com baixo Custo_Total e poucos meses de serviço são mais propensos à evasão.


6. Fatores Relevantes para a Evasão

Identificados via importância de variáveis (Random Forest) e correlação:

  • Tipo de Contrato: Mais relevante; mensal → maior probabilidade de evasão.
  • Tempo de Serviço (Meses_Servico): Negativamente correlacionado; clientes antigos são mais leais.
  • Serviço de Internet: Fibra óptica → mais propensos a evadir; ausência de internet → forte indicador de permanência.
  • Método de Pagamento: Cheque eletrônico → maior probabilidade de evasão; pagamentos automáticos → menor evasão.

7. Estratégias de Retenção

Sugestões com base nos insights:

  • Plano de Fidelização para Contrato Mensal: Descontos ou upgrades para migração para contratos longos.
  • Campanhas para Clientes Recentes: Suporte mais próximo e benefícios adicionais.
  • Melhoria no Serviço de Fibra Óptica: Pesquisas de satisfação e resolução de reclamações.
  • Incentivar Pagamentos Automáticos: Benefícios para clientes que aderirem.

8. Instruções para Executar o Notebook

Instalar Bibliotecas

pip install pandas numpy scikit-learn matplotlib seaborn imblearn

Carregar os Dados

Certifique-se de que dados_telecom_tratados.csv está no diretório correto e rode:

import pandas as pd
df_telecom = pd.read_csv('dados_tratados/dados_telecom_tratados.csv')

Executar

Rode as células do notebook sequencialmente para replicar todas as etapas.

About

Nesse repositório eu faço uma análise para prever a probabilidade de evasão (churn) dos clientes da empresa TelecomX.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors