Proyecto de análisis de datos desarrollado para Telecom X con el objetivo de identificar los factores que llevan a los clientes a cancelar sus servicios, como insumo para el desarrollo de modelos predictivos y estrategias de retención.
📦 TelecomX-Churn
┣ 📁 Data/
┃ ┣ 📄 TelecomX_Data.json # Dataset original (7.267 registros, estructura anidada)
┃ ┗ 📄 TelecomX_clean.csv # Dataset limpio exportado (generado al ejecutar el notebook)
┣ 📓 TelecomX_LATAM.ipynb # Notebook principal con el análisis completo
┣ 📁 Img/
┃ ┗ 📄 Badge.png # Insignia del proyecto
┣ 📄 LICENSE # Licencia del proyecto (CC BY-NC-SA 4.0)
┗ 📄 README.md # Este archivo
Comprender qué factores están asociados a la cancelación de servicios en Telecom X, mediante un proceso completo de ETL + EDA, para que el equipo de Data Science pueda avanzar en modelos predictivos.
- Carga del archivo
TelecomX_Data.json(estructura JSON anidada con 4 sub-objetos por cliente:customer,phone,internet,account) - Aplanado de la estructura con
pd.json_normalize
- Renombrado y aplanado de columnas anidadas
- Corrección de tipos:
TotalChargesafloat,SeniorCitizende0/1aNo/Yes - Limpieza de valores vacíos en la variable objetivo
Churn - Imputación de nulos en
TotalChargescon la mediana - Estandarización:
No internet service/No phone service→No - Feature engineering:
TotalServices— número total de servicios contratados por clienteTenureGroup— segmento de antigüedad (0-12, 13-24, 25-48, 49-72 meses)Churn_num— variable objetivo numérica para correlaciones
| # | Visualización |
|---|---|
| 1 | Distribución global de Churn (barras + pie) |
| 2 | Variables demográficas vs Churn |
| 3 | Tipo de contrato y método de pago vs Churn |
| 4 | Servicios de internet y add-ons vs Churn |
| 5 | Histogramas de tenure, cargos mensuales y totales |
| 6 | Churn por segmento de antigüedad |
| 7 | Tasa de churn según número de servicios contratados |
| 8 | Boxplots de cargos por tipo de contrato |
| 9 | Mapa de calor de correlaciones |
Conclusiones, tabla de recomendaciones estratégicas y próximos pasos — incluidos en la última sección del notebook.
- Tasa de churn global: ~26–27% sobre 7.267 clientes
- El tipo de contrato es el predictor más fuerte: mes a mes tiene ~42–45% de churn vs ~3% en contratos bianuales
- Los clientes nuevos (0–12 meses) son el segmento de mayor riesgo
- El cheque electrónico como método de pago se asocia con la mayor tasa de churn (~45%)
- La ausencia de
OnlineSecurityyTechSupportaumenta significativamente el riesgo de churn - Clientes con fibra óptica tienen mayor churn que los de DSL, posiblemente por insatisfacción con el precio-valor
| Librería | Uso |
|---|---|
pandas |
Manipulación y transformación de datos |
numpy |
Operaciones numéricas |
matplotlib |
Visualizaciones base |
seaborn |
Visualizaciones estadísticas |
json |
Carga y parseo del dataset |
- Clonar el repositorio o subir los archivos a Google Colab
- Asegurarse de que
Data/TelecomX_Data.jsonesté disponible en la ruta correcta - Ejecutar las celdas en orden (Menú → Runtime > Run all)
- El dataset limpio se exportará automáticamente como
Data/TelecomX_clean.csv
Nota: Para usar en Colab desde URL, descomentar la Opción B en la celda de extracción y actualizar el enlace raw del repositorio.
Proyecto desarrollado como parte del programa de formación en Data Science — Alura LATAM.
