👉 Haz clic aquí para ver el análisis en formato HTML
Desarrollo de modelo predictivo que alcanza 96% de precisión (R²=0.96) en estimación de radiación solar utilizando 17 variables meteorológicas. El proyecto demuestra dominio completo del flujo de ciencia de datos: desde preprocesamiento riguroso hasta validación estadística exhaustiva.
| Métrica | Valor | Interpretación |
|---|---|---|
| R² Test | 0.9604 | Explica 96% de varianza en radiación solar |
| RMSE | 0.19 | Error promedio en escala estandarizada |
| Mejora vs Baseline | +95.8 pp | Reducción del 79.4% en error predictivo |
| Hiperparámetros Óptimos | α=0.10, λ=0.000886 | Balance entre selección y estabilidad |
El informe incluye:
- 🗺️ Mapas interactivos con Leaflet
- 📈 Visualizaciones avanzadas con ggplot2
- 🔍 Análisis de correlaciones y distribuciones
- ✅ Validación de supuestos estadísticos
- 📊 Comparación exhaustiva de modelos
# Lenguaje y Entorno
R 4.5.1 | RStudio | R Markdown
# Machine Learning
glmnet # Ridge/Lasso/Elastic Net
caret # Validación cruzada y tuning
# Manipulación de Datos
dplyr, tidyr, tibble
# Visualización
ggplot2, ggcorrplot, leaflet
# Diagnóstico Estadístico
lmtest # Breusch-Pagan, Durbin-Watson
moments # Asimetría, curtosis📦 Proyecto-R-Regularización-Ridge-Lasso-Elastic-Net/
│
├── 📄 Proyecto1R.Rmd # Análisis completo en R Markdown
├── 📄 Proyecto1R.html # Informe interactivo generado
├── 📊 Meteorologia_sector_la_puntilla_pichilemu.csv # Dataset NASA POWER
│
├── 📸 Visualizaciones/
│ ├── panel_climatico.png # Correlaciones clave
│ ├── validacion_cruzada.png # Curva MSE vs λ
│ ├── radar_top10_variables.png # Importancia de features
│ └── diagnostico_residuos.png # QQ-plot, histograma, boxplot
│
└── 📝 README.md # Este archivo
- ✅ Detección y conservación de 63 outliers meteorológicos extremos
- ✅ Tratamiento de valores faltantes (-999 → NA)
- ✅ Estandarización z-score para penalizaciones L1/L2
# Optimización de hiperparámetros
Grid Search: 11 valores de α × 100 valores de λ
Validación Cruzada: 10-fold CV
Criterio: λ_min (máxima precisión)Se evaluaron tres métodos de regularización mediante validación cruzada 10-fold:
- Ridge (L2): Estabiliza coeficientes sin eliminar variables
- Lasso (L1): Realiza selección automática de features
- Elastic Net (L1+L2): Combina ambas fortalezas
Modelo seleccionado: Elastic Net con α=0.10 y λ=0.000886
- Supera a Ridge y Lasso en precisión predictiva
- Retiene las 17 variables con coeficientes estables
- Alcanza R²=0.9604 en conjunto de prueba
- ✅ Normalidad: Shapiro-Wilk + Gráficas
- ✅ Homocedasticidad: Test Breusch-Pagan (p=0.4144)
- ✅ Independencia: Durbin-Watson + Ljung-Box (p=0.3524)
| Variable | Ponderación | Interpretación Física |
|---|---|---|
| ** Temperatura máx 2 mts altura (°C)** | 10.0 | Respuesta térmica directa a radiación |
| Temperatura máx superficie (°C) | 7.9 | Energía absorbida por el suelo |
| Temperatura 2 mts altura (°C) | 6.4 | Estado térmico atmosférico |
| Temperatura húmeda 2 mts altura (°C) | 4.9 | Integra calor sensible + humedad |
| **Radiación directa normal en superficie (W/m²) ** | 4.3 | Componente sin dispersión atmosférica |
Radiación solar descendente superficie ↔ Temperatura máx 2 mts altura : r = 0.84 (R² = 71%)
Radiación Solar ↔ Humedad Relativa 2 mts altura : r = -0.84 (anticorrelación)- Machine Learning: Regularización L1/L2, optimización de hiperparámetros
- Estadística Avanzada: Validación de supuestos, inferencia, pruebas de hipótesis
- Programación en R: Código modular, reproducible y documentado
- Visualización de Datos: Dashboards interactivos con Leaflet/ggplot2
- Comunicación: Reportes ejecutivos y documentación técnica
Teoría ↔ Práctica:
- Álgebra lineal → Penalizaciones matriciales (λI)
- Cálculo → Descenso de gradiente coordinado
- Estadística → Intervalos de confianza, p-valores
- Física atmosférica → Validación de coherencia meteorológica# 1. Instalar R (≥ 4.0) y RStudio
# 2. Clonar repositorio
git clone https://github.com/Alej2andro/Proyecto-R-Regularizaci-n-Ridge-Lasso--Elastic-Net.git
# 3. Instalar dependencias
install.packages(c("glmnet", "caret", "ggplot2", "dplyr", "leaflet", "lmtest"))# Opción 1: Abrir en RStudio
# Archivo → Abrir → Proyecto1R.Rmd → Knit to HTML
# Opción 2: Línea de comandos
rmarkdown::render("Proyecto1R.Rmd")- Hastie, T., Tibshirani, R., & Friedman, J. (2009) - The Elements of Statistical Learning (Fundamentos de regularización)
- Friedman et al. (2010) - Paquete
glmnetpara R - Gujarati, D. N. & Porter, D. C. (2010) - Econometría (Diagnóstico de supuestos)
- NASA POWER Project - Datos satelitales MERRA-2 (https://power.larc.nasa.gov/)
Alejandro Figueroa Rojas
Analista de Datos | Ingeniero Comercial
📧 contacto.alejandro.figueroa.rojas@gmail.com
🔗 LinkedIn
📂 GitHub
Este análisis demuestra:
- Rigor metodológico en cada fase del pipeline de datos
- Pensamiento crítico al conservar outliers meteorológicos reales
- Transparencia científica al documentar limitaciones (resolución satelital ~50km)
- Equilibrio entre profundidad técnica y comunicación clara
Este proyecto es de código abierto bajo licencia MIT. Se invita a la comunidad a replicar, validar y mejorar el análisis.
Si este proyecto te pareció valioso:
- 🌟 Dale una estrella al repositorio
- 🔄 Comparte con colegas interesados en ciencia de datos
- 💬 Abre un issue para sugerencias o colaboraciones
Construido con ❤️ usando R, pasión por los datos y café ☕