Skip to content

Alej2andro/Proyecto-R-Regularizaci-n-Ridge-Lasso--Elastic-Net

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 

Repository files navigation

☀️ Predicción de Radiación Solar en Sector La Puntilla, Pichilemu

R RStudio Machine Learning


🎯 Resumen Ejecutivo

👉 Haz clic aquí para ver el análisis en formato HTML

Desarrollo de modelo predictivo que alcanza 96% de precisión (R²=0.96) en estimación de radiación solar utilizando 17 variables meteorológicas. El proyecto demuestra dominio completo del flujo de ciencia de datos: desde preprocesamiento riguroso hasta validación estadística exhaustiva.

📊 Resultados Clave

Métrica Valor Interpretación
R² Test 0.9604 Explica 96% de varianza en radiación solar
RMSE 0.19 Error promedio en escala estandarizada
Mejora vs Baseline +95.8 pp Reducción del 79.4% en error predictivo
Hiperparámetros Óptimos α=0.10, λ=0.000886 Balance entre selección y estabilidad

🔗 Visualiza el Proyecto Completo

El informe incluye:

  • 🗺️ Mapas interactivos con Leaflet
  • 📈 Visualizaciones avanzadas con ggplot2
  • 🔍 Análisis de correlaciones y distribuciones
  • ✅ Validación de supuestos estadísticos
  • 📊 Comparación exhaustiva de modelos

🛠️ Stack Tecnológico

# Lenguaje y Entorno
R 4.5.1 | RStudio | R Markdown

# Machine Learning
glmnet      # Ridge/Lasso/Elastic Net
caret       # Validación cruzada y tuning

# Manipulación de Datos
dplyr, tidyr, tibble

# Visualización
ggplot2, ggcorrplot, leaflet

# Diagnóstico Estadístico
lmtest      # Breusch-Pagan, Durbin-Watson
moments     # Asimetría, curtosis

📁 Estructura del Proyecto

📦 Proyecto-R-Regularización-Ridge-Lasso-Elastic-Net/
│
├── 📄 Proyecto1R.Rmd                    # Análisis completo en R Markdown
├── 📄 Proyecto1R.html                   # Informe interactivo generado
├── 📊 Meteorologia_sector_la_puntilla_pichilemu.csv  # Dataset NASA POWER
│
├── 📸 Visualizaciones/
│   ├── panel_climatico.png              # Correlaciones clave
│   ├── validacion_cruzada.png           # Curva MSE vs λ
│   ├── radar_top10_variables.png        # Importancia de features
│   └── diagnostico_residuos.png         # QQ-plot, histograma, boxplot
│
└── 📝 README.md                         # Este archivo

🚀 Metodología

1️⃣ Preprocesamiento Riguroso

  • ✅ Detección y conservación de 63 outliers meteorológicos extremos
  • ✅ Tratamiento de valores faltantes (-999 → NA)
  • ✅ Estandarización z-score para penalizaciones L1/L2

2️⃣ Modelado Predictivo

# Optimización de hiperparámetros
Grid Search: 11 valores de α × 100 valores de λ
Validación Cruzada: 10-fold CV
Criterio: λ_min (máxima precisión)

3️⃣ Comparación de Métodos

Se evaluaron tres métodos de regularización mediante validación cruzada 10-fold:

  • Ridge (L2): Estabiliza coeficientes sin eliminar variables
  • Lasso (L1): Realiza selección automática de features
  • Elastic Net (L1+L2): Combina ambas fortalezas

Modelo seleccionado: Elastic Net con α=0.10 y λ=0.000886

  • Supera a Ridge y Lasso en precisión predictiva
  • Retiene las 17 variables con coeficientes estables
  • Alcanza R²=0.9604 en conjunto de prueba

4️⃣ Validación Estadística

  • Normalidad: Shapiro-Wilk + Gráficas
  • Homocedasticidad: Test Breusch-Pagan (p=0.4144)
  • Independencia: Durbin-Watson + Ljung-Box (p=0.3524)

📈 Hallazgos Clave

🔥 Top 5 Variables Predictoras

Variable Ponderación Interpretación Física
** Temperatura máx 2 mts altura (°C)** 10.0 Respuesta térmica directa a radiación
Temperatura máx superficie (°C) 7.9 Energía absorbida por el suelo
Temperatura 2 mts altura (°C) 6.4 Estado térmico atmosférico
Temperatura húmeda 2 mts altura (°C) 4.9 Integra calor sensible + humedad
**Radiación directa normal en superficie (W/m²) ** 4.3 Componente sin dispersión atmosférica

🎯 Correlaciones Validadas Físicamente

Radiación solar descendente superficieTemperatura máx 2 mts altura :  r = 0.84  (R² = 71%)
Radiación SolarHumedad Relativa 2 mts altura : r = -0.84 (anticorrelación)

💡 Competencias Demostradas

🧠 Habilidades Técnicas

  • Machine Learning: Regularización L1/L2, optimización de hiperparámetros
  • Estadística Avanzada: Validación de supuestos, inferencia, pruebas de hipótesis
  • Programación en R: Código modular, reproducible y documentado
  • Visualización de Datos: Dashboards interactivos con Leaflet/ggplot2
  • Comunicación: Reportes ejecutivos y documentación técnica

🎓 Fundamentos Aplicados

TeoríaPráctica:
- Álgebra linealPenalizaciones matriciales (λI)
- CálculoDescenso de gradiente coordinado
- EstadísticaIntervalos de confianza, p-valores
- Física atmosféricaValidación de coherencia meteorológica

🎬 Cómo Reproducir el Análisis

📋 Requisitos Previos

# 1. Instalar R (≥ 4.0) y RStudio
# 2. Clonar repositorio
git clone https://github.com/Alej2andro/Proyecto-R-Regularizaci-n-Ridge-Lasso--Elastic-Net.git

# 3. Instalar dependencias
install.packages(c("glmnet", "caret", "ggplot2", "dplyr", "leaflet", "lmtest"))

▶️ Ejecución

# Opción 1: Abrir en RStudio
# Archivo → Abrir → Proyecto1R.Rmd → Knit to HTML

# Opción 2: Línea de comandos
rmarkdown::render("Proyecto1R.Rmd")

📚 Referencias Técnicas

  • Hastie, T., Tibshirani, R., & Friedman, J. (2009) - The Elements of Statistical Learning (Fundamentos de regularización)
  • Friedman et al. (2010) - Paquete glmnet para R
  • Gujarati, D. N. & Porter, D. C. (2010) - Econometría (Diagnóstico de supuestos)
  • NASA POWER Project - Datos satelitales MERRA-2 (https://power.larc.nasa.gov/)

👨‍💼 Sobre el Autor

Alejandro Figueroa Rojas
Analista de Datos | Ingeniero Comercial

📧 contacto.alejandro.figueroa.rojas@gmail.com
🔗 LinkedIn
📂 GitHub

🎯 ¿Por qué este proyecto?

Este análisis demuestra:

  1. Rigor metodológico en cada fase del pipeline de datos
  2. Pensamiento crítico al conservar outliers meteorológicos reales
  3. Transparencia científica al documentar limitaciones (resolución satelital ~50km)
  4. Equilibrio entre profundidad técnica y comunicación clara

📝 Licencia

Este proyecto es de código abierto bajo licencia MIT. Se invita a la comunidad a replicar, validar y mejorar el análisis.


⭐ ¿Te resultó útil?

Si este proyecto te pareció valioso:

  • 🌟 Dale una estrella al repositorio
  • 🔄 Comparte con colegas interesados en ciencia de datos
  • 💬 Abre un issue para sugerencias o colaboraciones

Construido con ❤️ usando R, pasión por los datos y café ☕

Ver Análisis Completo | Reportar Issue | Contactar

About

Este proyecto desarrolla un modelo predictivo de radiación solar para el sector de La Puntilla, Pichilemu, utilizando técnicas avanzadas de Aprendizaje Supervisado (Machine Learning) en el lenguaje R.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages