Skip to content

Latest commit

 

History

History
226 lines (164 loc) · 7.91 KB

File metadata and controls

226 lines (164 loc) · 7.91 KB

☀️ Predicción de Radiación Solar en Sector La Puntilla, Pichilemu

R RStudio Machine Learning


🎯 Resumen Ejecutivo

👉 Haz clic aquí para ver el análisis en formato HTML

Desarrollo de modelo predictivo que alcanza 96% de precisión (R²=0.96) en estimación de radiación solar utilizando 17 variables meteorológicas. El proyecto demuestra dominio completo del flujo de ciencia de datos: desde preprocesamiento riguroso hasta validación estadística exhaustiva.

📊 Resultados Clave

Métrica Valor Interpretación
R² Test 0.9604 Explica 96% de varianza en radiación solar
RMSE 0.19 Error promedio en escala estandarizada
Mejora vs Baseline +95.8 pp Reducción del 79.4% en error predictivo
Hiperparámetros Óptimos α=0.10, λ=0.000886 Balance entre selección y estabilidad

🔗 Visualiza el Proyecto Completo

El informe incluye:

  • 🗺️ Mapas interactivos con Leaflet
  • 📈 Visualizaciones avanzadas con ggplot2
  • 🔍 Análisis de correlaciones y distribuciones
  • ✅ Validación de supuestos estadísticos
  • 📊 Comparación exhaustiva de modelos

🛠️ Stack Tecnológico

# Lenguaje y Entorno
R 4.5.1 | RStudio | R Markdown

# Machine Learning
glmnet      # Ridge/Lasso/Elastic Net
caret       # Validación cruzada y tuning

# Manipulación de Datos
dplyr, tidyr, tibble

# Visualización
ggplot2, ggcorrplot, leaflet

# Diagnóstico Estadístico
lmtest      # Breusch-Pagan, Durbin-Watson
moments     # Asimetría, curtosis

📁 Estructura del Proyecto

📦 Proyecto-R-Regularización-Ridge-Lasso-Elastic-Net/
│
├── 📄 Proyecto1R.Rmd                    # Análisis completo en R Markdown
├── 📄 Proyecto1R.html                   # Informe interactivo generado
├── 📊 Meteorologia_sector_la_puntilla_pichilemu.csv  # Dataset NASA POWER
│
├── 📸 Visualizaciones/
│   ├── panel_climatico.png              # Correlaciones clave
│   ├── validacion_cruzada.png           # Curva MSE vs λ
│   ├── radar_top10_variables.png        # Importancia de features
│   └── diagnostico_residuos.png         # QQ-plot, histograma, boxplot
│
└── 📝 README.md                         # Este archivo

🚀 Metodología

1️⃣ Preprocesamiento Riguroso

  • ✅ Detección y conservación de 63 outliers meteorológicos extremos
  • ✅ Tratamiento de valores faltantes (-999 → NA)
  • ✅ Estandarización z-score para penalizaciones L1/L2

2️⃣ Modelado Predictivo

# Optimización de hiperparámetros
Grid Search: 11 valores de α × 100 valores de λ
Validación Cruzada: 10-fold CV
Criterio: λ_min (máxima precisión)

3️⃣ Comparación de Métodos

Se evaluaron tres métodos de regularización mediante validación cruzada 10-fold:

  • Ridge (L2): Estabiliza coeficientes sin eliminar variables
  • Lasso (L1): Realiza selección automática de features
  • Elastic Net (L1+L2): Combina ambas fortalezas

Modelo seleccionado: Elastic Net con α=0.10 y λ=0.000886

  • Supera a Ridge y Lasso en precisión predictiva
  • Retiene las 17 variables con coeficientes estables
  • Alcanza R²=0.9604 en conjunto de prueba

4️⃣ Validación Estadística

  • Normalidad: Shapiro-Wilk + Gráficas
  • Homocedasticidad: Test Breusch-Pagan (p=0.4144)
  • Independencia: Durbin-Watson + Ljung-Box (p=0.3524)

📈 Hallazgos Clave

🔥 Top 5 Variables Predictoras

Variable Ponderación Interpretación Física
** Temperatura máx 2 mts altura (°C)** 10.0 Respuesta térmica directa a radiación
Temperatura máx superficie (°C) 7.9 Energía absorbida por el suelo
Temperatura 2 mts altura (°C) 6.4 Estado térmico atmosférico
Temperatura húmeda 2 mts altura (°C) 4.9 Integra calor sensible + humedad
**Radiación directa normal en superficie (W/m²) ** 4.3 Componente sin dispersión atmosférica

🎯 Correlaciones Validadas Físicamente

Radiación solar descendente superficieTemperatura máx 2 mts altura :  r = 0.84  (R² = 71%)
Radiación SolarHumedad Relativa 2 mts altura : r = -0.84 (anticorrelación)

💡 Competencias Demostradas

🧠 Habilidades Técnicas

  • Machine Learning: Regularización L1/L2, optimización de hiperparámetros
  • Estadística Avanzada: Validación de supuestos, inferencia, pruebas de hipótesis
  • Programación en R: Código modular, reproducible y documentado
  • Visualización de Datos: Dashboards interactivos con Leaflet/ggplot2
  • Comunicación: Reportes ejecutivos y documentación técnica

🎓 Fundamentos Aplicados

TeoríaPráctica:
- Álgebra linealPenalizaciones matriciales (λI)
- CálculoDescenso de gradiente coordinado
- EstadísticaIntervalos de confianza, p-valores
- Física atmosféricaValidación de coherencia meteorológica

🎬 Cómo Reproducir el Análisis

📋 Requisitos Previos

# 1. Instalar R (≥ 4.0) y RStudio
# 2. Clonar repositorio
git clone https://github.com/Alej2andro/Proyecto-R-Regularizaci-n-Ridge-Lasso--Elastic-Net.git

# 3. Instalar dependencias
install.packages(c("glmnet", "caret", "ggplot2", "dplyr", "leaflet", "lmtest"))

▶️ Ejecución

# Opción 1: Abrir en RStudio
# Archivo → Abrir → Proyecto1R.Rmd → Knit to HTML

# Opción 2: Línea de comandos
rmarkdown::render("Proyecto1R.Rmd")

📚 Referencias Técnicas

  • Hastie, T., Tibshirani, R., & Friedman, J. (2009) - The Elements of Statistical Learning (Fundamentos de regularización)
  • Friedman et al. (2010) - Paquete glmnet para R
  • Gujarati, D. N. & Porter, D. C. (2010) - Econometría (Diagnóstico de supuestos)
  • NASA POWER Project - Datos satelitales MERRA-2 (https://power.larc.nasa.gov/)

👨‍💼 Sobre el Autor

Alejandro Figueroa Rojas
Analista de Datos | Ingeniero Comercial

📧 contacto.alejandro.figueroa.rojas@gmail.com
🔗 LinkedIn
📂 GitHub

🎯 ¿Por qué este proyecto?

Este análisis demuestra:

  1. Rigor metodológico en cada fase del pipeline de datos
  2. Pensamiento crítico al conservar outliers meteorológicos reales
  3. Transparencia científica al documentar limitaciones (resolución satelital ~50km)
  4. Equilibrio entre profundidad técnica y comunicación clara

📝 Licencia

Este proyecto es de código abierto bajo licencia MIT. Se invita a la comunidad a replicar, validar y mejorar el análisis.


⭐ ¿Te resultó útil?

Si este proyecto te pareció valioso:

  • 🌟 Dale una estrella al repositorio
  • 🔄 Comparte con colegas interesados en ciencia de datos
  • 💬 Abre un issue para sugerencias o colaboraciones

Construido con ❤️ usando R, pasión por los datos y café ☕

Ver Análisis Completo | Reportar Issue | Contactar