extractor - email2trip

Extracción de campos relevantes de reservas de viajes

Estructura

core: pipeline de extracción que recibe un .EML y retorna los campos relevantes (Stanford NLP)
server: aplicación web que permite arrastrar un .EML, dispara el pipeline de core y permite ver los resultados (Spring Boot + Spring Security)
client: frontend web estático (Thymeleaf)
enricher: repositorios de CSV en memoria para obtener más información a partir de un código de aeropuerto o de aerolínea
recommender: recomendador de POIs para las ciudades destino del itinerario, usando un LLM local (Spring AI + Ollama + gemma4) Por el momento solo recomienda nombres de POIs. Se intentó pedir además las coordenadas pero alucina.
api: entidades del modelo compartidas por los módulos
common: utilidades comunes como la lectura de un csv usada tanto para la creación de reglas NLP (core) y para los repositorios de CSV (enricher)

Deploy

Server (Dev)

Para hacer deploy la webapp es necesario ejecutar el módulo server:

./mvnw -pl server -am spring-boot:run

Deploy Docker Local

Para hacer deploy de la webapp es necesario ejecutar compose

docker compose build --no-cache webapp
docker compose up --build

El compose queda preparado para desarrollo local con:

SPRING_AI_MODEL_CHAT=ollama
Ollama local en Docker
APP_AUTH_REGISTRATION_ENABLED=true

Para detener la webapp:

docker compose down

Para destruir el volumen creado, usar el flag -v

docker compose down -v

Deploy Azure Cloud

Para deploy en Azure no se usa el contenedor de Ollama. En ese entorno la app se configura con:

SPRING_AI_MODEL_CHAT=openai
endpoint OpenAI-compatible de Ollama Cloud
APP_AUTH_REGISTRATION_ENABLED=false

El paso a paso utilizando Terraform se encuentra en infra/terraform/azure-container-apps

Dependencias

Dependencias Core

jsoup
- https://jsoup.org
- HTML -> Texto
simple-java-mail
- https://www.simplejavamail.org
- .eml -> HTML
stanford-corenlp
- https://stanfordnlp.github.io/CoreNLP/
- Pipeline
  - https://stanfordnlp.github.io/CoreNLP/pipeline.html
  - Tokenization
  - Sentence Splitting
  - Parts Of Speech
  - Lemmatization
  - Named Entity Recognition
  - SUTime
  - Tokens Regex NER
  - Tokens Regex

Dependencias Server

Spring Boot
- https://spring.io/projects/spring-boot
Spring Security
- https://spring.io/projects/spring-security
Spring Data JPA
- https://spring.io/projects/spring-data-jpa
PostgreSQL
- https://www.postgresql.org/
Flyway
- https://flywaydb.org/

Dependencias Recommender

Spring AI
- https://spring.io/projects/spring-ai
- Se usa la versión 2.0.0-M3 (PRE) para lograr compatibilidad con Spring Boot 4
Ollama
- https://ollama.ai/
gemma4:e4b
- https://ai.google.dev/gemma/docs/core/model_card_4?hl=es-419

APIs Externas

MediaWiki API
- https://www.mediawiki.org/wiki/API:Action_API
- Para las imágenes de las ciudades destino en My Trips
Nominatim API
- https://nominatim.org/release-docs/develop/api/Overview/
- Para obtener las coordenadas de los POIs de las recomendaciones a partir de un nombre, ciudad y país

Tests Unitarios

Archivos EML necesarios

Para copiar los archivos .eml necesarios del repositorio local DVC del dataset ejecutar el siguiente comando

dvc get ../dataset data/raw/flight_001.eml -o src/main/resources/mail/flight_001.eml

./mvnw clean package

Test Ollama Local

Para ejecutar el test TripRecommendationServiceIntegrationTest directamente desde IntelliJ es necesario tener Ollama corriendo en la máquina local, escuchando en http://localhost:11434.

Instalación y preparación en macOS:

brew install ollama
ollama serve

En otra terminal:

ollama pull gemma4:e4b

Ahora al listar los modelos se debe ver en la salida

ollama list

La configuración del test requiere definir esta variable de entorno en la Run Configuration de IntelliJ:

RUN_OLLAMA_TESTS=true

Swagger

Para acceder a la documentación autogenerada de la API web se puede acceder a la ruta http://localhost:8080/swagger-ui/index.html#/

Notas

Se realiza un "warmup" del pipeline NLP al inciar server para evitar que el primer procesamiento del usuario implique la inicialización del pipeline de Stanford NLP.

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
.github		.github
.mvn/wrapper		.mvn/wrapper
api		api
client		client
common		common
core		core
enricher		enricher
infra/terraform/azure-container-apps		infra/terraform/azure-container-apps
recommender		recommender
server		server
.dockerignore		.dockerignore
.env		.env
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
compose.yaml		compose.yaml
extractor-parent.iml		extractor-parent.iml
mvnw		mvnw
mvnw.cmd		mvnw.cmd
pom.xml		pom.xml

Folders and files

Latest commit

History

Repository files navigation

extractor - email2trip

Estructura

Deploy

Server (Dev)

Deploy Docker Local

Deploy Azure Cloud

Dependencias

Dependencias Core

jsoup

simple-java-mail

stanford-corenlp

Dependencias Server

Spring Boot

Spring Security

Spring Data JPA

PostgreSQL

Flyway

Dependencias Recommender

Spring AI

Ollama

gemma4:e4b

APIs Externas

MediaWiki API

Nominatim API

Tests Unitarios

Archivos EML necesarios

Test Ollama Local

Swagger

Notas

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages