Skip to content

email2trip/dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

dataset - email2trip

Introducción

Dataset de correos de reservas de vuelos y hoteles. Además de Git se utiliza DVC (DagsHub) para el versionado de los archivos .EML

Contenido

  • dataset/data/raw: Archivos .EML de reservas de vuelos y hoteles
  • dataset/data/structured: CSV con los datos relevantes de cada .EML

Setup

Requisitos

  • Git
  • Dvc

Clonación del repo Git

Se asume que ya cuenta con las credenciales correspondientes (Clave SSH)

git clone git@github.com:email2trip/dataset.git
cd dataset

Clonación del repo Dvc

Se necesita generar un token desde la web de DagsHub. Luego crear un archivo de texto en .dvc llamado config.local con el siguiente contenido:

['remote "dagshub"']
    user = fmeola
    password = <MI_TOKEN>

Luego puede clonar el repo

dvc pull

Anonimización de los correos

En el directorio local private_inbox/ que se ignora en Git y Dvc se encuentran los mails originales. Se ejecuta un script ubicado en scripts/remove_sensitive.py para eliminar PDF y cualquier otro adjunto (porque incluiría información sensible en un formato que no es texto plano)

python3 data/scripts/remove_sensitive.py

Luego se hace una búsqueda y reemplazo manual de los datos sensibles (Nombre, Número de Pasaporte, Dirección de correo electrónico, etc) y esos datos se reemplazan por datos ficticios fijos:

Agregar un nuevo archivo al dataset

dvc add data/raw/flight_999.eml
git add data/raw/flight_999.eml.dvc
git commit -m "Added Email 999"
git push origin main
git push dagshub main
dvc push

Descripción

Vuelos (EML) en inglés

  • Booking Confirmation
    • Air Canada:
      • v1: 001, 002, 003, 025, 026, 027, 028, 030, 031
      • v2: 024, 029, 032, 033
    • Delta:
    • v1: 042, 043
  • CheckIn Reminder
    • American Airlines:
      • v1: 011, 012, 013, 014
    • Air Canada
      • v1: 034, 035
      • v2: 037, 038, 039, 040
  • Boarding Pass
    • Lufthansa Group
      • v1: 016, 017, 018, 019, 020, 021

Trenes (EML) en inglés

  • Booking Confirmation
    • VIA Rail Canada
      • v1: 001, 003, 005, 007, 009
    • Deutsche Bahn (DB)
      • v1: 011
    • Österreichische Bundesbahnen (ÖBB)
      • v2: 013
  • Boarding Pass
    • VIA Rail Canada
      • v1: 002, 004, 006, 008, 010
    • RegioJet
      • v1: 014, 015, 016, 017, 018, 019
  • Status Update
    • Deutsche Bahn
      • v1: 020, 022, 023
    • RegioJet
      • v1: 024

About

Dataset

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages