Dataset de correos de reservas de vuelos y hoteles. Además de Git se utiliza DVC (DagsHub) para el versionado de los archivos .EML
dataset/data/raw: Archivos .EML de reservas de vuelos y hotelesdataset/data/structured: CSV con los datos relevantes de cada .EML
- Git
- Dvc
Se asume que ya cuenta con las credenciales correspondientes (Clave SSH)
git clone git@github.com:email2trip/dataset.git
cd datasetSe necesita generar un token desde la web de DagsHub.
Luego crear un archivo de texto en .dvc llamado config.local con el siguiente contenido:
['remote "dagshub"']
user = fmeola
password = <MI_TOKEN>
Luego puede clonar el repo
dvc pullEn el directorio local private_inbox/ que se ignora en Git y Dvc se encuentran los mails originales.
Se ejecuta un script ubicado en scripts/remove_sensitive.py para eliminar PDF y cualquier otro adjunto
(porque incluiría información sensible en un formato que no es texto plano)
python3 data/scripts/remove_sensitive.pyLuego se hace una búsqueda y reemplazo manual de los datos sensibles (Nombre, Número de Pasaporte, Dirección de correo electrónico, etc) y esos datos se reemplazan por datos ficticios fijos:
- Nombre: Martin Miles Young MARTIN MILES YOUNG
- Mail: martin.young@sample.com MARTIN.YOUNG@SAMPLE.COM
- Código de Reserva (PNR): Cualquier alfanumérico ABC1DE
- Ticket Number: 1234567890123
dvc add data/raw/flight_999.eml
git add data/raw/flight_999.eml.dvc
git commit -m "Added Email 999"
git push origin main
git push dagshub main
dvc push- Booking Confirmation
- Air Canada:
- v1: 001, 002, 003, 025, 026, 027, 028, 030, 031
- v2: 024, 029, 032, 033
- Delta:
- v1: 042, 043
- Air Canada:
- CheckIn Reminder
- American Airlines:
- v1: 011, 012, 013, 014
- Air Canada
- v1: 034, 035
- v2: 037, 038, 039, 040
- American Airlines:
- Boarding Pass
- Lufthansa Group
- v1: 016, 017, 018, 019, 020, 021
- Lufthansa Group
- Booking Confirmation
- VIA Rail Canada
- v1: 001, 003, 005, 007, 009
- Deutsche Bahn (DB)
- v1: 011
- Österreichische Bundesbahnen (ÖBB)
- v2: 013
- VIA Rail Canada
- Boarding Pass
- VIA Rail Canada
- v1: 002, 004, 006, 008, 010
- RegioJet
- v1: 014, 015, 016, 017, 018, 019
- VIA Rail Canada
- Status Update
- Deutsche Bahn
- v1: 020, 022, 023
- RegioJet
- v1: 024
- Deutsche Bahn