Cours donné dans le cadre de l'unité Data Engineering de E4. Le but du cours est de maîtriser les bases de la Data Engineering à travers un projet de récupération de données WEB, l'intégration dans un flux de stockage basé sur des bases de données et leur exploitation sur l'interface d'une web app.
Si vous ne disposez pas déjà d'un compte Github, il faut en créer un.
Forkez (avec le bouton Fork en haut à droite) ce projet. Il contient toutes les ressources nécessaires pour ce
cours. Vous pourrez ajouter des notes, modifier le code et avoir les updates si besoin
Pour commencer à travailler il vous faut cloner le projet dans votre répertoire (local) de travail :
$:~/> cd <WORKDIR>
$:~/<WORKDIR> > git clone https://github.com/DataTrainingOrg/DataEngineerTools.git
$:~/<WORKDIR> > cd DataEngineerTools/L'unité est composée de 6 parties, les 5 premières sont des notebook guidés vous permettant d'acquérir les compétences nécessaires à la bonne réalisation de votre projet de fin d'unité.
L'ensemble des exercices présents dans les différents cours doivent être complétés directement dans les notebooks et mis à jours sur vos comptes Github respectifs.
Pour le projet final vous devrez créer un repository github qui contiendra le code de votre projet et vous permettra de collaborer en binôme
Il est conseillé de travailler en local lors de chaque séance, puis de pusher son travail en fin de séance sur le repository Github.
> git add .
> git commit -m "message explicatif"
> git push origin masterAu début de la séance suivante, on récupère les éventuelles modifications apportées entre temps avec :
> git pullSi vous travaillez sur une machine locale différente, il faut recloner le projet.