technical-case-data-engineer-jean-philippe-rodrigue #73

JeanPhilippeRodrigue · 2025-08-18T03:29:39Z

PR contenant les étapes d’ingestion, le schéma de données proposé et les réponses finales au test technique.

Elle comprend trois parties principales:

1. Le flux de donnée:

fetch_data.py : récupération des données brutes depuis les API sources.
load_data.py: Materialization en fichiers JSON (1 par table) + le watermark.py

Les fichiers se trouverons dans le data_store/ une fois le script exécuté. Bien sûr, en production, j'utiliserais des tables et une base de données.

2. Orchestration

J’ai choisi Airflow, que j’ai déployé via Docker, pour refléter un setup proche d’un environnement de production.
Airflow offre plusieurs avantages :

Gestion des dépendances entre tâches.
Suivi et historisation des exécutions.
Alertes et monitoring intégrés.
etc

Cela permet d’avoir une orchestration claire et robuste.

3. Tests automatisés

J’ai ajouté quelques tests Pytest pour valider la robustesse du pipeline :

test_bulk_insert_and_watermark.py : vérifie que les insertions bulk respectent bien le watermark (pas de doublons, reprise correcte).
test_incremental_idempotent.py : s’assure que les chargements incrémentaux sont idempotents (relancer le job ne crée pas de doublons).
test_incremental_load.py : valide que les nouveaux lots de données sont correctement ingérés et ajoutés aux historiques existants.
test_iter_pages.py : teste la pagination des appels API afin de garantir que toutes les pages de résultats sont bien récupérées.

Au plaisir de vous rencontrer :)

JeanPhilippeRodrigue added 4 commits August 17, 2025 20:55

step 1 to 3

3ff698c

remove json files

afe3417

finalize answers

e4c8e26

small text tweaks

1e5ece6

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

technical-case-data-engineer-jean-philippe-rodrigue #73

technical-case-data-engineer-jean-philippe-rodrigue #73

Uh oh!

JeanPhilippeRodrigue commented Aug 18, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

technical-case-data-engineer-jean-philippe-rodrigue #73

Are you sure you want to change the base?

technical-case-data-engineer-jean-philippe-rodrigue #73

Uh oh!

Conversation

JeanPhilippeRodrigue commented Aug 18, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

1. Le flux de donnée:

2. Orchestration

3. Tests automatisés

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

JeanPhilippeRodrigue commented Aug 18, 2025 •

edited

Loading