BnF-Partenariat · RetroNews
Archives nationales · Patrimoine de la presse française
Contexte
BnF-Partenariat pilote RetroNews, la plateforme publique des archives de presse française (1631–1950). L'intégration et l'enrichissement sémantique des documents — extraction d'entités, transformation, indexation — nécessitait un pipeline industriel capable de traiter des dizaines de millions de pages sans interruption ni perte.
Le défi
Intégrer les contenus au fil de l'eau sans contraindre la production, piloter le suivi, et scaler la montée en charge tout en étant tolérant à la panne.
La solution
Conception et déploiement d'une architecture Temporal.io pour orchestrer les workflows de type ETL avec retry automatique, monitoring en temps réel et traitement parallélisé. Chaque document est enrichi, indexé et intégré via un pipeline distribué et résilient. Infrastructure déployée sur Scaleway pour la souveraineté des données.
Résultats
- 20 millions de pages enrichies et intégrées avec 0 perte de données
- Scalabilité horizontale garantie — ajout de workers sans modification du code
- Données hébergées en France (Scaleway) — conformité patrimoniale garantie
Stack technique