Big Data & I.A.

Moins mais mieux : vers un data engineering plus simple et plus efficace

Quickie - 15min IntermédiaireFrançais

La dernière décennie du data engineering a été marquée par une obsession : scaler toujours plus.

Face à la croissance exponentielle des volumes de données, de nombreux outils distribués ont émergé, open source (Spark, Hadoop, Flink…) ou propriétaires (BigQuery, Redshift…), tous portés par la même promesse : traiter plus de données, plus vite.

Mais cette quête de la scalabilité a aussi amené son lot de complexité : infrastructures coûteuses, pipelines fragiles, systèmes difficiles à maintenir, sans parler des fameux data swamps.

Aujourd’hui, un changement de perspective s’opère. Dans un contexte où la minimisation des données collectées (RGPD…), la maîtrise des coûts et la sobriété deviennent centraux, une approche plus simple refait surface : celle d’outils mono-nœud, efficaces, et adaptés à de nombreux cas d’usage réels.

Dans cette présentation, nous explorerons DuckDB et Polars, deux outils open source qui séduisent de plus en plus les data engineers et data scientists. Nous verrons ce qu’ils permettent de faire, à quelles problématiques ils répondent… et jusqu’où ils peuvent aller.

Maxence HULL

Je suis Maxence, Data Engineer chez HelloAsso (situé à Bègles) depuis bientôt deux ans. Depuis mes études, déjà consacrées aux systèmes distribués, je consacre ma vie professionnelle à jouer avec des données. J’ai eu la chance d’exercer ma profession dans plusieurs entreprises, que se soit de grands établissement financiers ou des startups. J’ai déjà présenté quelques meetups, notamment à Montréal, et je continue faire des présentations régulièrement dans les entreprises où je travaille. Sinon j’aime bien courir, nager et jouer à Mario Kart.

Profile LinkedIn