Data Lake

Un Data Lake est un référentiel centralisé qui stocke de très gros volumes de données dans leur format natif (brut), structurées (CSV, Parquet, Avro), semi-structurées (JSON, XML) ou non structurées (images, vidéos, logs, documents). Contrairement au Data Warehouse qui exige un schéma défini en amont (schema-on-write), le Data Lake adopte le schema-on-read : on applique le schéma au moment de la lecture.

L'objectif est de stocker tout, durablement et à bas coût, pour pouvoir l'exploiter plus tard avec divers outils analytiques (BI, ML, ad hoc queries). Les implémentations cloud : AWS S3 (avec Lake Formation, Glue, Athena, Redshift Spectrum), Azure Data Lake Storage Gen2 (avec Synapse), Google Cloud Storage (avec BigQuery, Dataproc). Les formats columnaires comme Parquet et ORC sont préférés pour l'analyse.

Le concept évolue vers le Lakehouse (Databricks Delta Lake, Apache Iceberg, Apache Hudi) qui ajoute des fonctionnalités ACID, time travel, schema evolution au-dessus des fichiers, comblant l'écart Data Lake / Data Warehouse. Compétence centrale pour DP-203, DEA-C01, SnowPro, Databricks.

Préparez vos certifications IT gratuitement