AccueilGlossaire › Data Lake

Data Lake

Data

Référentiel de données brutes à grande échelle, multi-format.

Un Data Lake est un référentiel centralisé qui stocke de très gros volumes de données dans leur format natif (brut), structurées (CSV, Parquet, Avro), semi-structurées (JSON, XML) ou non structurées (images, vidéos, logs, documents). Contrairement au Data Warehouse qui exige un schéma défini en amont (schema-on-write), le Data Lake adopte le schema-on-read : on applique le schéma au moment de la lecture.

L'objectif est de stocker tout, durablement et à bas coût, pour pouvoir l'exploiter plus tard avec divers outils analytiques (BI, ML, ad hoc queries). Les implémentations cloud : AWS S3 (avec Lake Formation, Glue, Athena, Redshift Spectrum), Azure Data Lake Storage Gen2 (avec Synapse), Google Cloud Storage (avec BigQuery, Dataproc). Les formats columnaires comme Parquet et ORC sont préférés pour l'analyse.

Le concept évolue vers le Lakehouse (Databricks Delta Lake, Apache Iceberg, Apache Hudi) qui ajoute des fonctionnalités ACID, time travel, schema evolution au-dessus des fichiers, comblant l'écart Data Lake / Data Warehouse. Compétence centrale pour DP-203, DEA-C01, SnowPro, Databricks.

Certifications qui couvrent ce concept
DP-203 DEA-C01 MLA
Termes liés
S3 (Simple Storage Service) Data Warehouse BigQuery (Google BigQuery) Snowflake

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire