AWS Glue

AWS Glue est le service ETL (Extract, Transform, Load) serverless d'AWS, lancé en 2017. C'est la solution AWS pour préparer, transformer et cataloguer des données pour analytics, ML, et data lakes — sans gérer d'infrastructure Spark/Hadoop.

Composants : (1) Glue Data Catalog — métastore central compatible Hive Metastore, partagé par Athena, Redshift Spectrum, EMR, SageMaker, Lake Formation. Stockage métadonnées de tables, partitions, schemas pour S3, RDS, Redshift. Backbone du data lake AWS ; (2) Glue Crawlers — découverte automatique du schéma des données dans S3/JDBC, alimentant le Data Catalog ; (3) Glue ETL Jobs — exécution serverless de scripts PySpark/Scala Spark/Python Shell (Python pur sans Spark) sur des DPUs (Data Processing Units = 4 vCPU + 16 GB RAM). Auto-scaling, retries, monitoring intégré ; (4) Glue Studio — UI visuelle pour construire des jobs ETL sans code ; (5) Glue DataBrew — outil visuel data preparation pour data analysts ; (6) Glue Schema Registry — registry Avro/JSON Schema/Protobuf pour streaming Kafka/Kinesis.

Nouveautés récentes (2023-2024) : (1) Glue 5.0 — Spark 3.5, Python 3.11, performance améliorée ; (2) Glue for Ray — exécution distribuée Python natif (alternative Spark pour data science) ; (3) Glue Data Quality — règles DQDL pour vérifier la qualité données, intégration EventBridge ; (4) Lake Formation FGAC — fine-grained access control jusqu'au row/cell level via Glue/Athena ; (5) Glue Notebooks (SageMaker Studio) ; (6) Iceberg, Hudi, Delta Lake native support pour data lakehouse.

Use cases : (1) ETL pipelines batch quotidiens (CDC → S3 → Parquet partitionné) ; (2) data lake catalog management ; (3) data quality enforcement ; (4) ML feature engineering avant SageMaker ; (5) CDC streaming via Glue streaming jobs. Alternatives : Databricks (plus complet, payant), Apache Airflow (orchestration), dbt (transformations SQL), Dataflow (GCP), Azure Data Factory.

Pricing : Glue ETL 0.44\$/DPU-h facturé à la seconde (1 min minimum) ; Catalog 1\$/100k objets/mois + 1\$/M requests ; Crawlers 0.44\$/DPU-h ; DataBrew 0.48\$/node-h. Bien optimiser le nombre de DPUs et l'usage de bookmarks (incremental processing) est clé pour maîtriser les coûts. Certifications : DEA-C01, MLS-C01.

Préparez vos certifications IT gratuitement