Amazon Athena

Amazon Athena est un service serverless de requêtes SQL interactives sur les données stockées dans Amazon S3, lancé en 2016. Basé sur Trino (anciennement PrestoSQL) sous le capot, Athena permet d'interroger les données là où elles sont — sans ETL préalable, sans cluster à provisionner — facturé uniquement à la donnée scannée.

Formats supportés : CSV, TSV, JSON, Avro, Parquet, ORC, Iceberg, Hudi, Delta Lake (depuis 2023). Pour la performance et la maîtrise des coûts, les formats columnar (Parquet, ORC) avec partitioning et compression (Snappy, Zstd) sont fortement recommandés — peuvent réduire les coûts 10-100x vs CSV brut.

Deux engines : (1) Athena SQL — engine v3 basé sur Trino, syntaxe SQL ANSI riche (window functions, CTEs, geospatial, regex, JSON) ; (2) Athena for Apache Spark (depuis 2022) — exécution serverless de notebooks Spark/PySpark pour data exploration et ML, intégré avec Glue Catalog.

Intégrations : (1) Glue Data Catalog — partage de métadonnées avec Redshift Spectrum, EMR, Lake Formation ; (2) Federated Query — interroger directement RDS, DynamoDB, MSK, CloudWatch Logs, HBase via Lambda connectors ; (3) Workgroups — séparation logical avec quotas, encryption, audit, query result location ; (4) QuickSight — visualisation BI directe ; (5) CloudTrail — analyse logs AWS ; (6) Application Load Balancer / CloudFront / VPC Flow Logs — analyse logs réseau natif.

Fonctionnalités avancées : (1) Athena Provisioned Capacity (depuis 2023) — réservation de DPUs pour workloads prévisibles, prix fixe vs scan-based ; (2) Lake Formation FGAC — row/column/cell-level security ; (3) CTAS (CREATE TABLE AS SELECT) — créer une nouvelle table optimisée depuis un résultat ; (4) approximate functions (approx_distinct, approx_percentile) pour gros volumes ; (5) machine learning inference via SageMaker.

Pricing : 5\$/TB scannés (region-dependent). Strategies cost-saving : partitionner (year=/month=/day=), utiliser Parquet/ORC + Snappy, compresser, projeter seulement les colonnes nécessaires (SELECT col1, col2 vs SELECT *), filtrer tôt avec WHERE sur partition keys, configurer query result reuse (cache 24h). Concurrent : Google BigQuery (managé total), Snowflake (data warehouse), Databricks SQL.

Préparez vos certifications IT gratuitement