Questions gratuites DEA-C01 — AWS Certified Data Engineer — Associate
Téléchargez gratuitement 36 questions d'entraînement pour la certification DEA-C01 proposée par AWS. Toutes les questions sont accompagnées de corrections détaillées avec explications techniques.
Caractéristiques de l'examen blanc
| Code de certification | DEA-C01 |
| Éditeur | AWS |
| Nombre de questions | 36 |
| Type | QCM avec 4 réponses possibles |
| Niveau | associate |
| Catégorie | IT |
| Prix | 100% gratuit |
Aperçu de 8 questions représentatives
Voici un échantillon aléatoire de 8 questions tirées de notre base d'entraînement DEA-C01. Pour accéder aux 36 questions complètes, lancez l'examen blanc gratuitement.
Question 1
Décrivez les implications de performance/coût quand on choisit entre un partitioning fin (milliers de partitions) vs partitioning grossier.
- Fin : meilleur pruning mais métadonnées volumineuses et liste S3 lente ; Grossier : moins de overhead métadonnées mais moins de pruning
- Fin : plus rapide toujours, pas de tradeoff ; Grossier : utile que pour l'archivage des anciennes données
- Fin : augmente les coûts de compression ; Grossier : réduit les appels API S3 sans impact de performance
- Fin : optimal pour très petits datasets ; Grossier : obligatoire pour volumes > 100 TB
Question 2
Un pipeline de données doit ingérer 2 TB de données d'une API REST toutes les 6 heures avec des transformations complexes. Quelle approche recommandez-vous?
- Utiliser AWS Glue ETL avec des jobs serverless de durée variable, orchestrés par StepFunctions pour gérer les dépendances et les erreurs
- Déployer des instances EC2 persistantes pour exécuter des scripts Python Apache Spark en continu
- Combiner Lambda avec DynamoDB pour stocker l'état d'ingestion et traiter les transformations en temps quasi-réel
- Utiliser Kinesis Data Firehose pour transférer les données directement vers Redshift sans transformations
Question 3
Une application doit traiter 100 000 événements par seconde en temps quasi-réel avec une latence < 1 minute. Quel service AWS est le plus approprié?
- Kinesis Data Streams pour l'ingestion, Lambda pour le traitement déclenché, DynamoDB pour l'agrégation temps réel
- Glue ETL en mode streaming avec une fréquence d'exécution de 1 minute sur des fichiers S3
- EventBridge pour router les événements vers SQS, puis Batch pour le traitement en parallèle
- RDS avec des triggers pour capturer les événements et Apache Kafka auto-managé pour le streaming
Question 4
Une entreprise doit conserver 7 ans d'historique de données avec accès décroissant. Quel design de stockage proposez-vous?
- S3 Standard pour 1 an actif, S3-IA pour 2-5 ans, Glacier pour 6-7 ans avec une lifecycle policy ; Lake Formation pour accès unifié
- Tout en S3 Standard avec des copies Redshift de l'année courante pour performance
- Archive tout après 1 an dans Glacier, avec extraction manuelle à la demande de l'utilisateur
- Dupliquer dans RDS pour les données actives et DynamoDB pour les archives (TTL = 7 ans)
Question 5
Une entreprise ingère des données IoT de 1 million d'appareils avec formats variés. Comment normaliser les entrées?
- Kinesis Data Streams → Lambda (parse/normalize) → Firehose → S3 (partitionné) ; Glue Catalog pour métadonnées unifiées
- IoT Core → DynamoDB streams → EMR cluster pour batch processing quotidien avec Spark
- MQTT brokers → SQS → EC2 instances pour décompresser et normaliser avant S3
- S3 Object Lambda pour normaliser à la lecture ; appliquer les transformations lors de la requête utilisateur
Question 6
Quel rôle joue la compressimation (ex: Snappy, Gzip) dans l'optimisation des coûts Athena?
- Réduit les GB scannés facturés : Athena charge les données compressées et facture les GB décompressés scannés
- Élimine la facturation sur Athena en compressant les résultats avant de les retourner à l'utilisateur
- Accélère uniquement la requête sans impact sur les coûts, la facturation dépend de la taille source brute
- Réduit le coût de stockage S3 mais augmente les frais Athena dues au CPU de décompression
Question 7
Un administrateur doit appliquer des transformations de données conditionnelles basées sur la valeur d'une colonne source. Quel outil est le plus approprié?
- Glue PySpark job avec broadcasting de lookup tables et transformations avec Spark SQL + UDFs personnalisées
- Athena avec requêtes SQL CASE/WHEN exécutées mensuellement pour créer des tables transformées
- Lambda avec DynamoDB pour stocker les règles de transformation, invoquer par S3 events
- Redshift avec stored procedures définissant la logique conditionnelle et UPDATE/INSERT batch quotidien
Question 8
Décrivez le concept de 'sort key' dans Redshift et ses implications de performance pour les requêtes range-based.
- Sort key ordonne les données sur disque ; Redshift utilise zone maps pour range pruning, évitant lire blocs inutiles
- Sort key crée un index similaire à PostgreSQL ; chaque colonne sort key crée un index B-tree séparé
- Sort key n'affecte que l'affichage des résultats ; aucun impact sur performance interne des requêtes
- Sort key compresse les données ; utiliser une sort key augmente le ratio de compression de 50%
Accédez aux 36 questions complètes gratuitement
Aucune carte bancaire requise. Examen chronométré, corrections détaillées, score final.
Lancer l'examen blanc DEA-C01 →
Pourquoi s'entraîner avec Certifexpress ?
- Questions au format officiel AWS
- Corrections détaillées avec explications techniques (200+ mots par question)
- Examen chronométré comme le jour J
- Option "Refaire les questions ratées" pour cibler vos lacunes
- Suivi de votre progression dans votre tableau de bord personnel
- Accès illimité, aucun abonnement requis