Accueil · Guides de révision · GCP-CDL

Guide complet GCP-CDL — Google

Google Cloud Professional Data Engineer - Legacy · Programme, plan de révision, ressources, examen blanc gratuit.

TL;DR — Le guide en 1 minute

La certification Google Cloud Professional Data Engineer (version legacy) s'adresse aux ingenieurs data, architectes BI et developpeurs cloud souhaitant valider leur maitrise de la conception de pipelines de donnees sur GCP. L'examen comporte 50 a 60 questions QCM/multi-reponses en 2 heures, sans prerequis formel mais avec 3 ans d'experience recommandee dont 1 an sur GCP. Debouches : Data Engineer, Cloud Architect, ML Engineer avec salaires de 55-85k EUR en France en 2026.

Pourquoi passer la certification GCP-CDL ?

Passer la certification GCP Professional Data Engineer en 2026 reste un investissement strategique malgre son statut legacy, car Google Cloud capte desormais 13% du marche IaaS mondial et la demande de specialistes data sur GCP a augmente de 38% en Europe selon LinkedIn Insights 2025. Le ROI est rapide : la cert valorise un CV de 12 a 18% en moyenne, soit environ 8 000 a 12 000 EUR brut annuels supplementaires pour un profil senior. Les entreprises francaises comme Carrefour, Veolia, L'Oreal et Orange ont massivement migre leurs data warehouses vers BigQuery, creant un appel d'air pour des profils certifies. La version legacy reste reconnue par les employeurs comme preuve de competences fondamentales, meme si Google recommande la transition vers la version actualisee. Cette certification differencie particulierement dans les secteurs banque, retail et telco ou la gouvernance des donnees devient critique avec l'AI Act europeen entre en vigueur en 2025. Elle constitue egalement un prerequis implicite pour acceder aux missions freelance les mieux remunerees (TJM 700-950 EUR) et aux postes de Lead Data Engineer dans les ESN tier 1.

Caractéristiques de l'examen

Format	QCM 50-60 questions (choix unique et multiple)
Duree	120 minutes
Score requis	Non communique officiellement (estime 70%)
Prix officiel	200 USD (environ 185 EUR)
Langues	Anglais, Japonais (pas de francais)
Validite	2 ans
Prerequis	Aucun formel, 3+ ans d'experience data dont 1 an GCP recommande

Programme détaillé par domaine

Domain 1 : Designing data processing systems 22%

Objectifs: Ce domaine evalue la capacite a concevoir des systemes de traitement de donnees robustes sur GCP. Le candidat doit savoir selectionner les technologies de stockage appropriees (relationnel, NoSQL, objet, analytique) selon les contraintes de latence, volume et cout. Il faut maitriser la modelisation des pipelines batch et streaming, comprendre les compromis entre coherence forte et eventuelle, et savoir dimensionner l'infrastructure. La conception doit integrer haute disponibilite, reprise sur sinistre et conformite reglementaire RGPD.
Concepts clés: Schemas en etoile vs flocon pour BigQuery, partitionnement et clustering, denormalisation, CAP theorem applique a Spanner et Bigtable, lambda et kappa architectures, idempotence des pipelines, exactly-once semantics, watermarks et windowing dans Dataflow (tumbling, sliding, session), gestion du late data, dimensionnement des slots BigQuery, modelisation Bigtable row-key design pour eviter les hotspots, gestion des donnees PII avec DLP API, choix entre Cloud SQL et Spanner selon scalabilite horizontale.
Services / outils: BigQuery, Cloud Storage (classes Standard/Nearline/Coldline/Archive), Cloud SQL, Cloud Spanner, Bigtable, Firestore, Memorystore (Redis/Memcached), Pub/Sub, Dataflow (Apache Beam), Dataproc (Hadoop/Spark), Composer (Airflow).
Temps estimé: 12-15h

Domain 2 : Building and operationalizing data processing systems 25%

Objectifs: Le candidat doit demontrer sa capacite a construire, deployer et maintenir des pipelines de donnees en production. Cela inclut la construction de jobs ETL/ELT, l'orchestration de workflows, le monitoring, l'optimisation des performances et des couts. Il faut savoir migrer des charges de travail Hadoop on-premise vers Dataproc, gerer les schemas evolutifs et automatiser les deploiements via Terraform ou Deployment Manager. La gestion operationnelle quotidienne et la resolution d'incidents font partie integrante de ce domaine.
Concepts clés: Templates Dataflow (classic et Flex), pipelines Apache Beam en Python/Java, DAGs Airflow avec Composer, transformations SQL dans BigQuery (CTE, window functions, UDF), gestion des slots reservations vs on-demand, materialized views, BI Engine, autoscaling Dataproc, ephemeral clusters, separation compute/storage, schema evolution avec Avro/Parquet, gestion CDC avec Datastream, monitoring via Cloud Monitoring et logs structures.
Services / outils: Dataflow templates, Cloud Composer, Cloud Functions, Cloud Run, Cloud Build pour CI/CD, Datastream, Data Fusion (CDAP), Transfer Service, gcloud CLI, Terraform.
Temps estimé: 15-18h

Domain 3 : Operationalizing machine learning models 20%

Objectifs: Ce domaine couvre l'integration et l'industrialisation des modeles ML dans les pipelines data. Le candidat doit savoir choisir entre solutions pre-entrainees (APIs), AutoML et entrainement custom selon le cas d'usage. Il faut maitriser le cycle de vie MLOps : preparation des donnees, feature engineering, entrainement distribue, evaluation, deploiement et monitoring du model drift. La comprehension des biais, de la fairness et de l'explicabilite est evaluee, ainsi que les optimisations de cout pour l'inference a grande echelle.
Concepts clés: BigQuery ML (creation de modeles en SQL : linear, logistic, k-means, ARIMA, boosted trees), Vertex AI Pipelines (Kubeflow), feature store, hyperparameter tuning, online vs batch prediction, TFX, gestion des versions de modeles, A/B testing, monitoring de model drift et data skew, AI Explanations, encodage one-hot et embeddings, train/validation/test split, cross-validation.
Services / outils: Vertex AI (anciennement AI Platform), BigQuery ML, AutoML Tables/Vision/NLP, Vision API, Natural Language API, Speech-to-Text, Translation API, Recommendations AI, TensorFlow sur GCP.
Temps estimé: 10-12h

Domain 4 : Ensuring solution quality 18%

Objectifs: Le candidat doit garantir la securite, la conformite, la fiabilite et la flexibilite des solutions data. Cela inclut le chiffrement au repos et en transit, la gestion fine des acces via IAM, la conformite RGPD/HIPAA, et la mise en place de DR (Disaster Recovery). La qualite des donnees (validation, deduplication, reconciliation) est evaluee, ainsi que la capacite a optimiser les couts via les reservations, les flat-rate pricing et le tiering du stockage.
Concepts clés: IAM roles predefinis vs custom, principle of least privilege, VPC Service Controls pour l'exfiltration, CMEK (Customer-Managed Encryption Keys), Cloud KMS, audit logs (Admin Activity, Data Access), tokenisation avec DLP, masking dynamique, column-level security et row-level security BigQuery, authorized views, RTO/RPO, multi-region replication, slot reservations vs on-demand, query optimization (eviter SELECT *, partitions filtering).
Services / outils: Cloud IAM, Cloud KMS, VPC Service Controls, Cloud DLP, Cloud Audit Logs, Access Transparency, Identity-Aware Proxy, Security Command Center.
Temps estimé: 8-10h

Domain 5 : Operationalization and visualization 15%

Objectifs: Ce domaine evalue la mise en production des analyses et leur restitution aux utilisateurs metier. Le candidat doit savoir choisir l'outil de visualisation adapte, gerer les permissions sur les dashboards, integrer des sources heterogenes et garantir des temps de reponse acceptables. L'automatisation des rapports, les alertes proactives et la diffusion via APIs ou exports programmes sont egalement evaluees, incluant l'integration avec des outils tiers Tableau ou Power BI via les connecteurs ODBC/JDBC.
Concepts clés: Looker (LookML, Explores, derived tables), Looker Studio (ex Data Studio), BigQuery BI Engine pour cache in-memory, Connected Sheets pour Google Sheets, gestion du cache et materialized views, partage securise, data lineage avec Dataplex, Data Catalog pour la decouverte, tagging et metadonnees.
Services / outils: Looker, Looker Studio, BI Engine, Connected Sheets, Dataplex, Data Catalog, connecteurs ODBC/JDBC.
Temps estimé: 6-8h

Plan de révision hebdomadaire

Planning de revision sur 8 semaines pour un candidat travaillant 10h par semaine. Semaine 1 : lecture du Exam Guide officiel Google et creation d'un compte GCP avec credit gratuit 300 USD. Suivre le cours Coursera 'Preparing for Google Cloud Professional Data Engineer Exam' module 1-2, focus sur les services de stockage (BigQuery, Bigtable, Spanner). Semaine 2 : approfondissement BigQuery (architecture Dremel, slots, partitionnement, clustering) via la documentation officielle et realisation de 5 Qwiklabs sur BigQuery. Semaine 3 : maitrise de Dataflow et Apache Beam, ecrire 3 pipelines batch et streaming en Python, comprendre windowing et triggers. Semaine 4 : Dataproc, Pub/Sub, Composer/Airflow avec creation d'un DAG end-to-end orchestrant Pub/Sub vers BigQuery. Semaine 5 : ML avec BigQuery ML et Vertex AI, entrainer un modele de regression et deployer une prediction online. Semaine 6 : securite (IAM, KMS, VPC-SC, DLP) et optimisation des couts, etude approfondie du whitepaper Security Best Practices. Semaine 7 : examens blancs Whizlabs ou Tutorials Dojo (minimum 3 tests complets), analyse des erreurs et revision ciblee des points faibles. Semaine 8 : revision finale via les flashcards Anki communautaires, relecture des FAQ Google Cloud, simulation officielle Google sur la plateforme Kryterion. Reserver l'examen en debut de semaine 7 pour creer une deadline motivante. Prevoir 2 jours de repos avant l'examen.

Besoin d'un planning sur mesure ? 30 jours · 60 jours · 90 jours

Ressources recommandées

Documentation officielle Google Cloud

Exam Guide officiel, sample questions gratuites et liste exhaustive des services couverts.

Coursera - Data Engineering on Google Cloud Specialization

Specialisation officielle Google de 6 cours avec labs Qwiklabs integres, environ 100h de contenu.

Google Cloud Skills Boost (Qwiklabs)

Plateforme officielle de labs pratiques avec quetes dediees Data Engineer et challenges concrets.

Communaute Reddit r/googlecloud et Discord GCP

Retours d'experience, conseils d'examen et dernieres mises a jour de la certification par les pairs.

5 erreurs classiques à éviter

Erreur 1 : Confondre Bigtable et BigQuery. Bigtable est NoSQL wide-column pour workloads operationnels haute frequence (IoT, time-series) tandis que BigQuery est un data warehouse analytique. Bien identifier les patterns d'acces dans les questions.
Erreur 2 : Sous-estimer Dataflow et Apache Beam. La majorite des questions streaming reposent sur la comprehension fine des windowing, watermarks et triggers. Pratiquer obligatoirement avec du code Beam reel et pas seulement de la theorie.
Erreur 3 : Negliger les questions de cout et d'optimisation. L'examen teste souvent le choix entre flat-rate et on-demand, ou entre Standard/Nearline/Coldline pour Cloud Storage. Maitriser les criteres de duree de retention et frequence d'acces.
Erreur 4 : Choisir Cloud SQL au lieu de Spanner pour des besoins de scalabilite horizontale globale. Spanner est la bonne reponse des qu'on parle de transactions ACID multi-region a grande echelle, malgre son cout plus eleve.
Erreur 5 : Ignorer les aspects securite et conformite. Beaucoup de candidats negligent VPC Service Controls, CMEK et DLP qui representent environ 15% des questions. Lire imperativement le whitepaper Security Foundations.

5 questions types corrigées

Q1. Une entreprise stocke 50 To de logs IoT en streaming avec besoin d'acces aleatoire faible latence par device_id. Quel service GCP choisir ?

Réponse : B

Bigtable est concu pour les workloads time-series haute frequence avec acces faible latence par cle. Le row-key design avec device_id en prefixe et timestamp inverse evite les hotspots tout en permettant des scans efficaces des dernieres donnees par device. BigQuery convient pour l'analytique mais pas pour les lookups operationnels. Cloud SQL ne scale pas a 50 To. Firestore est limite en throughput pour ce volume.

Q2. Vous concevez un pipeline streaming Dataflow qui doit traiter des evenements avec une latence acceptable de 5 minutes mais garantir l'exactly-once. Quelle configuration adopter ?

Réponse : A

Les tumbling windows (fixed) de 5 minutes avec un trigger AfterWatermark garantissent que tous les evenements de la fenetre sont traites une seule fois lorsque le watermark passe. Dataflow assure nativement l'exactly-once. Les sliding windows generent des doublons. Les session windows conviennent aux sessions utilisateur a duree variable. Global window avec processing-time trigger ne garantit pas l'exactitude par rapport au temps de l'evenement.

Q3. Une requete BigQuery scanne 2 To et coute trop cher. La table contient 5 ans de donnees mais les analyses portent sur les 30 derniers jours. Quelle optimisation prioritaire ?

Réponse : C

Le partitionnement par date permet a BigQuery de ne scanner que les partitions pertinentes (partition pruning), reduisant drastiquement les donnees lues et le cout. Le clustering ajoute un second niveau d'optimisation sur les colonnes filtrees frequemment. BI Engine accelere mais ne reduit pas le scan facture. Une materialized view sur 5 ans serait couteuse a maintenir. Flat-rate change le modele de facturation mais ne resout pas l'inefficacite.

Voir plus de questions gratuites →

Carrière & salaire après GCP-CDL

En France en 2026, un Data Engineer certifie GCP percoit entre 48k et 62k EUR en junior (0-3 ans), 62k a 82k en confirme (3-7 ans) et 85k a 115k en senior ou Lead. Les TJM freelance oscillent entre 600 et 950 EUR selon experience et secteur (banque/assurance en haut de fourchette). Les debouches principaux incluent Data Engineer, Cloud Data Architect, MLOps Engineer, Analytics Engineer et Consultant GCP en ESN. L'evolution naturelle mene vers Principal Engineer, Head of Data ou specialisation MLOps. Certifications complementaires recommandees : GCP Professional Cloud Architect, Professional Machine Learning Engineer, et pour la polyvalence multi-cloud, AWS Data Analytics Specialty ou Azure Data Engineer Associate (DP-203).

Détail des salaires GCP-CDL en 2026 →

FAQ — GCP-CDL

Combien de temps faut-il pour preparer GCP-CDL ?

Comptez 80 a 120 heures de preparation sur 6 a 10 semaines pour un profil ayant deja une experience data. Pour un debutant sur GCP, prevoir 150-200 heures sur 3 a 4 mois incluant pratique en labs.

Cette certification est-elle reconnue en France ?

Oui, largement reconnue par les grands comptes (BNP, Societe Generale, Carrefour, Orange) et les ESN tier 1 (Capgemini, Sopra, Accenture). Elle figure parmi les top 5 certifications cloud les plus demandees sur les offres LinkedIn France.

Quel est le taux de reussite a GCP-CDL ?

Google ne publie pas de chiffres officiels. Les retours communautaires estiment le taux de reussite au premier essai entre 55% et 65%, ce qui en fait l'une des certifications GCP les plus exigeantes.

Quel est le salaire apres GCP-CDL ?

Salaires France 2026 : 48-62k EUR junior, 62-82k confirme, 85-115k senior. La cert apporte un bonus de 8 a 15% par rapport a un profil non certifie equivalent.

Faut-il une experience prealable ?

Google recommande 3 ans d'experience industrielle dont 1 an sur GCP. Sans experience pratique, l'examen est tres difficile car beaucoup de questions sont scenario-based avec des nuances operationnelles.

GCP-CDL ou cert concurrente : laquelle choisir ?

Si votre cible est GCP/BigQuery : GCP-CDL est imbattable. Pour AWS dominant : AWS Data Analytics Specialty. Pour Azure : DP-203. La double certification GCP + AWS est tres valorisee en ESN.

Combien coute l'examen GCP-CDL ?

200 USD soit environ 185 EUR HT. Aucune reduction officielle hormis les vouchers Google Cloud Innovators ou les codes promo distribues lors des evenements Google Cloud Next.

Combien de fois peut-on repasser GCP-CDL ?

En cas d'echec : 14 jours d'attente pour le 2e essai, 60 jours pour le 3e, puis 1 an apres 3 echecs consecutifs. Chaque tentative est facturee au tarif plein de 200 USD.

Prêt à passer à la pratique ?

Lancez votre examen blanc gratuit ou faites le test d'orientation pour valider votre choix.

Démarrer l'examen blanc GCP-CDL → Test d'orientation