Accueil · Guides de révision · GCP-PDE

Guide complet GCP-PDE — Google

Google Cloud Professional Data Engineer · Programme, plan de révision, ressources, examen blanc gratuit.

TL;DR — Le guide en 1 minute

Le Google Cloud Professional Data Engineer (GCP-PDE) certifie ta capacite a concevoir, construire et operer des systemes de donnees sur Google Cloud. Public vise : data engineers, analystes, architectes cloud avec 3+ ans d'experience dont 1 an sur GCP. Format : QCM/QCM multiple de 50 a 60 questions, 2 heures. Aucun prerequis officiel mais experience pratique fortement recommandee. Debouches : Data Engineer, Cloud Data Architect, ML Engineer, salaires 55-85k EUR en France 2026.

Pourquoi passer la certification GCP-PDE ?

En 2026, la certification GCP-PDE figure parmi les plus valorisees du marche cloud data. Google Cloud progresse rapidement en Europe (18% de parts de marche cloud) et les entreprises migrent massivement leurs pipelines analytiques vers BigQuery, Dataflow et Vertex AI. Le ROI est rapide : selon l'etude Google Cloud Salary Survey 2025, un PDE certifie gagne en moyenne 22% de plus qu'un data engineer non certifie. La demande explose dans la banque, la sante, le retail et l'industrie, particulierement pour les profils maitrisant l'AI generative et les data lakes modernes. La cert valide des competences rares : conception de pipelines streaming, modeles ML productionnels, gouvernance data multi-region. Sur LinkedIn France, plus de 4500 offres mentionnaient GCP-PDE en mai 2026 (+35% YoY). Cote CV, c'est un differenciateur fort face aux profils AWS Data Analytics ou Azure DP-203. Google investit massivement dans son ecosysteme partenaire en France (Carrefour, BNP, Renault), ce qui cree des opportunites locales solides. Enfin, la cert prepare directement aux roles MLOps et Analytics Engineer, deux fonctions en tension. C'est donc un investissement strategique pour evoluer vers du senior tech ou pivoter vers la data dans un contexte hautement competitif.

Caractéristiques de l'examen

Format	QCM et QCM multiples, 50 a 60 questions
Duree	120 minutes
Score requis	Non publie (estime 70%)
Prix officiel	200 USD (environ 185 EUR)
Langues	Anglais, Japonais (pas de francais officiel)
Validite	2 ans
Prerequis	3+ ans experience industrie dont 1 an sur GCP recommande

Programme détaillé par domaine

Domain 1 : Designing data processing systems 22%

Objectifs: Ce domaine evalue ta capacite a concevoir des architectures data resilientes sur GCP. Tu dois savoir choisir le bon service de stockage (Cloud Storage, BigQuery, Bigtable, Spanner, Firestore) selon le pattern d'acces, le volume et la latence. Les questions portent sur la modelisation des donnees (schema star, denormalisation BigQuery), la migration depuis on-premise, l'integration hybride et multi-cloud. Tu dois aussi gerer la securite (IAM, VPC-SC, CMEK), la conformite RGPD/HIPAA, et la fiabilite (multi-region, disaster recovery). La portion design d'architecture pese lourd : prepare-toi a lire des cas business et choisir le service optimal.
Concepts clés: OLTP vs OLAP, partitionnement et clustering BigQuery, choix entre Bigtable et Spanner selon les besoins de coherence forte vs scalabilite horizontale. Lambda vs Kappa architecture, batch vs streaming. Concepts de capacity planning, cost optimization (slots BigQuery, reservations flat-rate vs on-demand). Comprendre les SLA, RPO, RTO. Migration strategies (lift-and-shift, re-platform, re-architect). Data mesh, data fabric, data lakehouse. Encryption at rest et in transit, Cloud KMS, Customer-Managed Encryption Keys. Notions de schema evolution, slow changing dimensions, change data capture (CDC) avec Datastream.
Services / outils: BigQuery, Cloud Storage (classes Standard/Nearline/Coldline/Archive), Bigtable, Cloud Spanner, Cloud SQL, Firestore, Memorystore (Redis/Memcached), Datastream, Database Migration Service, Transfer Appliance, Storage Transfer Service, Cloud Interconnect, Cloud VPN.
Temps estimé: 12-15h

Domain 2 : Ingesting and processing the data 25%

Objectifs: Domaine cle qui couvre l'ingestion temps reel et batch. Tu dois maitriser la conception de pipelines Dataflow (Apache Beam) avec windowing, watermarks, triggers et late data handling. Les questions abordent la mise en place de pipelines streaming avec Pub/Sub, la gestion exactly-once, le decoupage des charges, et l'optimisation des couts. Tu dois savoir orchestrer avec Cloud Composer (Airflow) ou Workflows. Comprendre les patterns de transformation, les ETL vs ELT, et le choix entre Dataflow, Dataproc et Dataprep. La partie qualite des donnees (validation, deduplication, schema enforcement) est testee.
Concepts clés: Apache Beam : PCollections, PTransforms, ParDo, GroupByKey, CoGroupByKey, side inputs. Fenetrage : fixed, sliding, session windows. Watermarks, triggers (event time vs processing time). Exactly-once semantics dans Pub/Sub avec subscription idempotente. Dead letter topics pour gestion d'erreurs. Dataproc Serverless vs cluster. Spark optimization (broadcast joins, partitioning). DAG Airflow, operators GCP, sensors, XCom. Schema registry, Avro vs Parquet vs ORC. Patterns CDC, micro-batching, lambda architecture.
Services / outils: Cloud Dataflow, Pub/Sub, Pub/Sub Lite, Cloud Composer, Workflows, Cloud Dataproc, Dataprep by Trifacta, Cloud Functions, Cloud Run, Cloud Scheduler, Eventarc, Cloud Data Fusion.
Temps estimé: 15-18h

Domain 3 : Storing the data 20%

Objectifs: Ce domaine valide ta capacite a choisir et configurer le bon stockage selon les besoins. Tu dois savoir dimensionner BigQuery (slots, partitions, clustering), Bigtable (row key design, hotspotting), et Cloud Storage (lifecycle policies, object versioning). Les questions testent les strategies de retention, archivage, et gestion des couts. La modelisation pour analytics (nested/repeated fields BigQuery, denormalisation) est centrale. Tu dois aussi maitriser la replication multi-region, le geo-routing et les contraintes de souverainete (data residency Europe).
Concepts clés: Row key design Bigtable (evitement hotspots, reverse timestamps), tablet splits. BigQuery : table partitioning (time-unit, integer-range, ingestion-time), clustering jusqu'a 4 colonnes, materialized views, BI Engine. External tables vs native, BigLake. Object Lifecycle Management, retention policies (bucket lock, WORM compliance). Storage classes auto-class. Spanner : interleaving tables, secondary indexes. Cache patterns avec Memorystore. Federated queries.
Services / outils: BigQuery, BigLake, Bigtable, Cloud Storage, Spanner, Cloud SQL, Firestore, AlloyDB, Memorystore, Filestore, Dataplex pour la gouvernance unifiee.
Temps estimé: 10-12h

Domain 4 : Preparing and using data for analysis 17%

Objectifs: Tu dois savoir preparer les donnees pour la BI et la data science. Cela inclut la creation de datasets BigQuery propres, l'utilisation de Dataplex pour la decouverte et le catalogage, la construction de dashboards avec Looker et Looker Studio. Les questions couvrent la modelisation semantique (LookML), la gouvernance (column-level security, row-level security, data masking), et l'integration avec des outils tiers (Tableau, Power BI via ODBC). La portion ML est testee : feature engineering avec BigQuery ML, training et deployment de modeles Vertex AI, MLOps de base.
Concepts clés: LookML (views, explores, derived tables), persistent derived tables. BigQuery ML : linear regression, logistic regression, k-means, ARIMA_PLUS, boosted trees, deep neural networks, AutoML integration. Feature Store Vertex AI, Vertex AI Pipelines (Kubeflow). Data Catalog tags, taxonomies, policy tags pour column-level security. Authorized views, row access policies. Anonymization avec Cloud DLP (de-identification, tokenization, format-preserving encryption).
Services / outils: Looker, Looker Studio, BigQuery ML, Vertex AI, Dataplex, Data Catalog, Cloud DLP (Sensitive Data Protection), Connected Sheets, Analytics Hub.
Temps estimé: 10-12h

Domain 5 : Maintaining and automating data workloads 16%

Objectifs: Domaine operationnel : tu dois savoir monitorer, debugger et optimiser des pipelines en production. Les questions portent sur Cloud Monitoring, Cloud Logging, alerting policies, SLO et error budgets. La gestion des couts (BigQuery slot reservations, autoscaling Dataflow, committed use discounts) est evaluee. Tu dois aussi maitriser le CI/CD des pipelines (Cloud Build, Terraform/IaC), la gestion des secrets (Secret Manager), et la haute disponibilite (multi-region, failover). La partie troubleshooting est tres pratique : analyse de logs, requetes lentes, jobs Dataflow en erreur.
Concepts clés: INFORMATION_SCHEMA BigQuery pour audit des couts. Query plan explanation, slot contention. Dataflow autoscaling, streaming engine. Quotas et limites, requests d'augmentation. Disaster recovery patterns (active-active, active-passive). Backup/restore BigQuery (time travel 7 jours, snapshots, copies cross-region). Terraform pour IaC, modules reutilisables. Cloud Build triggers, deployment pipelines.
Services / outils: Cloud Monitoring, Cloud Logging, Cloud Trace, Error Reporting, Cloud Build, Artifact Registry, Secret Manager, Terraform, Cloud Deploy, Recommender.
Temps estimé: 8-10h

Plan de révision hebdomadaire

Planning recommande sur 8 semaines (10-12h/semaine) pour un profil avec experience data. Semaine 1 : lecture du Exam Guide officiel et du Professional Data Engineer Study Guide (Wiley). Creer un compte GCP avec credit gratuit 300 USD. Faire les labs Qwiklabs 'Data Engineering on Google Cloud' module 1-2 (architecture, stockage). Semaine 2 : approfondissement BigQuery (partitioning, clustering, BQML). Tutoriels officiels, requetes pratiques sur datasets publics (bigquery-public-data). Semaine 3 : Dataflow et Apache Beam. Coder 3-4 pipelines (batch et streaming), comprendre windowing. Cours Coursera 'Building Resilient Streaming Analytics Systems'. Semaine 4 : Pub/Sub, Composer, Dataproc. Construire un pipeline end-to-end Pub/Sub > Dataflow > BigQuery > Looker Studio. Semaine 5 : ML et Vertex AI. Entrainer un modele BQML, deployer un endpoint Vertex AI. Comprendre les MLOps basics (pipelines, feature store, monitoring). Semaine 6 : gouvernance, securite, Dataplex, DLP, IAM. Etudier les patterns RGPD. Premier examen blanc (Whizlabs ou ExamTopics) pour identifier les gaps. Semaine 7 : revision ciblee sur les domaines faibles. Refaire les labs sur Bigtable (row key design est piege classique). Deuxieme examen blanc. Semaine 8 : derniere semaine, focus sur les case studies officiels (Flowlogistic, MJTelco, Helicopter Racing League meme s'ils ne sont plus a l'examen, restent didactiques). 2-3 examens blancs supplementaires avec analyse detaillee des erreurs. Reservation de l'examen via Webassessor 5-7 jours avant. La veille : repos, relecture rapide des fiches de synthese (services, prix relatifs, patterns).

Besoin d'un planning sur mesure ? 30 jours · 60 jours · 90 jours

Ressources recommandées

Documentation officielle Google

Exam guide officiel, sample questions et liens vers les parcours de formation Google Cloud Skills Boost.

Coursera : Preparing for Google Cloud Professional Data Engineer

Specialisation officielle Google sur Coursera, 6 cours avec labs Qwiklabs integres, environ 2 mois a temps partiel.

Google Cloud Skills Boost

Parcours Data Engineer officiel avec labs hands-on, challenge labs et skill badges. Indispensable pour la pratique.

Reddit r/googlecloud et Discord GCP

Communaute active, retours d'experience post-examen, dumps a eviter mais discussions techniques de qualite.

5 erreurs classiques à éviter

Erreur 1 : Confondre Bigtable et BigQuery. Bigtable = NoSQL wide-column pour faible latence et gros volumes time-series, BigQuery = data warehouse analytique. Astuce : si la question mentionne 'sub-10ms latency' ou IoT massif, pense Bigtable.
Erreur 2 : Mal designer une row key Bigtable. Eviter les timestamps en debut de cle (hotspot), preferer reverse timestamp ou salting. Cette erreur revient dans 20% des questions Bigtable.
Erreur 3 : Oublier que BigQuery facture aussi le stockage long terme (90 jours sans modification = -50%). Ne pas confondre slots on-demand vs reservations flat-rate dans les questions de cost optimization.
Erreur 4 : Choisir Dataproc quand Dataflow serait optimal. Dataflow = serverless Apache Beam, recommande par defaut. Dataproc = uniquement si code Spark/Hadoop existant a migrer ou besoin specifique d'ecosysteme Hadoop.
Erreur 5 : Ignorer Dataplex et les policy tags pour la gouvernance. Les questions sur column-level security attendent souvent Dataplex + BigQuery policy tags, pas IAM brut.

5 questions types corrigées

Q1. Une entreprise IoT ingere 500 000 evenements/seconde et necessite des lectures avec latence inferieure a 10ms pour un dashboard temps reel. Quelle architecture choisir ?

Réponse : B

Bigtable est concu pour des debits massifs en ecriture et des lectures sub-10ms, ideal pour IoT/time-series. BigQuery (A) est analytique avec latences de l'ordre de la seconde, inadapte au temps reel sub-10ms. Firestore (C) ne tient pas 500k events/sec. Cloud SQL (D) est relationnel et ne scale pas a ce volume. Dataflow streaming gere parfaitement l'ingestion Pub/Sub vers Bigtable avec exactly-once semantics. C'est le pattern de reference Google pour les workloads IoT massifs.

Q2. Vous devez securiser l'acces a une colonne 'salary' dans une table BigQuery pour que seuls les RH puissent la voir. Quelle approche est recommandee ?

Réponse : C

Les policy tags appliques via Dataplex (anciennement Data Catalog) permettent une securite au niveau colonne native dans BigQuery. On cree une taxonomie, on tag la colonne 'salary' avec un policy tag 'PII-Finance', et seuls les principals avec le role Fine-Grained Reader sur ce tag voient les donnees. Les authorized views (A) fonctionnent mais multiplient les objets. Row access policies (B) filtrent les lignes, pas les colonnes. L'IAM dataset (D) est trop grossier.

Q3. Un pipeline Dataflow streaming traite des evenements avec late data jusqu'a 30 minutes. Comment configurer le windowing ?

Réponse : B

Pour gerer le late data, il faut un watermark accompagne d'allowed lateness explicite (30 min) et un trigger accumulating pour mettre a jour les resultats quand des donnees tardives arrivent. La reponse A ignore les donnees tardives. La reponse C ne fait pas de fenetrage event-time, biaisant les agregations. Les session windows (D) sont pour grouper des evenements par inactivite, pas pour gerer le late data. C'est un pattern classique Apache Beam, frequemment teste.

Voir plus de questions gratuites →

Carrière & salaire après GCP-PDE

En France et en Europe en 2026, un Data Engineer certifie GCP-PDE touche en moyenne 55-65k EUR junior (2-4 ans), 65-80k EUR confirme (4-7 ans) et 80-110k EUR senior/lead. A Paris, les FAANG et licornes (Doctolib, Datadog, Mistral) montent jusqu'a 130k EUR + equity. Les ESN (Capgemini, Sopra, Accenture) paient entre 50 et 75k EUR selon experience. La cert ouvre vers les roles ML Engineer, Analytics Engineer, Cloud Data Architect, et Head of Data. Certifications complementaires recommandees : Google Cloud Professional Machine Learning Engineer (focus Vertex AI), Professional Cloud Architect, ou dbt Analytics Engineer pour completer le stack moderne. Combiner GCP-PDE + Terraform Associate booste fortement les profils MLOps/DataOps recherches.

Détail des salaires GCP-PDE en 2026 →

FAQ — GCP-PDE

Combien de temps faut-il pour preparer GCP-PDE ?

Entre 6 et 10 semaines a raison de 10-12h/semaine pour un profil ayant deja une experience data. Comptez 3-4 mois si vous decouvrez GCP. La pratique hands-on est indispensable : au moins 40h de labs.

Cette certification est-elle reconnue en France ?

Oui, tres largement. Google a des partenariats avec Carrefour, BNP Paribas, Renault, Orange, et la cert est citee explicitement dans plus de 4500 offres LinkedIn France en 2026. Elle est consideree au niveau de l'AWS Data Analytics Specialty.

Quel est le taux de reussite a GCP-PDE ?

Google ne publie pas de chiffres officiels. Les retours communautaires (Reddit, Discord) estiment le taux de reussite au premier essai autour de 55-65%, ce qui en fait une cert exigeante necessitant une preparation serieuse.

Quel est le salaire apres GCP-PDE ?

En France 2026 : 55-65k EUR junior, 65-80k EUR confirme, 80-110k EUR senior. A Paris dans les scale-ups tech, jusqu'a 130k EUR + equity. Bonus moyen post-certification : +15 a +25%.

Faut-il une experience prealable ?

Google recommande 3+ ans en industrie dont 1 an sur GCP. Sans experience pratique, l'examen est tres difficile car les questions sont scenario-based. Au minimum, completer le parcours Cloud Skills Boost Data Engineer (80h).

GCP-PDE ou cert concurrente : laquelle choisir ?

Si votre entreprise utilise GCP ou cible le marche europeen tech moderne, GCP-PDE. Pour AWS, choisir AWS Data Engineer Associate. Pour Azure, DP-203. GCP-PDE est reputee plus technique et complete sur le ML que ses concurrentes.

Combien coute l'examen GCP-PDE ?

200 USD soit environ 185 EUR en 2026. Pas de TVA pour les particuliers hors UE-USA. Possibilite de voucher 50% via certains events Google (Cloud Next, Summit) ou programmes partenaires.

Combien de fois peut-on repasser GCP-PDE ?

En cas d'echec : 14 jours avant le 2e essai, 60 jours avant le 3e, 365 jours apres le 3e echec. Chaque tentative est payante au tarif plein. Mieux vaut bien preparer et passer une seule fois.

Prêt à passer à la pratique ?

Lancez votre examen blanc gratuit ou faites le test d'orientation pour valider votre choix.

Démarrer l'examen blanc GCP-PDE → Test d'orientation