Accueil · Guides de révision · DCAD

Guide complet DCAD — Databricks

Databricks Certified Associate Developer for Apache Spark (Python) · Programme, plan de révision, ressources, examen blanc gratuit.

TL;DR — Le guide en 1 minute

La certification Databricks Certified Associate Developer for Apache Spark (DCAD) valide les competences PySpark pour developpeurs data et ingenieurs ETL. Examen QCM de 45 questions en 90 minutes, score 70%, 200 USD. Prerequis : 6 mois d'experience Spark et Python. Debouches : Data Engineer, Spark Developer, Analytics Engineer avec salaires 50-75k EUR en France. Certification tres demandee en 2026 avec l'explosion du Lakehouse et de Databricks dans les architectures data modernes.

Pourquoi passer la certification DCAD ?

En 2026, Databricks domine le marche du Lakehouse avec une valorisation depassant 60 milliards USD et une adoption massive dans le CAC40 (BNP, Renault, Total, Carrefour). La certification DCAD est devenue un standard pour les recruteurs cherchant des profils PySpark operationnels. Le ROI est immediat : selon LinkedIn Talent Insights, les profils certifies Databricks beneficient d'une prime salariale de 12 a 18% par rapport aux non-certifies. La demande explose avec la migration des Data Warehouses vers le Lakehouse et l'adoption de Delta Lake comme format standard. Spark reste le moteur de calcul distribue le plus utilise au monde, et maitriser son API Python (PySpark) ouvre les portes du Data Engineering moderne. Contrairement aux certifications cloud generalistes (AWS, Azure), DCAD prouve une expertise technique pointue sur un outil concret utilise quotidiennement. Elle constitue aussi un prerequis informel pour la certification Professional Data Engineer Databricks, beaucoup plus valorisee (90k+ EUR). Passer DCAD en 2026, c'est se positionner sur un marche penurique ou les recruteurs peinent a trouver des developpeurs Spark autonomes capables de livrer des pipelines de production.

Caractéristiques de l'examen

Format	QCM 45 questions a choix multiple
Duree	90 minutes
Score requis	70% (32/45 questions correctes)
Prix officiel	200 USD (environ 185 EUR)
Langues	Anglais uniquement (pas de version francaise)
Validite	2 ans, renouvellement par re-examen
Prerequis	6 mois d'experience PySpark recommandes, bonnes bases Python

Programme détaillé par domaine

Domain 1 : Apache Spark Architecture Concepts 17%

Objectifs: Ce domaine evalue la comprehension de l'architecture distribuee de Spark. Le candidat doit savoir expliquer le role du Driver, des Executors, du Cluster Manager et comment les taches sont distribuees sur le cluster. Il faut maitriser la difference entre transformations narrow et wide, le concept de shuffle, le DAG d'execution et l'evaluation paresseuse (lazy evaluation). Comprendre comment Spark planifie les jobs en stages et tasks est central. Le candidat doit aussi connaitre le modele memoire de Spark (storage vs execution memory), la gestion des partitions et l'impact du parallelisme sur les performances.
Concepts clés: Driver Program, SparkSession, Cluster Manager (YARN, Kubernetes, Standalone), Executor JVM, Task, Stage, Job, DAG Scheduler, Catalyst Optimizer, Tungsten Engine, lazy evaluation, narrow vs wide transformations, shuffle operations, partition, RDD lineage, fault tolerance via lineage graph, broadcast variables, accumulators, dynamic allocation, speculative execution. Comprendre que Spark utilise un modele master-worker ou le Driver coordonne les Executors qui executent les taches en parallele. Le shuffle est l'operation la plus couteuse car elle implique des transferts reseau entre executors.
Services / outils: Apache Spark 3.5+, Databricks Runtime, Spark UI pour le debug, Ganglia metrics, Spark Connect, Photon (moteur vectorise Databricks), Adaptive Query Execution (AQE), Dynamic Partition Pruning. Connaitre les ports standards (4040 pour Spark UI) et les principales configurations spark.conf.
Temps estimé: 10-12h

Domain 2 : Apache Spark DataFrame API Applications 72%

Objectifs: Coeur de l'examen, ce domaine evalue la maitrise pratique de l'API DataFrame en PySpark. Le candidat doit savoir creer, manipuler et transformer des DataFrames, appliquer des filtres complexes, realiser des jointures (inner, left, right, full, semi, anti), faire des aggregations avec groupBy et window functions, gerer les valeurs nulles, et utiliser les UDF. Il faut maitriser la lecture et l'ecriture de differents formats (Parquet, Delta, JSON, CSV) avec les options appropriees. La manipulation de colonnes via pyspark.sql.functions est essentielle : col, lit, when, expr, cast, regexp_extract, date_format.
Concepts clés: DataFrame, Column, Row, Schema, StructType, StructField, DataType, select, filter/where, withColumn, withColumnRenamed, drop, distinct, dropDuplicates, orderBy, sort, groupBy, agg, pivot, join (types et conditions), union, intersect, except, Window functions (rank, dense_rank, row_number, lag, lead), partitionBy, orderBy dans Window, fonctions d'agregation (sum, avg, count, max, min, collect_list, collect_set), pyspark.sql.functions, UDF avec @udf decorator, Pandas UDF (vectorisees), broadcast join hint, repartition vs coalesce.
Services / outils: DataFrameReader, DataFrameWriter, formats Parquet, Delta Lake, JSON, CSV, Avro, ORC, partitionBy a l'ecriture, bucketBy, mode (append, overwrite, ignore, errorifexists), options de lecture (header, inferSchema, multiline). Maitriser spark.read.format() et df.write.format().
Temps estimé: 40-50h

Domain 3 : Spark SQL and Functions 8%

Objectifs: Ce domaine couvre l'utilisation de Spark SQL comme alternative ou complement a l'API DataFrame. Le candidat doit savoir creer des vues temporaires (createOrReplaceTempView, createGlobalTempView), executer des requetes SQL via spark.sql(), et comprendre l'equivalence entre operations DataFrame et SQL. Il faut maitriser les principales fonctions SQL : string functions, date functions, math functions, conditional expressions (CASE WHEN), et les fonctions de fenetrage en SQL.
Concepts clés: Temporary View, Global Temporary View, Managed vs External tables, spark.sql(), DDL (CREATE TABLE, DROP TABLE), DML (INSERT, MERGE), Common Table Expressions (CTE), subqueries, EXPLAIN pour analyser le plan d'execution, CAST, COALESCE, IFNULL, NVL, fonctions de date (current_date, date_add, datediff, to_date), fonctions string (concat, substring, regexp_replace, split), fonctions JSON (from_json, to_json, get_json_object).
Services / outils: Metastore Hive, Unity Catalog, catalog API (spark.catalog.listTables), saveAsTable, INSERT OVERWRITE, MERGE INTO pour upserts avec Delta Lake.
Temps estimé: 5-7h

Domain 4 : Performance Tuning and Optimization 2%

Objectifs: Domaine transversal evaluant la capacite a optimiser les jobs Spark. Le candidat doit identifier les goulots d'etranglement via le Spark UI, comprendre les strategies de jointure (Sort-Merge Join, Broadcast Hash Join, Shuffle Hash Join) et savoir quand forcer un broadcast. La gestion du data skew, le caching strategique et le choix du bon niveau de persistance sont evalues.
Concepts clés: Caching (cache, persist, StorageLevel MEMORY_ONLY, MEMORY_AND_DISK), unpersist, broadcast join via broadcast() ou hint /*+ BROADCAST */, data skew handling, salting technique, AQE (Adaptive Query Execution), skew join optimization, coalescing shuffle partitions, predicate pushdown, column pruning, partition pruning, Z-Ordering avec Delta Lake, OPTIMIZE et VACUUM commands.
Services / outils: Spark UI (Jobs, Stages, SQL tabs), Photon engine, Delta Lake OPTIMIZE, statistiques de table via ANALYZE TABLE.
Temps estimé: 5-7h

Domain 5 : Streaming and Delta Lake Basics 1%

Objectifs: Bien que minoritaire, ce domaine introduit Structured Streaming et Delta Lake. Le candidat doit comprendre le modele de micro-batch, les triggers, les modes de sortie (append, update, complete) et les bases de Delta Lake comme format ACID. La notion de checkpoint et de watermark pour le traitement event-time est evaluee succinctement.
Concepts clés: Structured Streaming, readStream, writeStream, trigger (ProcessingTime, Once, AvailableNow), outputMode, checkpointLocation, watermark, event-time vs processing-time, Delta Lake ACID, time travel (VERSION AS OF, TIMESTAMP AS OF), MERGE INTO, schema evolution, transaction log _delta_log.
Services / outils: Delta Lake 3.x, Auto Loader (cloudFiles), Delta Live Tables (mention), Kafka source, Event Hubs.
Temps estimé: 3-5h

Plan de révision hebdomadaire

Semaine 1 : Mise en place de l'environnement. Creer un compte Databricks Community Edition (gratuit) ou utiliser la version Trial Premium 14 jours. Installer PySpark en local via pip install pyspark. Lire la documentation officielle Apache Spark 3.5 sur l'architecture et faire le tutoriel Quickstart DataFrame. Objectif : 10h. Semaine 2 : Plonger dans l'API DataFrame. Travailler intensivement select, filter, withColumn, groupBy, agg. Realiser 20 exercices pratiques sur des datasets reels (NYC Taxi, Movielens). Maitriser pyspark.sql.functions. Objectif : 15h. Semaine 3 : Jointures et Window functions. C'est le coeur de l'examen. Pratiquer tous les types de joins, comprendre quand utiliser broadcast. Maitriser les fonctions de fenetrage (rank, lag, lead, sum cumulatif). Faire 15 exercices. Objectif : 15h. Semaine 4 : Spark SQL, lecture/ecriture de fichiers, Delta Lake basics. Pratiquer la conversion DataFrame vers SQL et vice-versa. Manipuler Parquet et Delta. Lire les chapitres dedies du livre Learning Spark 2nd Edition (gratuit chez Databricks). Objectif : 12h. Semaine 5 : Performance tuning. Etudier le Spark UI sur des jobs reels. Comprendre le shuffle, le caching, AQE. Lire la section Performance du Databricks Engineering Guide. Objectif : 10h. Semaine 6 : Examens blancs. Faire au minimum 3 examens blancs (Udemy, Whizlabs, Databricks Academy). Reviser les erreurs. Re-lire la documentation sur les points faibles. Passer l'examen officiel via Webassessor. Objectif : 10h. Total estime : 70-75h sur 6 semaines.

Besoin d'un planning sur mesure ? 30 jours · 60 jours · 90 jours

Ressources recommandées

Databricks Academy

Plateforme officielle avec cours self-paced gratuits 'Apache Spark Programming with Databricks', incluant labs et examens blancs

Documentation Apache Spark 3.5

Reference officielle PySpark, indispensable pour maitriser pyspark.sql.functions et l'API DataFrame

Learning Spark 2nd Edition (O'Reilly)

Livre gratuit offert par Databricks, couvre 90% du programme DCAD avec exemples PySpark

Databricks Community Forum

Communaute active pour poser des questions, retours d'experience sur l'examen et conseils de revision

5 erreurs classiques à éviter

Erreur 1 : Confondre repartition() et coalesce(). repartition declenche un shuffle complet et peut augmenter ou diminuer les partitions, coalesce evite le shuffle mais ne peut que reduire. A l'examen, plusieurs questions testent ce point precis.
Erreur 2 : Oublier que les transformations sont paresseuses (lazy). Les operations ne s'executent que lors d'une action (count, collect, write, show). Beaucoup de candidats echouent sur des questions ou le code semble executer immediatement.
Erreur 3 : Mal utiliser les UDF Python classiques au lieu des Pandas UDF vectorisees. Les UDF Python sont lentes car serialisent les donnees ligne par ligne. Toujours privilegier les fonctions natives pyspark.sql.functions ou les Pandas UDF.
Erreur 4 : Negliger les Window functions. Elles representent 15-20% des questions. Bien comprendre partitionBy, orderBy et rangeBetween/rowsBetween est crucial. Pratiquer rank vs dense_rank vs row_number.
Erreur 5 : Ignorer la difference entre cache() et persist(). cache() utilise MEMORY_AND_DISK par defaut en PySpark, persist() permet de choisir le StorageLevel. Toujours appeler une action apres cache pour materialiser le cache.

5 questions types corrigées

Q1. Quelle methode permet de reduire le nombre de partitions d'un DataFrame SANS declencher de shuffle complet ?

Réponse : B

coalesce() reduit le nombre de partitions en regroupant les partitions existantes sans shuffle reseau complet, ce qui est beaucoup plus efficace que repartition() qui redistribue toutes les donnees. coalesce ne peut cependant que diminuer le nombre de partitions, jamais l'augmenter. partitionBy concerne l'ecriture sur disque et bucketBy concerne le stockage en tables. C'est une optimisation classique apres un filter qui a fortement reduit le volume.

Q2. Quelle est la difference principale entre une transformation narrow et wide ?

Réponse : B

Une transformation narrow (map, filter, union) traite chaque partition independamment sans deplacer de donnees entre executors. Une transformation wide (groupBy, join, distinct, orderBy) necessite un shuffle, c'est-a-dire un transfert reseau de donnees entre partitions pour les regrouper selon une cle. Le shuffle est l'operation la plus couteuse en Spark car elle implique serialisation, transfert reseau et ecriture disque. Identifier les wide transformations permet d'optimiser ses jobs en minimisant les shuffles.

Q3. Comment forcer une jointure de type Broadcast Hash Join pour une petite table ?

Réponse : B

On utilise la fonction broadcast() de pyspark.sql.functions autour du petit DataFrame avant le join : df1.join(broadcast(df2), 'id'). Cela force Spark a diffuser df2 sur tous les executors, evitant le shuffle de df1 qui est generalement la grande table. Le broadcast est efficace quand la petite table tient en memoire (par defaut < 10 MB, configurable via spark.sql.autoBroadcastJoinThreshold). C'est une optimisation tres frequente pour les jointures de fait avec dimensions.

Voir plus de questions gratuites →

Carrière & salaire après DCAD

Le marche francais 2026 valorise tres fortement les competences PySpark. Selon Hays et Michael Page, un Data Engineer junior certifie DCAD demarre a 45-52k EUR, un profil confirme (3-5 ans) atteint 60-75k EUR, et un senior depasse 85k EUR a Paris. En freelance, les TJM Spark/Databricks oscillent entre 600 et 900 EUR. Les principaux recruteurs sont les banques (BNP, SocGen, CA), retailers (Carrefour, Leroy Merlin), industriels (Renault, Airbus) et ESN data (Sicara, Octo, Sopra Steria). DCAD constitue une porte d'entree vers les certifications plus avancees : Databricks Certified Data Engineer Professional (90k+ EUR), Databricks Machine Learning Associate, ou des combinaisons avec AWS Solutions Architect / Azure Data Engineer pour des profils Cloud Data Engineer tres demandes.

Détail des salaires DCAD en 2026 →

FAQ — DCAD

Combien de temps faut-il pour preparer DCAD ?

Comptez 60 a 80h de revision sur 6 a 8 semaines si vous avez deja des bases Python et SQL. Sans experience PySpark prealable, prevoyez 100-120h sur 3 mois pour bien maitriser l'API DataFrame et les Window functions.

Cette certification est-elle reconnue en France ?

Oui, tres bien reconnue. Databricks est present chez la majorite des grandes entreprises francaises (CAC40, banques, retail). DCAD figure de plus en plus dans les annonces LinkedIn pour les postes Data Engineer et apparait comme un atout differenciant en entretien.

Quel est le taux de reussite a DCAD ?

Databricks ne communique pas officiellement, mais les retours communautaires estiment le taux de reussite entre 65 et 75% au premier essai pour les candidats ayant suivi un parcours de revision structure. Les echecs viennent souvent d'une sous-estimation des Window functions et de l'optimisation.

Quel est le salaire apres DCAD ?

En France en 2026 : 45-52k EUR pour un junior, 60-75k EUR pour un confirme, 85k+ EUR pour un senior. En region parisienne ajoutez 10-15%. En freelance, TJM entre 600 et 900 EUR selon experience et secteur (banque/finance plus remunerateur).

Faut-il une experience prealable ?

Officiellement non, mais Databricks recommande 6 mois d'experience PySpark. En pratique, sans pratique reelle sur des datasets volumineux, les questions sur le shuffle, le caching et les Window functions sont difficiles. Au minimum, completez 30-40h de labs pratiques.

DCAD ou cert concurrente : laquelle choisir ?

DCAD est la reference pour PySpark. Les alternatives sont Cloudera CCA Spark (en declin) et AWS Certified Data Engineer (plus generaliste). Si vous travaillez avec Databricks, choisissez DCAD. Si environnement multi-cloud, completez avec AWS ou Azure Data Engineer.

Combien coute l'examen DCAD ?

200 USD (environ 185 EUR HT) payable par carte bancaire lors de l'inscription sur Webassessor. Examen passe en ligne avec surveillance via webcam (proctored). Aucun frais supplementaire mais prevoyez les outils de prep (cours en ligne 50-150 EUR optionnels).

Combien de fois peut-on repasser DCAD ?

En cas d'echec, vous devez attendre 14 jours avant de repasser l'examen. Pas de limite officielle au nombre de tentatives, mais chaque essai coute 200 USD. Au troisieme echec, il est fortement conseille de revoir entierement les domaines faibles avant de retenter.

Prêt à passer à la pratique ?

Lancez votre examen blanc gratuit ou faites le test d'orientation pour valider votre choix.

Démarrer l'examen blanc DCAD → Test d'orientation