Guide complet MLA — Databricks

Databricks Certified Machine Learning Associate · Programme, plan de révision, ressources, examen blanc gratuit.

TL;DR — Le guide en 1 minute

La Databricks Certified Machine Learning Associate (MLA) valide les competences fondamentales en ML sur la Lakehouse Platform. Destinee aux data scientists, ML engineers et analystes ayant 6 mois d'experience sur Databricks, elle couvre Spark ML, MLflow, AutoML et Feature Store. Examen QCM de 45 questions en 90 minutes, score requis 70%, prix 200 USD. Prerequis : Python, pandas, notions ML supervise. Debouches : ML Engineer, Data Scientist, MLOps Engineer dans des entreprises adoptant le Lakehouse.

Pourquoi passer la certification MLA ?

En 2026, Databricks domine le marche du Lakehouse avec plus de 12 000 clients entreprises et une valorisation depassant 60 milliards USD apres son IPO. La certification MLA est devenue incontournable car le marche francais et europeen connait une penurie d'ingenieurs ML capables d'industrialiser des modeles a l'echelle. Selon LinkedIn Talent Insights 2026, les offres mentionnant Databricks ont augmente de 47% en France sur 12 mois, particulierement dans la banque (BNP, SocGen), l'assurance (AXA, Allianz), le retail (Carrefour, Decathlon) et l'industrie (TotalEnergies, Airbus). Le ROI est rapide : la certification se prepare en 4 a 6 semaines et permet d'acceder a des postes mieux remuneres (+15 a 25% en moyenne). Elle valorise le CV face a la concurrence des certifications AWS ML Specialty ou Azure DP-100, car Databricks est devenu le standard de fait pour le ML en production sur des donnees massives. Elle prouve la maitrise de MLflow, qui est devenu le standard open-source du MLOps, et atteste de competences operationnelles immediatement exploitables. Les recruteurs la valorisent comme un signal fort d'employabilite cloud-native.

Caractéristiques de l'examen

Format	QCM 45 questions
Duree	90 minutes
Score requis	70%
Prix officiel	200 USD (environ 185 EUR)
Langues	Anglais, Japonais (pas de francais en 2026)
Validite	2 ans
Prerequis	6 mois d'experience Databricks, Python, pandas, notions ML

Programme détaillé par domaine

Domain 1 : Databricks Machine Learning 29%

Objectifs: Ce domaine evalue la capacite a naviguer dans l'environnement Databricks ML, a creer et gerer des clusters ML optimises (Databricks Runtime ML), a utiliser les notebooks collaboratifs, a comprendre l'architecture Lakehouse et a exploiter le Repos Databricks pour le versioning Git. Le candidat doit savoir attacher des bibliotheques, utiliser les magic commands, gerer les permissions Unity Catalog et installer des dependances via pip ou conda. La maitrise du Feature Store (Feature Engineering in Unity Catalog) est centrale : creation de feature tables, lookup, point-in-time joins.
Concepts clés: Databricks Runtime ML vs Runtime standard, GPU clusters, single-node vs multi-node, autoscaling, Photon engine, Delta Lake comme couche de stockage. Comprendre le role d'Unity Catalog pour la gouvernance des modeles et features. Notebook scopes (%pip, %sh, %sql), widgets pour parametrer les notebooks. Connaitre AutoML pour generer rapidement un baseline : interface Glass-box AutoML qui produit notebooks Python reproductibles. Familiarite avec Databricks Jobs pour orchestrer les pipelines ML et Workflows multi-tasks. Distinction entre clusters interactifs et job clusters pour optimiser les couts.
Services / outils: MLflow Tracking Server integre, Feature Store API, AutoML, Databricks Runtime ML 15.x avec scikit-learn, XGBoost, PyTorch et TensorFlow preinstalles. Unity Catalog Model Registry, Databricks Repos pour Git, Hyperopt pour le tuning distribue.
Temps estimé: 10-12h

Domain 2 : ML Workflows 29%

Objectifs: Ce domaine teste la capacite a executer un workflow ML complet : exploration, preparation, feature engineering, entrainement, evaluation. Le candidat doit savoir utiliser pandas et Spark DataFrames, comprendre les conversions entre les deux via pandas API on Spark (anciennement Koalas). Il faut maitriser les techniques de splitting (train/validation/test), la prevention du data leakage, le cross-validation, les metriques (RMSE, MAE, F1, ROC-AUC) et leur interpretation selon le probleme metier. La gestion des donnees manquantes, des outliers, du desequilibre de classes et de la standardisation est evaluee.
Concepts clés: Feature engineering : one-hot encoding, target encoding, binning, scaling (StandardScaler, MinMaxScaler), imputation (SimpleImputer, KNNImputer). Comprendre Pipeline scikit-learn et Pipeline Spark MLlib pour eviter le data leakage. Cross-validation k-fold, stratified k-fold pour classification desequilibree. Hyperparameter tuning : grid search, random search, Bayesian via Hyperopt avec SparkTrials pour parallelisation. Connaitre les algorithmes de base : regression lineaire, logistique, arbres de decision, random forest, gradient boosting (XGBoost, LightGBM). Evaluation : matrice de confusion, precision/recall, AUC, lift.
Services / outils: scikit-learn, pandas, pyspark.ml, Hyperopt, MLflow autologging, AutoML pour baseline rapide.
Temps estimé: 12-15h

Domain 3 : Spark ML 33%

Objectifs: Domaine le plus pondere : maitrise de Spark MLlib pour le ML distribue sur de gros volumes. Le candidat doit comprendre quand utiliser Spark ML plutot que scikit-learn (volumes superieurs a la RAM d'un noeud), la difference entre Estimator et Transformer, la construction de Pipelines Spark ML. Il faut savoir utiliser VectorAssembler, StringIndexer, OneHotEncoder, et entrainer des modeles distribues comme LogisticRegression, DecisionTreeClassifier, RandomForestRegressor, GBTClassifier. La distribution de l'inference via pandas_udf et applyInPandas est evaluee.
Concepts clés: Architecture Spark : driver, executors, partitions, shuffle. Lazy evaluation et catalyst optimizer. Difference entre DataFrame API et RDD (deprecated pour ML). Comprendre que Spark ML necessite des features assemblees en un seul vecteur via VectorAssembler. Distributed training natif pour algorithmes lineaires et tree-based. Pour deep learning distribue : utiliser pandas_udf pour scoring batch a l'echelle. Joblib-spark pour distribuer scikit-learn. Cross-validation distribue avec CrossValidator Spark. Comprendre les limites : pas de XGBoost natif dans Spark ML (utiliser xgboost.spark).
Services / outils: pyspark.ml.feature, pyspark.ml.classification, pyspark.ml.regression, pyspark.ml.tuning, pandas_udf, xgboost.spark.SparkXGBClassifier.
Temps estimé: 15-18h

Domain 4 : Model Development 9%

Objectifs: Ce domaine couvre le developpement avance : selection de modeles, regularisation (L1, L2, ElasticNet), gestion du surapprentissage, interpretabilite (SHAP, feature importance). Le candidat doit comprendre le biais-variance tradeoff, savoir diagnostiquer un modele underfit ou overfit, et appliquer les bonnes techniques de regularisation. La comprehension des courbes d'apprentissage et de validation est requise.
Concepts clés: Regularisation Lasso (L1) pour selection de features, Ridge (L2), ElasticNet. Early stopping pour gradient boosting. Bagging vs boosting. Stacking et blending de modeles. SHAP values pour expliquer predictions individuelles, permutation importance. Apprentissage des biais : data drift, concept drift, fairness metrics. Detection automatique via Databricks Lakehouse Monitoring.
Services / outils: shap, mlflow.evaluate pour generer dashboards d'evaluation automatiques, Lakehouse Monitoring.
Temps estimé: 5-7h

Domain 5 : MLflow et Model Registry X% (inclus dans les autres domaines)

Objectifs: Bien que non comptabilise separement officiellement en 2026, MLflow est transversal a tous les domaines. Le candidat doit maitriser MLflow Tracking (log_param, log_metric, log_artifact, log_model), MLflow Projects, MLflow Models (signatures, input examples, conda env, pip requirements) et MLflow Model Registry dans Unity Catalog avec aliases (Champion, Challenger) remplacant les anciens stages (Staging, Production).
Concepts clés: Autologging par framework, nested runs pour hyperparameter tuning, experiments organization. Model flavors : sklearn, spark, pyfunc, transformers. Signature inference. Promotion de modeles via aliases dans Unity Catalog. Model serving endpoints pour deploiement temps reel. Webhooks et CI/CD avec Databricks Asset Bundles.
Services / outils: mlflow.sklearn, mlflow.spark, mlflow.pyfunc, Model Registry, Model Serving, Databricks Asset Bundles.
Temps estimé: 8-10h

Plan de révision hebdomadaire

Planning recommande sur 6 semaines a raison de 8 a 10 heures par semaine pour un candidat ayant deja des bases en Python et ML. Semaine 1 : Decouverte de l'environnement Databricks. Creer un compte Community Edition ou Free Trial. Lire la documentation officielle Databricks Machine Learning. Realiser le tutoriel Get Started with Databricks for Machine Learning. Pratiquer la creation de clusters ML et de notebooks. Semaine 2 : Approfondir le workflow ML. Suivre le cours Databricks Academy Scalable Machine Learning with Apache Spark. Implementer un projet end-to-end de classification sur un dataset Kaggle en utilisant pandas et scikit-learn dans Databricks. Logger toutes les experiences avec MLflow autologging. Semaine 3 : Spark ML en profondeur. Refactorer le projet precedent en pyspark.ml.Pipeline. Pratiquer VectorAssembler, StringIndexer, CrossValidator. Tester xgboost.spark sur un gros dataset (NYC Taxi par exemple). Comprendre les partitions et le tuning Spark. Semaine 4 : Feature Store et AutoML. Creer des feature tables dans Unity Catalog, pratiquer point-in-time lookups. Lancer AutoML sur 3 datasets differents et analyser les notebooks generes. Etudier les techniques d'hyperparameter tuning avec Hyperopt et SparkTrials. Semaine 5 : Model Registry, deploiement et MLOps. Enregistrer des modeles dans Unity Catalog Model Registry. Gerer les aliases Champion/Challenger. Deployer un endpoint Model Serving. Pratiquer SHAP pour l'interpretabilite. Etudier Lakehouse Monitoring. Semaine 6 : Revision et examens blancs. Passer au moins 3 examens blancs (Udemy, Skillcertpro). Reviser les questions ratees. Relire la documentation officielle sur les zones faibles. Reposer mental 24h avant l'examen. Passer l'examen en ligne via Kryterion Webassessor avec environnement propre.

Besoin d'un planning sur mesure ? 30 jours · 60 jours · 90 jours

Ressources recommandées

Documentation officielle Databricks ML

Reference complete sur MLflow, Feature Store, AutoML et Model Serving avec tutoriels pas-a-pas.

Databricks Academy

Cours officiels gratuits dont Scalable Machine Learning with Apache Spark, indispensable pour le domain Spark ML.

Databricks Community Edition

Environnement gratuit pour pratiquer notebooks, clusters limites et MLflow sans carte bancaire.

Databricks Community Forum

Forum officiel pour poser des questions techniques et echanger avec des certifies sur les pieges d'examen.

5 erreurs classiques à éviter

Erreur 1 : Confondre Databricks Runtime standard et Runtime ML. Le Runtime ML preinstalle MLflow, scikit-learn, XGBoost, TensorFlow et configure les GPU. Toujours selectionner un cluster ML pour les workloads d'entrainement.
Erreur 2 : Negliger Spark ML au profit de scikit-learn. Le domain Spark ML pese 33% : maitriser absolument VectorAssembler, Pipeline Spark, CrossValidator et la difference Estimator/Transformer. Pratiquer xgboost.spark plutot que xgboost classique.
Erreur 3 : Ignorer Unity Catalog Model Registry au profit de l'ancien Workspace Model Registry. Depuis 2024, l'examen porte sur Unity Catalog avec aliases (Champion/Challenger) et non plus stages (Staging/Production).
Erreur 4 : Mal gerer le data leakage. Toujours encapsuler preprocessing et modele dans un Pipeline pour eviter de fitter le scaler sur les donnees de test. Question piege frequente a l'examen.
Erreur 5 : Sous-estimer Hyperopt avec SparkTrials. Comprendre la difference entre Trials (sequentiel) et SparkTrials (parallele distribue) et savoir quand utiliser chacun selon le type de modele (Spark ML vs scikit-learn).

5 questions types corrigées

Q1. Quelle est la maniere correcte de distribuer le tuning d'hyperparametres d'un modele scikit-learn sur un cluster Databricks ?

Réponse : B

SparkTrials distribue les evaluations d'hyperparametres sur les executors du cluster Spark, ideal pour les modeles single-node comme scikit-learn. Trials() execute sequentiellement sur le driver. GridSearchCV ne profite pas du cluster distribue. CrossValidator est reserve aux modeles Spark ML. Cette distinction est centrale pour passer a l'echelle un tuning bayesien sur des centaines d'essais.

Q2. Quelle approche permet de logger automatiquement parametres, metriques et modele lors d'un entrainement scikit-learn ?

Réponse : B

mlflow.sklearn.autolog() active l'autologging qui capture automatiquement les hyperparametres du fit, les metriques d'entrainement, le modele serialise avec signature et le requirements.txt. C'est la methode recommandee pour gagner du temps. log_model manuel necessite d'expliciter chaque element. start_run cree un run vide sans logging automatique. Databricks Jobs sert a l'orchestration, pas au tracking.

Q3. Dans un Pipeline Spark ML pour une regression, quel transformer combine plusieurs colonnes numeriques en une seule colonne vecteur ?

Réponse : C

VectorAssembler agrege plusieurs colonnes (numeriques ou vecteurs) en une seule colonne de type Vector, format obligatoire pour les algorithmes Spark ML. StringIndexer convertit strings en indices numeriques. OneHotEncoder transforme indices en vecteurs binaires. StandardScaler normalise un vecteur existant. L'ordre canonique d'un Pipeline est : StringIndexer puis OneHotEncoder puis VectorAssembler puis StandardScaler puis Estimator.

Voir plus de questions gratuites →

Carrière & salaire après MLA

En France et en Europe en 2026, un Data Scientist certifie MLA touche entre 52 000 et 68 000 EUR bruts annuels en debut de carriere, et 70 000 a 95 000 EUR avec 4 a 6 ans d'experience. Les ML Engineers certifies depassent souvent 85 000 EUR a Paris, avec des pics a 110 000 EUR dans la finance et la tech. La certification ouvre les portes des ESN partenaires Databricks (Capgemini, Devoteam, Onepoint, Sopra Steria) et des entreprises Lakehouse-first. Evolution naturelle vers la Databricks Certified Machine Learning Professional, puis vers des roles de Lead MLOps Engineer ou ML Platform Architect. Certifications complementaires : Databricks Data Engineer Associate, AWS ML Specialty ou Azure DP-100 pour profil cloud hybride.

Détail des salaires MLA en 2026 →

FAQ — MLA

Combien de temps faut-il pour preparer MLA ?

Comptez 4 a 6 semaines a raison de 8 a 10 heures par semaine si vous avez deja des bases en Python et ML. Pour un debutant complet en Databricks, prevoyez 8 a 10 semaines incluant la pratique sur Community Edition.

Cette certification est-elle reconnue en France ?

Oui, fortement reconnue. Databricks est partenaire strategique de nombreuses entreprises francaises du CAC 40 (BNP Paribas, AXA, TotalEnergies, Carrefour). Les ESN partenaires recherchent activement des profils certifies en 2026.

Quel est le taux de reussite a MLA ?

Databricks ne publie pas de chiffres officiels, mais les retours communautaires indiquent un taux d'environ 65 a 70% au premier essai. Avec preparation serieuse et pratique sur la plateforme, le taux depasse 85%.

Quel est le salaire apres MLA ?

En France 2026, comptez 52 000 a 68 000 EUR pour un junior, 70 000 a 95 000 EUR pour un confirme. Les ML Engineers a Paris ou Londres depassent souvent 100 000 EUR avec quelques annees d'experience Databricks.

Faut-il une experience prealable ?

Databricks recommande officiellement 6 mois d'experience hands-on sur la plateforme. Une connaissance solide de Python, pandas, scikit-learn et des concepts ML supervises est indispensable. Notions de Spark fortement recommandees.

MLA ou cert concurrente : laquelle choisir ?

MLA est preferable si votre entreprise utilise Databricks ou le Lakehouse. Pour un profil AWS pur, preferez AWS ML Specialty. Pour Azure, choisissez DP-100. MLA est la plus orientee MLOps modernes et open-source (MLflow, Delta).

Combien coute l'examen MLA ?

L'examen coute 200 USD soit environ 185 EUR en 2026, payable par carte bancaire via Kryterion Webassessor. Pas de TVA pour les particuliers hors UE professionnelle. Les retakes coutent egalement 200 USD.

Combien de fois peut-on repasser MLA ?

En cas d'echec, un delai de 14 jours est requis avant de repasser. Pas de limite maximum de tentatives officiellement, mais chaque essai coute 200 USD. Recommandation : ne pas repasser sans avoir analyse en detail les domaines faibles.

Prêt à passer à la pratique ?

Lancez votre examen blanc gratuit ou faites le test d'orientation pour valider votre choix.

Démarrer l'examen blanc MLA → Test d'orientation