Accueil › Certifications › MLA › Questions gratuites

Questions gratuites MLA — Databricks Certified Machine Learning Associate

Téléchargez gratuitement 60 questions d'entraînement pour la certification MLA proposée par Databricks. Toutes les questions sont accompagnées de corrections détaillées avec explications techniques.

Caractéristiques de l'examen blanc

Code de certification	MLA
Éditeur	Databricks
Nombre de questions	60
Type	QCM avec 4 réponses possibles
Niveau	associate
Catégorie	AI
Prix	100% gratuit

Aperçu de 8 questions représentatives

Voici un échantillon aléatoire de 8 questions tirées de notre base d'entraînement MLA. Pour accéder aux 60 questions complètes, lancez l'examen blanc gratuitement.

Question 1

Un data scientist prépare un dataset pour un modèle de classification dans Databricks. Le dataset contient 45 features numériques dont certaines sont fortement corrélées entre elles (multicolinéarité). Il souhaite réduire la dimensionnalité tout en conservant le maximum de variance explicative. Il envisage d'utiliser PCA (Principal Component Analysis) dans son pipeline Spark ML. Quelle est la bonne pratique pour intégrer PCA dans un pipeline Spark ML sur Databricks ?

A. Appliquer PCA directement sur les features brutes sans prétraitement, car l'implémentation Spark ML de PCA normalise automatiquement les données en interne
B. Assembler les features dans un vecteur avec VectorAssembler, puis appliquer StandardScaler pour centrer et réduire les données, et enfin appliquer PCA dans un Pipeline Spark ML
C. Exécuter PCA avec scikit-learn sur le driver en collectant toutes les données via .toPandas(), car Spark ML PCA ne supporte pas plus de 10 features
D. Utiliser la méthode .corr() de Spark pour identifier et supprimer manuellement les features corrélées au-delà d'un seuil de 0.9, rendant PCA inutile

Question 2

Un ingénieur ML déploie un modèle de recommandation ALS (Alternating Least Squares) avec Spark MLlib sur un cluster Databricks. Lors de l'inférence sur de nouvelles données, le modèle retourne des valeurs NaN pour certains utilisateurs. Quelle est la cause la plus probable et la solution recommandée ?

A. Le modèle ALS a convergé vers un minimum local. La solution est d'augmenter le paramètre maxIter et de réentraîner le modèle avec un learning rate plus élevé.
B. Les utilisateurs avec des prédictions NaN sont des 'cold start' users qui n'étaient pas présents dans les données d'entraînement. La solution est de configurer le paramètre coldStartStrategy='drop' ou 'nan' sur le modèle ALSModel.
C. Le cluster Databricks manque de mémoire pour stocker les facteurs latents. La solution est d'augmenter le paramètre rank du modèle ALS pour réduire la dimensionnalité.
D. Les données d'entrée contiennent des ratings négatifs incompatibles avec ALS. La solution est de normaliser tous les ratings entre 0 et 1 avant l'entraînement.

Question 3

Un data scientist construit un modèle de prédiction sur Databricks et constate que plusieurs colonnes numériques contiennent des valeurs manquantes (entre 5% et 20% selon les colonnes). Il utilise PySpark MLlib pour le preprocessing. Quelle stratégie d'imputation est la plus appropriée dans un pipeline MLlib production-ready ?

A. Supprimer toutes les lignes contenant au moins une valeur manquante avec df.dropna() avant l'entraînement.
B. Utiliser la classe Imputer de pyspark.ml.feature pour remplacer les valeurs manquantes par la médiane de chaque colonne, intégrée dans un Pipeline MLlib.
C. Remplacer toutes les valeurs manquantes par 0 avec df.fillna(0) car c'est la méthode la plus simple et universelle.
D. Calculer les statistiques d'imputation dans un notebook séparé, les hardcoder dans le code de transformation, et appliquer les remplacements avec des expressions when().otherwise().

Question 4

Une équipe de data science travaille sur un modèle de prédiction du taux de désabonnement (churn) des clients. Le dataset contient 95% de clients fidèles et 5% de clients ayant résilié. Après entraînement d'un modèle de régression logistique, l'accuracy atteint 95%. Quelle est l'interprétation correcte de ce résultat ?

A. Le modèle est performant car 95% d'accuracy est un excellent score pour un problème de classification binaire.
B. L'accuracy est trompeuse car le modèle pourrait simplement prédire la classe majoritaire pour tous les exemples, et il faut plutôt évaluer avec des métriques comme le F1-score, la precision et le recall.
C. Le modèle est performant mais il faut augmenter le nombre d'epochs pour atteindre 99% d'accuracy.
D. L'accuracy de 95% confirme que la régression logistique est toujours le meilleur algorithme pour les problèmes de churn prediction.

Question 5

Un data scientist utilise MLflow sur Databricks et souhaite charger un modèle enregistré dans le Model Registry pour effectuer des prédictions par lots (batch inference). Le modèle est enregistré sous le nom 'fraud_detection_model' dans Unity Catalog avec l'alias 'Champion'. Quelle est la syntaxe correcte pour charger ce modèle ?

A. mlflow.pyfunc.load_model('models:/fraud_detection_model/Champion')
B. mlflow.pyfunc.load_model('models:/fraud_detection_model@Champion')
C. mlflow.sklearn.load_model('registry://fraud_detection_model?alias=Champion')
D. mlflow.load_model('models:/fraud_detection_model/latest')

Question 6

Un data scientist utilise Databricks Feature Store pour servir des features en temps réel lors de l'inférence d'un modèle de détection de fraude. Le modèle a été entraîné avec des features provenant de deux Feature Tables : 'client_features' (clé: client_id) et 'transaction_features' (clé: transaction_id). Au moment de l'inférence en ligne, seuls client_id et transaction_id sont fournis dans la requête. Comment le Feature Store gère-t-il le scoring ?

A. Le modèle doit être exporté sans les features du Feature Store, et l'application appelante doit fournir toutes les valeurs de features dans la requête de scoring.
B. Le Feature Store effectue automatiquement des lookups sur les Feature Tables publiées vers un online store pour récupérer les features au moment du scoring, en utilisant les clés fournies.
C. Le modèle doit être recréé à chaque scoring batch en rejoignant manuellement les Feature Tables dans un notebook Databricks.
D. Les features doivent être matérialisées dans un cache Redis externe avant le scoring, et le modèle lit directement depuis Redis sans passer par le Feature Store.

Question 7

Un ingénieur ML constate que son modèle RandomForestClassifier entraîné avec Spark MLlib a une accuracy de 97% sur le jeu de test, mais les métriques de recall pour la classe minoritaire (fraude) sont inférieures à 10%. Le dataset contient 99% de transactions légitimes et 1% de fraudes. Quelle stratégie native de Spark MLlib peut aider à améliorer la performance sur la classe minoritaire sans recourir à des techniques de resampling externes ?

A. Augmenter le paramètre maxDepth du RandomForestClassifier pour capturer des patterns plus complexes de la classe minoritaire
B. Utiliser le paramètre weightCol dans le RandomForestClassifier pour attribuer un poids plus élevé aux instances de la classe minoritaire
C. Remplacer RandomForestClassifier par un GBTClassifier car il gère automatiquement les classes déséquilibrées
D. Augmenter le paramètre numTrees à 1000 pour que la forêt aléatoire ait plus de chances de capturer les instances rares

Question 8

Un data engineer prépare un pipeline ML et souhaite intégrer AutoML dans un workflow de production. Il veut récupérer programmatiquement le meilleur modèle généré par AutoML pour le déployer via MLflow Model Registry. Quel objet retourné par l'API AutoML contient les informations nécessaires pour accéder au meilleur modèle ?

A. L'appel AutoML retourne directement un objet MLflow Model prêt à être déployé, accessible via automl_result.model.
B. L'appel AutoML retourne un objet AutoMLSummary qui contient best_trial, lequel expose les propriétés mlflow_run_id et model_path permettant de charger le modèle via mlflow.pyfunc.load_model().
C. L'appel AutoML enregistre automatiquement le meilleur modèle dans le MLflow Model Registry sous le nom 'automl_best_model' et retourne uniquement le nom du modèle enregistré.
D. L'appel AutoML retourne un dictionnaire Python simple contenant les clés 'model_uri', 'metrics', et 'parameters' du meilleur modèle.

Accédez aux 60 questions complètes gratuitement

Aucune carte bancaire requise. Examen chronométré, corrections détaillées, score final.

Lancer l'examen blanc MLA →

Pourquoi s'entraîner avec Certifexpress ?

Questions au format officiel Databricks
Corrections détaillées avec explications techniques (200+ mots par question)
Examen chronométré comme le jour J
Option "Refaire les questions ratées" pour cibler vos lacunes
Suivi de votre progression dans votre tableau de bord personnel
Accès illimité, aucun abonnement requis