Questions gratuites MLA — Databricks Certified Machine Learning Associate
Téléchargez gratuitement 60 questions d'entraînement pour la certification MLA proposée par Databricks. Toutes les questions sont accompagnées de corrections détaillées avec explications techniques.
Caractéristiques de l'examen blanc
| Code de certification | MLA |
| Éditeur | Databricks |
| Nombre de questions | 60 |
| Type | QCM avec 4 réponses possibles |
| Niveau | associate |
| Catégorie | AI |
| Prix | 100% gratuit |
Aperçu de 8 questions représentatives
Voici un échantillon aléatoire de 8 questions tirées de notre base d'entraînement MLA. Pour accéder aux 60 questions complètes, lancez l'examen blanc gratuitement.
Question 1
Une équipe de data science travaille sur un projet de prédiction de churn client. Ils souhaitent créer un Feature Store centralisé sur Databricks pour partager des features entre plusieurs modèles ML. Quelle approche est recommandée pour publier une feature table dans Unity Catalog Feature Store ?
- A. Utiliser la méthode fe.create_table() du FeatureEngineeringClient pour créer la table, puis fe.write_table() pour y écrire les features avec une primary key définie
- B. Créer une table Delta standard avec spark.write.saveAsTable() puis la convertir manuellement en feature table via une commande ALTER TABLE
- C. Exporter les features en CSV dans un volume Unity Catalog puis les importer via un notebook séparé avec pandas
- D. Utiliser directement MLflow.log_artifact() pour enregistrer les features comme artefacts associés à un run expérimental
Question 2
Une équipe de data science utilise MLflow Tracking pour suivre les performances de modèles de prévision de la demande. Lors d'un entraînement long, l'ingénieur souhaite enregistrer la métrique de perte (loss) à chaque époque pour visualiser la courbe d'apprentissage dans l'interface MLflow. Quelle est la bonne approche pour enregistrer ces métriques séquentielles ?
- A. Appeler mlflow.log_metric('loss', value) dans la boucle d'entraînement, en spécifiant le paramètre step correspondant à l'époque
- B. Créer une liste de toutes les valeurs de loss et appeler mlflow.log_metrics({'loss': loss_list}) à la fin de l'entraînement
- C. Appeler mlflow.log_param('loss_history', str(loss_values)) pour sauvegarder l'historique complet en un seul paramètre
- D. Sauvegarder les valeurs de loss dans un fichier CSV et l'enregistrer avec mlflow.log_artifact('loss_history.csv')
Question 3
Un data engineer configure un pipeline MLlib sur Databricks et doit persister un PipelineModel entraîné pour le réutiliser en inférence batch quotidienne. Le modèle inclut un StringIndexer, un VectorAssembler et un GBTClassifier. Il souhaite que le modèle soit chargeable depuis un autre cluster Databricks avec une version différente de Spark. Quelle approche est la plus robuste pour la sérialisation et le déploiement ?
- A. Utiliser pickle de Python pour sérialiser le PipelineModel entier dans un fichier .pkl stocké sur DBFS, puis le charger avec pickle.load() sur l'autre cluster.
- B. Appeler PipelineModel.save() pour persister le modèle au format natif MLlib sur un chemin DBFS ou cloud storage, et le recharger avec PipelineModel.load() en tenant compte de la compatibilité inter-versions de Spark.
- C. Exporter le modèle au format ONNX avec la méthode .toONNX() native de Spark MLlib pour garantir la portabilité entre versions et frameworks.
- D. Convertir le PipelineModel en pandas DataFrame contenant les coefficients du modèle, sauvegarder ce DataFrame en Parquet, puis reconstruire le modèle manuellement sur l'autre cluster.
Question 4
Un data scientist prépare un dataset pour un modèle de classification dans Databricks. Le dataset contient 45 features numériques dont certaines sont fortement corrélées entre elles (multicolinéarité). Il souhaite réduire la dimensionnalité tout en conservant le maximum de variance explicative. Il envisage d'utiliser PCA (Principal Component Analysis) dans son pipeline Spark ML. Quelle est la bonne pratique pour intégrer PCA dans un pipeline Spark ML sur Databricks ?
- A. Appliquer PCA directement sur les features brutes sans prétraitement, car l'implémentation Spark ML de PCA normalise automatiquement les données en interne
- B. Assembler les features dans un vecteur avec VectorAssembler, puis appliquer StandardScaler pour centrer et réduire les données, et enfin appliquer PCA dans un Pipeline Spark ML
- C. Exécuter PCA avec scikit-learn sur le driver en collectant toutes les données via .toPandas(), car Spark ML PCA ne supporte pas plus de 10 features
- D. Utiliser la méthode .corr() de Spark pour identifier et supprimer manuellement les features corrélées au-delà d'un seuil de 0.9, rendant PCA inutile
Question 5
Un data scientist utilise MLflow sur Databricks et souhaite charger un modèle enregistré dans le Model Registry pour effectuer des prédictions par lots (batch inference). Le modèle est enregistré sous le nom 'fraud_detection_model' dans Unity Catalog avec l'alias 'Champion'. Quelle est la syntaxe correcte pour charger ce modèle ?
- A. mlflow.pyfunc.load_model('models:/fraud_detection_model/Champion')
- B. mlflow.pyfunc.load_model('models:/fraud_detection_model@Champion')
- C. mlflow.sklearn.load_model('registry://fraud_detection_model?alias=Champion')
- D. mlflow.load_model('models:/fraud_detection_model/latest')
Question 6
Une équipe data science utilise Spark MLlib pour construire un modèle de régression linéaire sur un dataset distribué de 500 Go. Ils constatent que le VectorAssembler produit des vecteurs de features très creux (sparse) car la majorité des features proviennent d'un OneHotEncoder appliqué sur une variable catégorielle à 10 000 modalités. Quel impact cela a-t-il sur le stockage et les performances, et quelle est la bonne pratique dans Spark MLlib ?
- A. Les vecteurs sparse sont inefficaces dans Spark MLlib. Il faut convertir toutes les features en DenseVector avec la méthode toDense() avant l'entraînement pour accélérer les calculs.
- B. Spark MLlib gère nativement les SparseVector de manière optimisée. Le VectorAssembler crée automatiquement des SparseVector lorsque le taux de zéros est élevé, ce qui réduit la consommation mémoire et accélère les opérations d'algèbre linéaire.
- C. Il faut utiliser PCA obligatoirement après le OneHotEncoder pour réduire la dimensionnalité avant d'entraîner le modèle, sinon Spark MLlib ne peut pas traiter des vecteurs de dimension supérieure à 1 000.
- D. Les SparseVector ne sont supportés que par les modèles d'arbres (DecisionTree, RandomForest). Pour LinearRegression, il faut impérativement utiliser des DenseVector.
Question 7
Une équipe de data science construit un pipeline de machine learning avec Spark MLlib pour prédire le churn client. Ils doivent appliquer plusieurs transformations (StringIndexer, OneHotEncoder, VectorAssembler) suivies d'un modèle LogisticRegression. Quelle est l'approche recommandée pour orchestrer ces étapes et garantir la reproductibilité du pipeline en production ?
- A. Appliquer chaque transformation séparément avec des appels .transform() successifs sur le DataFrame, puis entraîner le modèle indépendamment.
- B. Utiliser un objet Pipeline de pyspark.ml qui enchaîne toutes les étapes (Transformers et Estimators) et appeler .fit() une seule fois sur le DataFrame d'entraînement.
- C. Créer une fonction Python personnalisée qui encapsule toutes les transformations et l'entraînement, puis l'appliquer avec un UDF Spark.
- D. Utiliser pyspark.ml.feature.SQLTransformer pour exécuter toutes les transformations en une seule requête SQL, puis passer le résultat au modèle.
Question 8
Un data scientist entraîne un réseau de neurones (deep learning) pour classifier des images de défauts industriels sur une chaîne de production. Le modèle atteint 99% d'accuracy sur le training set mais seulement 72% sur le test set. Après analyse, il constate que le dataset d'entraînement ne contient que 800 images. Quelle combinaison de techniques est la plus efficace pour améliorer la généralisation du modèle ?
- A. Augmenter la taille du réseau en ajoutant des couches et des neurones pour capturer des features plus complexes.
- B. Utiliser le transfer learning avec un modèle pré-entraîné (par exemple ResNet ou EfficientNet), appliquer la data augmentation (rotation, flip, zoom, brightness), et ajouter du dropout et de la régularisation L2.
- C. Entraîner le modèle plus longtemps avec un learning rate plus élevé pour forcer la convergence.
- D. Collecter uniquement plus de données sans modifier l'architecture du modèle ni les hyperparamètres.
Accédez aux 60 questions complètes gratuitement
Aucune carte bancaire requise. Examen chronométré, corrections détaillées, score final.
Lancer l'examen blanc MLA →
Pourquoi s'entraîner avec Certifexpress ?
- Questions au format officiel Databricks
- Corrections détaillées avec explications techniques (200+ mots par question)
- Examen chronométré comme le jour J
- Option "Refaire les questions ratées" pour cibler vos lacunes
- Suivi de votre progression dans votre tableau de bord personnel
- Accès illimité, aucun abonnement requis