Questions d'entraînement — MLA

Question 1

Un data scientist entraîne un modèle de classification binaire pour détecter des transactions frauduleuses. Il utilise la cross-validation avec 5 folds. Les scores AUC-ROC obtenus sur chaque fold sont : 0.92, 0.68, 0.90, 0.91, 0.89. Quelle est l'interprétation la plus correcte de ces résultats et l'action recommandée ?

Answer

A. La moyenne des scores (0.86) est un bon indicateur de performance globale. Le modèle peut être déployé car l'AUC moyenne dépasse 0.85, ce qui est un seuil acceptable pour la détection de fraude.

Answer

B. La variance élevée entre les folds, en particulier le score anormalement bas du fold 2 (0.68), indique un problème potentiel de data leakage, de distribution non homogène des données, ou de preprocessing incorrect. Il faut investiguer ce fold spécifiquement avant de tirer des conclusions.

Answer

C. Les résultats montrent que le modèle est instable et qu'il faut abandonner la cross-validation au profit d'un simple train/test split qui donnera un résultat unique et plus fiable.

Answer

D. Le fold 2 est un outlier statistique qu'il faut exclure du calcul de la moyenne. La moyenne corrigée sur 4 folds (0.905) reflète mieux les vraies performances du modèle.

Question 2

Dans le cadre d'un projet de détection de fraude bancaire, un ML engineer doit choisir entre plusieurs métriques d'évaluation. Le coût business d'une fraude non détectée (faux négatif) est estimé à 10 000€ en moyenne, tandis que le coût d'une alerte faussement positive (transaction légitime bloquée) est de 50€ en friction client. Quelle métrique doit être prioritairement optimisée ?

Answer

A. La precision (proportion de vrais positifs parmi les prédictions positives) car il faut minimiser les fausses alertes pour ne pas déranger les clients.

Answer

B. L'accuracy globale car elle donne la meilleure vue d'ensemble de la performance du modèle.

Answer

C. Le recall (sensibilité / taux de vrais positifs) car le coût d'une fraude non détectée est 200 fois supérieur à celui d'une fausse alerte, et manquer une fraude a un impact business bien plus élevé.

Answer

D. Le coefficient de détermination R² car il mesure la qualité de prédiction du modèle indépendamment du seuil de décision.

Question 3

Une équipe de data science travaille sur un modèle de prédiction du taux de désabonnement (churn) des clients. Le dataset contient 95% de clients fidèles et 5% de clients ayant résilié. Après entraînement d'un modèle de régression logistique, l'accuracy atteint 95%. Quelle est l'interprétation correcte de ce résultat ?

Answer

A. Le modèle est performant car 95% d'accuracy est un excellent score pour un problème de classification binaire.

Answer

B. L'accuracy est trompeuse car le modèle pourrait simplement prédire la classe majoritaire pour tous les exemples, et il faut plutôt évaluer avec des métriques comme le F1-score, la precision et le recall.

Answer

C. Le modèle est performant mais il faut augmenter le nombre d'epochs pour atteindre 99% d'accuracy.

Answer

D. L'accuracy de 95% confirme que la régression logistique est toujours le meilleur algorithme pour les problèmes de churn prediction.

Question 4

Un data scientist utilise Databricks AutoML pour entraîner un modèle de classification sur un dataset de 500 000 lignes. Il souhaite que AutoML explore automatiquement plusieurs algorithmes et effectue le tuning des hyperparamètres. Quelle affirmation décrit le MIEUX le comportement de Databricks AutoML dans ce scénario ?

Answer

A. AutoML génère un ensemble de notebooks exécutables contenant le code d'entraînement pour chaque trial, permettant au data scientist de les modifier et de les réexécuter manuellement.

Answer

B. AutoML entraîne un seul modèle optimisé en boîte noire sans fournir de visibilité sur le code ou les hyperparamètres testés.

Answer

C. AutoML nécessite que l'utilisateur spécifie manuellement la liste des algorithmes à tester avant de lancer l'expérience.

Answer

D. AutoML génère uniquement des modèles deep learning et ne prend pas en charge les algorithmes classiques comme scikit-learn ou XGBoost.

Question 5

Un ingénieur ML construit un pipeline de feature engineering pour un modèle de scoring de crédit. Il dispose de variables numériques avec des distributions très asymétriques (skewed) et de variables catégorielles à haute cardinalité (plus de 500 modalités). Quelle combinaison de techniques de preprocessing est la plus appropriée ?

Answer

A. StandardScaler pour les variables numériques et One-Hot Encoding pour les variables catégorielles.

Answer

B. RobustScaler ou transformation logarithmique pour les variables numériques et Target Encoding ou Feature Hashing pour les variables catégorielles à haute cardinalité.

Answer

C. MinMaxScaler pour les variables numériques et Label Encoding pour les variables catégorielles.

Answer

D. Normalisation L2 pour les variables numériques et Binary Encoding pour toutes les variables catégorielles.

Examen MLA — MLA — Databricks Certified Machine Learning Associate

À propos de l'examen MLA

Comment se préparer à l'examen MLA ?

5 exemples de questions — MLA

Encore 55 questions dans l'examen complet

📖 Préparez-vous avec nos guides

Commencer l'examen MLA complet