AccueilGlossaire › Apache Spark

Apache Spark

Data

Moteur de calcul distribué pour le big data, supportant SQL, streaming, ML.

Apache Spark est un moteur de calcul distribué open source pour le traitement de gros volumes de données (big data), créé en 2009 à UC Berkeley. Plus rapide que Hadoop MapReduce (jusqu'à 100x en mémoire) grâce à son moteur in-memory et son DAG d'exécution, Spark est devenu le standard pour l'analytique distribué et le ML à grande échelle.

Spark se compose de plusieurs modules : Spark Core (moteur RDD), Spark SQL (DataFrames + SQL), Spark Streaming et Structured Streaming (temps réel), MLlib (machine learning), GraphX (graphes). Les langages supportés : Scala (natif), Python (PySpark — le plus utilisé), Java, R. L'unité de calcul est le RDD (Resilient Distributed Dataset), désormais largement remplacée par DataFrame/Dataset (typed, optimisable via Catalyst).

Spark s'exécute sur un cluster manager : standalone, YARN (Hadoop), Mesos, Kubernetes. En cloud managé : Databricks (le créateur historique de Spark), AWS EMR, Azure Synapse Spark Pool, GCP Dataproc. Maîtrise centrale pour la certif Databricks ML Associate, DEA-C01, DP-203.

Certifications qui couvrent ce concept
MLA DEA-C01 DP-203
Termes liés
Hadoop (Apache Hadoop) Data Lake MLOps (Machine Learning Operations)

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire