Apache Spark

Apache Spark est un moteur de calcul distribué open source pour le traitement de gros volumes de données (big data), créé en 2009 à UC Berkeley. Plus rapide que Hadoop MapReduce (jusqu'à 100x en mémoire) grâce à son moteur in-memory et son DAG d'exécution, Spark est devenu le standard pour l'analytique distribué et le ML à grande échelle.

Spark se compose de plusieurs modules : Spark Core (moteur RDD), Spark SQL (DataFrames + SQL), Spark Streaming et Structured Streaming (temps réel), MLlib (machine learning), GraphX (graphes). Les langages supportés : Scala (natif), Python (PySpark — le plus utilisé), Java, R. L'unité de calcul est le RDD (Resilient Distributed Dataset), désormais largement remplacée par DataFrame/Dataset (typed, optimisable via Catalyst).

Spark s'exécute sur un cluster manager : standalone, YARN (Hadoop), Mesos, Kubernetes. En cloud managé : Databricks (le créateur historique de Spark), AWS EMR, Azure Synapse Spark Pool, GCP Dataproc. Maîtrise centrale pour la certif Databricks ML Associate, DEA-C01, DP-203.

Préparez vos certifications IT gratuitement