Hadoop (Apache Hadoop)

Apache Hadoop est le framework open source historique du big data, créé en 2006 chez Yahoo!. Il a démocratisé le traitement de pétaoctets de données sur des clusters de machines commodité. Hadoop comprend principalement : HDFS (Hadoop Distributed File System — stockage distribué), YARN (Yet Another Resource Negotiator — gestion des ressources), MapReduce (modèle de programmation distribuée historique).

L'écosystème Hadoop est riche : Hive (SQL sur HDFS), HBase (NoSQL wide-column), Pig (langage de script), Spark (souvent utilisé sur YARN), Sqoop (import RDBMS), Flume (ingestion logs), Oozie (orchestration), Zookeeper (coordination), Ambari (gestion). Les distributions historiques : Cloudera, Hortonworks (fusionnés en 2019), MapR (racheté par HPE).

Depuis 2018-2020, Hadoop décline face au cloud : Spark détrône MapReduce, Snowflake/BigQuery remplacent Hive, S3 remplace HDFS, Kubernetes remplace YARN. Hadoop reste néanmoins utilisé en on-premise massif et dans les architectures hybrides existantes. Connaissance générale attendue pour DP-203, DEA-C01.

Préparez vos certifications IT gratuitement