AccueilGlossaire › Hadoop (Apache Hadoop)

Hadoop (Apache Hadoop)

Data

Framework historique de stockage et traitement distribué de big data.

Apache Hadoop est le framework open source historique du big data, créé en 2006 chez Yahoo!. Il a démocratisé le traitement de pétaoctets de données sur des clusters de machines commodité. Hadoop comprend principalement : HDFS (Hadoop Distributed File System — stockage distribué), YARN (Yet Another Resource Negotiator — gestion des ressources), MapReduce (modèle de programmation distribuée historique).

L'écosystème Hadoop est riche : Hive (SQL sur HDFS), HBase (NoSQL wide-column), Pig (langage de script), Spark (souvent utilisé sur YARN), Sqoop (import RDBMS), Flume (ingestion logs), Oozie (orchestration), Zookeeper (coordination), Ambari (gestion). Les distributions historiques : Cloudera, Hortonworks (fusionnés en 2019), MapR (racheté par HPE).

Depuis 2018-2020, Hadoop décline face au cloud : Spark détrône MapReduce, Snowflake/BigQuery remplacent Hive, S3 remplace HDFS, Kubernetes remplace YARN. Hadoop reste néanmoins utilisé en on-premise massif et dans les architectures hybrides existantes. Connaissance générale attendue pour DP-203, DEA-C01.

Certifications qui couvrent ce concept
DP-203 DEA-C01
Termes liés
Apache Spark Data Lake SQL (Structured Query Language)

Préparez vos certifications IT gratuitement

200+ certifications, 400 000+ questions, examens blancs chronométrés.

Voir le catalogue →
← Retour au glossaire