阿里巴巴飞天大数据架构体系与Hadoop生态系统( 四 )

此后,大名鼎鼎的大数据框架系统——Hadoop诞生。而Doug?Cutting也被人们称为Hadoop之父。

所以说Hadoop的核心就两大部分:为大数据提供存储的HDFS和为大数据计算的MapReduce。

阿里巴巴飞天大数据架构体系与Hadoop生态系统

HDFS与MapReduce的核心工作原理

HDFS

HDFS主要有两个角色:NameNode、DataNode和Client。

NameNode是HDFS的守护程序,也是是Master节点,主节点。NameNode中会存储文件的元数据信息,记录文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上,可以对内存和I/O进行集中管理。NameNode单点在发生故障时将使集群崩溃。

DataNode是Slave节点,从节点。DataNode负责把HDFS数据块读写到本地文件系统,是真正存储文件的节点。一个文件会被切割成一个或者多个block块,这些block块会被存储在一系列的DataNode节点中,并且每一个块可能会在多个DataNode上存在备份。

推荐阅读