阿里巴巴飞天大数据架构体系与Hadoop生态系统( 四 )_：阿里巴巴飞天大数据架构体系与Hadoop

此后，大名鼎鼎的大数据框架系统——Hadoop诞生。而Doug?Cutting也被人们称为Hadoop之父。

所以说Hadoop的核心就两大部分：为大数据提供存储的HDFS和为大数据计算的MapReduce。

HDFS与MapReduce的核心工作原理

HDFS

HDFS主要有两个角色：NameNode、DataNode和Client。

NameNode是HDFS的守护程序，也是是Master节点，主节点。NameNode中会存储文件的元数据信息，记录文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，可以对内存和I/O进行集中管理。NameNode单点在发生故障时将使集群崩溃。

DataNode是Slave节点，从节点。DataNode负责把HDFS数据块读写到本地文件系统，是真正存储文件的节点。一个文件会被切割成一个或者多个block块，这些block块会被存储在一系列的DataNode节点中，并且每一个块可能会在多个DataNode上存在备份。

阿里巴巴飞天大数据架构体系与Hadoop生态系统( 四 )