阿里巴巴飞天大数据架构体系与Hadoop生态系统( 七 )

(实际上MapReduce计算逻辑非常复杂,以上只是简化描述)

HDFS和MapReduce的组合只是Hadoop的1.0版本,这个版本有一些比较大的缺陷:

1、可伸缩性问题:JobTracker负载较重,JobTracker 必须不断跟踪数千个 TaskTracker、数百个作业,以及数万个 map 和 reduce 任务。相反,TaskTracker 通常只运行十来个任务。JobTracker存在单点故障,成为性能瓶颈。

2、可靠性差,NameNode只有一个,万一挂掉,整个系统就会崩溃。

为了解决一些问题,2012年5月,Hadoop推出了 2.0版本 。

2.0版本中,在HDFS与MapReduce之间,增加了YARN资源管理框架层。

阿里巴巴飞天大数据架构体系与Hadoop生态系统

YARN全称Yet Another Resource Negotiator是一个资源管理模块,负责整个集群资源的管理和调度,例如对每个作业,分配CPU,内存等等,都由yarn来管理。它的特点是扩展性,容错性,多框架资源统一调度。区别于hadoop1.0只支持MapReduce作业,yarn之上可以运行不同类型的作业。很多应用都可以运行在yarn之上,由yarn统一进行调度。

推荐阅读