阿里巴巴飞天大数据架构体系与Hadoop生态系统( 十 )

于是Doug?Cutting在自己的Hadoop系统里面又引入了BigTable,并命名为HBase。

简单介绍Hadoop生态系统的主要构成组件:

HDFS: 基础的文件系统,Hadoop分布式文件系统

MapReduce:并行计算框架,运行在Yarn之上

HBase: 类似Google BigTable的分布式NoSQL列分布式数据库。适用于实时快速查询的场景。

Hive:数据仓库工具。处理的是海量结构化日志数据的统计问题。可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Zookeeper:分布式协调服务,“动物园管理员”角色,是一个对集群服务进行管理的框架,主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Pig: 一个基于Hadoop的大规模数据分析工具,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

推荐阅读