阿里巴巴飞天大数据架构体系与Hadoop生态系统(11)

Sqoop:在Hadoop与传统的数据库间进行数据的传递。

Mahout:一个可扩展的机器学习和数据挖掘库,实现了很多数据挖掘的经典算法,帮助用户很方便地创建应用程序。

Oozie/Azkaban:一个工作流调度引擎,用来处理具有依赖关系的作业调度。

Presto/Kylin:一个交互式的查询引擎,实现低延时查询。

Flume:日志收集框架。将多种应用服务器上的日志,统一收集到HDFS上,这样就可以使用hadoop进行处理

对于大数据领域最早的应用者阿里巴巴对大数据的研究是一直走在前列的。感兴趣的用户可以看看一本书:《阿里巴巴大数据之路》书中很详细的介绍了阿里巴巴的整体大数据架构。

阿里巴巴飞天大数据平台是在开源Hadoop的基础上自研的一套体系,这种Serverless大数据服务成为当下主流趋势,可以减少企业本地服务器部署压力,显著提升企业工作效率的同时减少了企业在开发和人力方面的成本投入,让企业能更专注于业务发展,培养更多面向业务的技术人员。

推荐阅读