学习大数据开发,一定不可错过的大数据组件图谱——很齐全( 九 )

Yahoo S4(Simple Scalable Streaming System)是一个分布式流计算平台 , 具备通用、分布式、可扩展的、容错、可插拔等特点 , 程序员可以很容易地开发处理连续无边界数据流(continuous unbounded streams of data)的应用 。 它的目标是填补复杂专有系统和面向批处理开源产品之间的空白 , 并提供高性能计算平台来解决并发处理系统的复杂度 。

HaLoop是一个Hadoop MapReduce框架的修改版本 , 其目标是为了高效支持 迭代 , 递归数据 分析任务 , 如PageRank , HITs , K-means , sssp等 。

查询引擎

Presto是一个开源的分布式SQL查询引擎 , 适用于交互式分析查询 , 可对250PB以上的数据进行快速地交互式分析 。 Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题 。 Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多 。

Drill于2012年8月份由Apache推出 , 让用户可以使用基于SQL的查询 , 查询Hadoop、NoSQL数据库和云存储服务 。 它能够运行在上千个节点的服务器集群上 , 且能在几秒内处理PB级或者万亿条的数据记录 。 它可用于数据挖掘和即席查询 , 支持一系列广泛的数据库 , 包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift 。

推荐阅读