学习大数据开发,一定不可错过的大数据组件图谱——很齐全( 八 )

Spark Streaming实现微批处理 , 目标是很方便的建立可扩展、容错的流应用 , 支持Java、Scala和Python , 和Spark无缝集成 。 Spark Streaming可以读取数据HDFS , Flume , Kafka , Twitter和ZeroMQ , 也可以读取自定义数据 。

Trident是对Storm的更高一层的抽象 , 除了提供一套简单易用的流数据处理API之外 , 它以batch(一组tuples)为单位进行处理 , 这样一来 , 可以使得一些处理更简单和高效 。

Flink于今年跻身Apache顶级开源项目 , 与HDFS完全兼容 。 Flink提供了基于Java和Scala的API , 是一个高效、分布式的通用大数据分析引擎 。 更主要的是 , Flink支持增量迭代计算 , 使得系统可以快速地处理数据密集型、迭代的任务 。

Samza 出自于LinkedIn , 构建在Kafka之上的分布式流计算框架 , 是Apache顶级开源项目 。 可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理 。

StormStorm是Twitter开源的一个类似于Hadoop的实时数据处理框架 。 编程模型简单 , 显著地降低了实时处理的难度 , 也是当下最人气的流计算框架之一 。 与其他计算框架相比 , Storm最大的优点是毫秒级低延时 。

推荐阅读