学习大数据开发，一定不可错过的大数据组件图谱——很齐全( 八 )_HDFSHadoopDistributedFileSystem

Spark Streaming实现微批处理，目标是很方便的建立可扩展、容错的流应用，支持Java、Scala和Python ，和Spark无缝集成。 Spark Streaming可以读取数据HDFS ， Flume ， Kafka ， Twitter和ZeroMQ ，也可以读取自定义数据。

Trident是对Storm的更高一层的抽象，除了提供一套简单易用的流数据处理API之外，它以batch(一组tuples)为单位进行处理，这样一来，可以使得一些处理更简单和高效。

Flink于今年跻身Apache顶级开源项目，与HDFS完全兼容。 Flink提供了基于Java和Scala的API ，是一个高效、分布式的通用大数据分析引擎。更主要的是， Flink支持增量迭代计算，使得系统可以快速地处理数据密集型、迭代的任务。

Samza 出自于LinkedIn ，构建在Kafka之上的分布式流计算框架，是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。

StormStorm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单，显著地降低了实时处理的难度，也是当下最人气的流计算框架之一。与其他计算框架相比， Storm最大的优点是毫秒级低延时。

学习大数据开发，一定不可错过的大数据组件图谱——很齐全( 八 )