flume部署安装以及案例运行(25)

3.Memory Channel是一个不稳定的channel , 它在内存中存储所有事件 ,

如果进程异常停止 , 内存中的数据将不能让恢复 , 而且受内存大小的限制 。

4.flie channel:是一个持久化的channel , 数据安全并且只要磁盘空间足够 , 它就可以将数据存储到磁盘上

5.checkpointDir:检查数据完整性 , 存放检查点目录 , 可以检测出哪些数据已被抽取 , 哪些还没有

6.dataDirs:存放数据的目录 , dataDirs可以是多个目录 , 以逗号隔开 , 用独立的多个磁盘上的多个目录可以提高file channel的性能 。

7.hdfs上数据默认是二进制的文件类型:bin/hdfs dfs -text /

8.可以修改hdfs.fileType   改为DataStream(数据流)hdfs.writeFormat = Text 改为文本格式

9.当使用DataStream时候 , 文件不会被压缩 , 不需要设置hdfs.codeC;当使用CompressedStream时候 , 必须设置一个正确的hdfs.codeC值;hdfs.codeC压缩编码解码器 --》snappy压缩

推荐阅读