分享

flume hdfssink gzip压缩造成部分文件损坏

只是少部分文件损坏,mapreduce任务会终止,解压结果比压缩文件小很多?

已有(6)人评论

跳转到指定楼层
hello2018 发表于 2018-5-30 07:40:33
楼主找到对应属性修改,gzip压缩时,需要几个配置参数要一致,例如下面

hdfsAgent.sinks.hdfsSink.hdfs.rollCount=10000
hdfsAgent.sinks.hdfsSink.hdfs.batchSize =10000
hdfsAgent.channels.testHdfsChannel.transactionCapacity =10000


回复

使用道具 举报

jinwensc 发表于 2018-5-30 10:02:03
hello2018 发表于 2018-5-30 07:40
楼主找到对应属性修改,gzip压缩时,需要几个配置参数要一致,例如下面

hdfsAgent.sinks.hdfsSink.hdfs. ...

这个我在网上看到了,下面又说是本地库问题那个这个问题原因是
gzip压缩不支持split,多次写入造成的咯

我用的是rollSize,
如果rollCount=10000,batchSize =10000,transactionCapacity =10000的话,我想压缩包大一点岂不是要将10000提高很多,会要更多的内存
回复

使用道具 举报

jinwensc 发表于 2018-5-30 10:38:10
原因已经找到,不用这样设置
hdfsAgent.sinks.hdfsSink.hdfs.rollCount=10000
hdfsAgent.sinks.hdfsSink.hdfs.batchSize =10000
hdfsAgent.channels.testHdfsChannel.transactionCapacity =10000

确实是本地库问题,所有损坏的文件都来自一个节点上传的
回复

使用道具 举报

jinwensc 发表于 2018-5-30 10:58:11
但是这个节点gzip可以使用,不知道怎么修复这个问题
回复

使用道具 举报

starrycheng 发表于 2018-5-30 12:02:05
本帖最后由 starrycheng 于 2018-5-30 12:04 编辑
jinwensc 发表于 2018-5-30 10:58
但是这个节点gzip可以使用,不知道怎么修复这个问题

本地库是指?hadoop本地库?那这个替换下hadoop组件试试。
回复

使用道具 举报

jinwensc 发表于 2018-5-30 17:38:38
starrycheng 发表于 2018-5-30 12:02
本地库是指?hadoop本地库?那这个替换下hadoop组件试试。

我把flume换了一个节点,时间紧就先这样
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条