分享

定时持久化队列消息到hdfs

有一个需求,从kafka消费到队列消息后,我要把这个消息定时(比如每个小时的00分开始)持久化到一个文件,最终将生成的文件传到hdfs上。
这个怎么实现?(kafka是别人配的,我不能配置和操作,只能根据topic和partion等有限的参数信息,现在考虑的是消费到消息之后怎么做)
希望高人指点

已有(3)人评论

跳转到指定楼层
langke93 发表于 2016-10-25 19:09:43
定时可以在加个flume,flume官方有提供的kafka相关内容,最后弄到hdfs上。
推荐参考
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6855

上面去掉storm就是楼主所说的内容,至于实现,看楼主功底了





回复

使用道具 举报

师太跟我吧 发表于 2016-10-25 19:18:56
langke93 发表于 2016-10-25 19:09
定时可以在加个flume,flume官方有提供的kafka相关内容,最后弄到hdfs上。
推荐参考
大数据架构:flume-n ...

flume在kafka端也得装吧,我控制不了源头,那边装不了flume
回复

使用道具 举报

langke93 发表于 2016-10-25 19:28:45
师太跟我吧 发表于 2016-10-25 19:18
flume在kafka端也得装吧,我控制不了源头,那边装不了flume

不用的,flume接受kafka传递的消息,这个肯定是没有问题的。然后flume在传递到hdfs,这个很简单了。flume可以按照时间滚动,也可以按照大小滚动,个数滚动,完全符合楼主的需求。

想来其实应该不难的的,就是flume从kafka取消息,然后传递到hdfs.

也就是只要把flume配置好了,这个数据传递的过程也就完成了。

官网给提供了kafka的内容,几乎不需要写任何代码,只要配置好了,轻松传递数据
http://flume.apache.org/FlumeUserGuide.html


flume.png

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条