分享

利用scribe向HDFS实时push数据

大家已经对hadoop了解很多,并且知道hadoop的内部机制及其mapreduce运行机制。大家也知道如何运行一个mapreduce,如何使用命令将本地文件上传到hadoop hdfs文件系统中,但是大家是否想过如何将实时收集到的实时数据如何push到hadoop hdfs文件系统中,那就需要用facebook开发的scribe动态实时push数据到hdfs文件系统中。下面介绍一下scribe:
scribe 简介

Scribe是Facebook开源的分布式日志收集系统,目前在各大互联网公司内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。

它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。当中央存储系统的网络或者机器出现故障时,scribe会将日志转存到本地或者另一个位置,当中央存储系统恢复后,scribe会将转存的日志重新传输给中央存储系统。其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理。

系统架构:

RVZrMv.jpg

常见部署架构:

y2euMj.jpg


欢迎加入about云群9037177932227315139327136 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

已有(2)人评论

跳转到指定楼层
子羽 发表于 2013-12-21 15:34:58
这个有点抽象啊
回复

使用道具 举报

lzw 发表于 2013-12-21 18:18:26
子羽 发表于 2013-12-21 15:34
这个有点抽象啊

只要你有所了解,就不会这样了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条