分享

使用Flume对搜集数据的实时处理

mfkdfjhh 发表于 2015-9-21 17:12:03
楼主好:借贵宝地问个问题,因为我没权限发贴,谢谢!
需求是这样的,准备使用flume来收集nginx日志,使用spooldir类型的源+file channel+hdfs sink,因为web server的接入带宽太小,故需要对flume source发送日志的速度进行限制,以避免flume发送日志时占满带宽,影响正常的业务数据流;查找了官方文档,没找到 相似的参数或者源类型,请问有什么方法或思路可以实现,谢谢!
回复

使用道具 举报

pig2 发表于 2015-9-21 17:17:14
mfkdfjhh 发表于 2015-9-21 17:12
楼主好:借贵宝地问个问题,因为我没权限发贴,谢谢!
需求是这样的,准备使用flume来收集nginx日志,使用 ...

flume控制不了宽带的,flume滚动方式有三种:
按时间
个数
大小

看看按照哪种方式宽带更小一些。最好通过网络来控制,路由应该可以控制
回复

使用道具 举报

mfkdfjhh 发表于 2015-9-21 17:23:23
1.路由上限速是对IP和协议进行控制,没法区分具体的业务,限速会影响到其它应用数据流;
2.如果是租用VPS主机,这种方法也不可行;

找到一篇文章,是使用拦截器来进行限速的,按照这个作者的方法进行测试,达不到效果;
http://blog.csdn.net/desilting/article/details/27081357
回复

使用道具 举报

mfkdfjhh 发表于 2015-9-21 17:25:29
1.路由上限限是以IP地址为依据的,没法区分具体应用类型,这会导至其它的业务受影响;
2.如果是租用的VPS主机,这个方法也不可行
回复

使用道具 举报

mfkdfjhh 发表于 2015-9-21 17:27:41
http://blog.csdn.net/desilting/article/details/27081357
找到一篇文章,作者是借用FLUME的拦截器来进行限速度,实测限速效果不理想,实际的流量会超过限速配置
回复

使用道具 举报

mfkdfjhh 发表于 2015-9-21 17:30:43
网上找到一篇文章,http://blog.csdn.net/desilting/article/details/27081357,根据作者的方法修改了flume拦截器的源码,实测限速度的效果不理想,实际流量会突破配置文件里的限制
回复

使用道具 举报

s060403072 发表于 2015-9-21 20:16:24
本帖最后由 s060403072 于 2015-9-21 20:17 编辑
mfkdfjhh 发表于 2015-9-21 17:30
网上找到一篇文章,http://blog.csdn.net/desilting/article/details/27081357,根据作者的方法修改了flume ...

这个属于二次开发

1.png

开发文档
http://flume.apache.org/releases/content/1.3.0/apidocs/index.html
回复

使用道具 举报

jackman 发表于 2016-10-27 22:14:00
一个文件夹A里有上千个子文件夹,而这些子文件夹里面存放着我需要采集的数据。请问,用flume能否直接监控文件夹A来获取我想要的数据?
回复

使用道具 举报

123
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条