Hadoop【3.1】项目:从cdn日志统计直播流量

查看数: 3493 | 评论数: 5 | 收藏 3
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2020-6-30 23:19

正文摘要:

具体使用方法参见:Flume 1.8.0 User Guide hadoop压缩日志 各个cdn厂商提供的cdn日志都是gz格式的压缩日志,因此必须考虑对压缩日志的处理。Hadoop3 对于压缩格式是自动识别的。如果我们压缩的文件有 ...

回复

wajika 发表于 2021-12-20 08:51:22
hyj 发表于 2020-7-15 09:29
环境自己搭建。

这两个文件就是实现的统计。

好的,好久没登陆了。
hyj 发表于 2020-7-15 09:29:03
本帖最后由 hyj 于 2020-7-15 09:31 编辑
wajika 发表于 2020-7-15 08:18
看过代码并没有提供



1.png

环境自己搭建。

这两个文件就是实现的统计。

flow_statistic_mapper.py
主要从各个cdn日志中筛选出有效的格式化数据,因此最多的操作就是对日志文件名和日志每一行进行正则匹配。

下面就是格式化日志的函数,也就是对流量的过滤
2.png


flow_statistic_reducer.py
根据ip查询是国内流量还是海外流量,对每场直播进行统计。

reduce里面详细看看,分别判断了国内和国外ip,然后输出统计结果
1.png



wajika 发表于 2020-7-15 08:18:11
hyj 发表于 2020-7-1 09:34
更多详细内容可以看看代码

看过代码并没有提供
hyj 发表于 2020-7-1 09:34:10
wajika 发表于 2020-7-1 08:30
怎么没有讲方法? 怎么统计流量 怎么利用日志计算?

更多详细内容可以看看代码
wajika 发表于 2020-7-1 08:30:02
怎么没有讲方法? 怎么统计流量 怎么利用日志计算?
关闭

推荐上一条 /2 下一条