分享

structured streaming如何计算每小时新增用户数

zhouyan8603 发表于 2017-9-8 16:11:22 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7426
我想实时统计一个app系统的每个页面每小时的新增用户数并保存到hbase表中,有什么好的方法可以减少对于hbase表的请求?

已有(4)人评论

跳转到指定楼层
w123aw 发表于 2017-9-8 18:04:40
可以通过窗口函数可以实现。什么是窗口函数,推荐参考下面文章:

Spark Streaming中的4种常见操作函数的分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=19886



回复

使用道具 举报

zhouyan8603 发表于 2017-9-8 18:17:53
w123aw 发表于 2017-9-8 18:04
可以通过窗口函数可以实现。什么是窗口函数,推荐参考下面文章:

Spark Streaming中的4种常见操作函数的 ...

谢谢,能否详细点,我这里面还需要判断是否新增用户,这个逻辑如何处理呢?
回复

使用道具 举报

w123aw 发表于 2017-9-8 19:34:58
zhouyan8603 发表于 2017-9-8 18:17
谢谢,能否详细点,我这里面还需要判断是否新增用户,这个逻辑如何处理呢?

这就是你的业务逻辑了。你说的新增用户是指什么?窗口函数里面可以放新增用户。如果里面都包含了,那就提前过滤下或则窗口函数输出后,在过滤。
回复

使用道具 举报

zhouyan8603 发表于 2017-9-9 21:56:55
w123aw 发表于 2017-9-8 19:34
这就是你的业务逻辑了。你说的新增用户是指什么?窗口函数里面可以放新增用户。如果里面都包含了,那就提 ...

我 是想计算每个页面每小时新增用户数,比如页面p1,在20点-21点这个时间段访问p1的新用户数有N1个,在21点-22点这个时间段访问p1的新用户输有N2个,那么把一天24小时累计起来的就是访问p1这个页面的当日所有新增用户数。这里面一个不太好处理的地方就是每次判断是否新增用户需要参照历史数据集,之前的处理方案是每次来个log就到数据库里查是否新增用户,但是这种对数据库压力比较大,所以想问问有没好的方案?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条