分享

用户行为分析系统

Riordon 发表于 2015-3-25 15:07:26 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 7 22064
网站各项指标:(数据库:mongodb)在给定时间区间内,统计
特定用户在频道、栏目下的各项指标(如排行、PV、UV、平均访问时长等)
所有用户在频道、栏目下的各项指标(如排行、PV、UV、平均访问时长等)
如果时间区间太长,会导致得出结果非常缓慢,无法忍受。
现在的想法是:将计算和查询分离。
计算服务:以天为单位,为每个用户计算指标,存储下来。
查询服务:每天读取存储各项指标,进行迭代计算,返回结果。


计算服务中一般都以什么样的形式存储,文件、表?


对于网站指标的统计,大家都采用的是什么方案呢?
先在这谢谢了...

已有(7)人评论

跳转到指定楼层
howtodown 发表于 2015-3-26 01:23:56


这里有用户行为分析系统,对于思路和解决方案可能有所帮助。

2.png
链接:http://pan.baidu.com/s/1o6sogHW 密码:4br4
至于具体的实现,可以使用大数据,技术的选择,当然根据自己的情况

回复

使用道具 举报

howtodown 发表于 2015-3-25 15:34:18


计算服务中一般都以什么样的形式存储,文件、表?


计算方式总体分为两种,文件,表都是可以的。

这个属于日志分析:
分为两种情况:
1.离线处理
对于离线处理,适合使用hadoop,数据导入hbase中,hbase与hive整合,hive进行统计,比如

在给定时间区间内,统计
特定用户在频道、栏目下的各项指标(如排行、PV、UV、平均访问时长等)
所有用户在频道、栏目下的各项指标(如排行、PV、UV、平均访问时长等)


最后将统计结果放入mysql中,然后展示出来

如果使用mongodb,mongodb也增加了对hive支持, 将mongodb替换为hbase即可

2.在线处理
在线处理有spark和storm
spark内容比较多,有spark sql ,spark stream等
storm具有多级处理功能。

上面属于计算模型。具体用那个看需求和公司的技术情况。








回复

使用道具 举报

Riordon 发表于 2015-3-26 08:19:39
回复

使用道具 举报

arsenduan 发表于 2015-3-30 15:00:13
Riordon 发表于 2015-3-26 08:19
非常感谢 howtodown的解答

推荐:
大数据下的用户分析
回复

使用道具 举报

Redgo 发表于 2015-3-30 15:06:27
谢谢分享~学习
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条