分享

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书

pig2 发表于 2014-7-16 12:52:45 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 30 55904
本帖最后由 pig2 于 2014-8-5 19:21 编辑
about云分析discuz论坛
apache日志hadoop大数据项目
概要设计说明书






修改记录
  
版本号
  
更改人/发布人
审批人
更改日期
V1.0.0
About
About
20140-7-16




系统实现:

项目实现目标:
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信


一、技术方案:
技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)
技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)

初始阶段使用方案1

二、详细说明
本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。
日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。

数据清洗处理方式

1.日志清洗的目的,从原始数据中,得到我们想要的数据
清洗方式:
(1)通过mapreduce过滤


信息查询与统计
清洗数据导入hbase、hive中
1.hbase的作用
存储、查询数据
2.hive统计信息
hive统计信息通过sqoop导入关系型数据库mysql中

3.数据展示
1.通过Java web或则其它语言展示hbase数据
2.通过Java web或则其它语言从mysql中展现数据

环境搭建:
参考:

功能任务划分
1.通过shell,完成日志传递
通过Linux shell命令,将日志传递到flume监控目录
要求:能够定时执行

2.通过flume,传递原始数据到hdfs
3.mapredue对原始数据过滤
要求留下内容:
1.ip地址
2.ip地址个数(去掉)
2.增加时间
3.url地址
4.用户使用浏览器
5.操作系统(去掉)

4.过滤内容,放入hive及hbase中
1.使用hive统计如下内容
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信

5.展示
1.使用javaweb展示hbase过滤数据,用于查询
2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果





已有(30)人评论

跳转到指定楼层
lbwahoo 发表于 2014-7-17 21:31:40
回复

使用道具 举报

sunshine_junge 发表于 2014-7-18 10:50:01
回复

使用道具 举报

duoduo2009 发表于 2014-8-13 10:04:25
学习一下,感谢老大
回复

使用道具 举报

xieyongxiong 发表于 2014-8-14 17:10:32
好资料,学习
回复

使用道具 举报

bwboy 发表于 2014-9-29 16:10:44
回复

使用道具 举报

quenlang 发表于 2014-10-2 21:54:48
顶呱呱,一定要学习一下
回复

使用道具 举报

永无止进 发表于 2014-10-27 09:55:02
经验是最宝贵的财富啊
回复

使用道具 举报

break-spark 发表于 2014-11-3 16:19:30
博主,Hbase的数据是需要导入那,还是在系统执行时候插入
回复

使用道具 举报

1234下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条