about云开发

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 44661|回复: 30

about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书

[复制链接]
发表于 2014-7-16 12:52:45 | 显示全部楼层 |阅读模式
本帖最后由 pig2 于 2014-8-5 19:21 编辑
about云分析discuz论坛
apache日志hadoop大数据项目
概要设计说明书






修改记录
  
版本号
  
更改人/发布人
审批人
更改日期
V1.0.0
About
About
20140-7-16




系统实现:

项目实现目标:
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信


一、技术方案:
技术方案1:hadoop、mapreduce、hbase、hive、flume、Java web、mysql(oracle)
技术方案2:hadoop、spark、hbase、shark、flume、Java web、mysql(oracle)

初始阶段使用方案1

二、详细说明
本系统分析about云apache日志,主要统计各个模块ip、用户使用操作系统、浏览器及pv量。
日志产生,通过Linux定时器,定时上传文件到flume监控目,然后由flume上传至hdfs。

数据清洗处理方式

1.日志清洗的目的,从原始数据中,得到我们想要的数据
清洗方式:
(1)通过mapreduce过滤


信息查询与统计
清洗数据导入hbase、hive中
1.hbase的作用
存储、查询数据
2.hive统计信息
hive统计信息通过sqoop导入关系型数据库mysql中

3.数据展示
1.通过Java web或则其它语言展示hbase数据
2.通过Java web或则其它语言从mysql中展现数据

环境搭建:
参考:

功能任务划分
1.通过shell,完成日志传递
通过Linux shell命令,将日志传递到flume监控目录
要求:能够定时执行

2.通过flume,传递原始数据到hdfs
3.mapredue对原始数据过滤
要求留下内容:
1.ip地址
2.ip地址个数(去掉)
2.增加时间
3.url地址
4.用户使用浏览器
5.操作系统(去掉)

4.过滤内容,放入hive及hbase中
1.使用hive统计如下内容
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信

5.展示
1.使用javaweb展示hbase过滤数据,用于查询
2.hive统计结果通过sqoop导入mysql中,通过其他语言(Java web),展示统计结果





0

主题

4

听众

0

收听

中级会员

Rank: 3Rank: 3

积分
586
发表于 2014-7-17 21:31:40 | 显示全部楼层

80

主题

49

听众

23

收听

高级会员

Rank: 4

积分
2837
发表于 2014-7-18 10:50:01 | 显示全部楼层
欢迎加入about云群90371779322273151432264021 ,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

0

主题

2

听众

0

收听

中级会员

Rank: 3Rank: 3

积分
541
发表于 2014-8-13 10:04:25 | 显示全部楼层
学习一下,感谢老大

0

主题

2

听众

0

收听

注册会员

Rank: 2

积分
64
发表于 2014-8-14 17:10:32 | 显示全部楼层
好资料,学习

1

主题

2

听众

0

收听

高级会员

Rank: 4

积分
1026
发表于 2014-9-29 16:10:44 | 显示全部楼层

2

主题

6

听众

3

收听

中级会员

Rank: 3Rank: 3

积分
600
发表于 2014-10-2 21:54:48 | 显示全部楼层
顶呱呱,一定要学习一下

0

主题

2

听众

0

收听

高级会员

Rank: 4

积分
1390
发表于 2014-10-27 09:55:02 | 显示全部楼层
经验是最宝贵的财富啊

1

主题

13

听众

16

收听

中级会员

Rank: 3Rank: 3

积分
513
发表于 2014-11-3 16:19:30 | 显示全部楼层
博主,Hbase的数据是需要导入那,还是在系统执行时候插入
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条

QQ|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号

GMT+8, 2018-11-17 02:10 , Processed in 0.411993 second(s), 31 queries , Gzip On.

Powered by Discuz! X3.2 Licensed

快速回复 返回顶部 返回列表