分享

about云分析discuz论坛apache日志hadoop大数据项目:需求分析说明书

pig2 发表于 2014-7-14 10:14:25 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 33 68390
about云分析discuz论坛
apache日志hadoop大数据项目
需求分析说明书





修改记录

  
版本号
  
更改人/发布人
审批人
更改日期
V1.0.0
About
About
2014-07-14











一、项目实现目标:
一、统计ip
二、统计跳出率
三、统计后台登陆ip
四、统计搜索量及搜索词
五、统计模块点击量
六、空间访问量
七、统计导航点击量:
1.统计论坛社区
2.统计图文阅读区
3.统计导读
4.统计博客
5.统计排行榜
6.统计分享
7.统计群组
8.统计广播
9.统计微信



二、项目分析:

apache日志格式分析

tupian.png
1)第一项信息是远程主机的地址,即它表明访问网站的究竟是谁。
2)日志记录的第二项是空白,用一个“-”占位符替代。
3)日记记录的第三项也是空白。这个位置用于记录浏览者进行身份验证时提供的名字。日志文件的大多数记录中这一项是空白的。
4)日志记录的第四项是请求的时间。
5)日志记录的第五项信息告诉我们服务器受到的是一个什么样的请求
6)日志的第六项信息室状态代码。它告诉我们请求是否成功,或者遇到了什么样的错误。大多数时候这项是200,它表示服务器已经成功的响应浏览器的请求,一切正常。(以2开头的状态码表示成功,以3开头的状态码表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头的状态代码表示客户端存在某种错误,以5开头的状态代码表示服务器遇到了某个错误)。
(7)日志记录的第七项表示发送客户端的总字节数。它告诉我们传输是否被打断(即该数值是否和文件的大小相同)
8)日志记录的第八项表示发送客户端的总字节数请求的url
9)日志记录的第九项表示使用者的浏览器

目标实现分析:
一、统计ip
对日志文件ip去重,统计ip数量


二、统计跳出率
对于只出现一次ip进行统计


三、统计后台登陆ip及登录次数
在请求url中过滤url
http://www.aboutyun.com/admin.php

四、统计搜索量及搜索词
搜索量通过统计
http://www.aboutyun.com/search.php实现,
搜索词通过通过srchtxt获取

27.153.206.218 - - [11/Jul/2014:16:27:23+0800] "GET /search.php?mod=forum&srchtxt=%c8%eb%c3%c5&formhash=2f13ed92&searchsubmit=true&source=hotsearchHTTP/1.0" 200 3080"http://www.aboutyun.com/search.php?mod=forum&srchtxt=%c8%eb%c3%c5&formhash=2f13ed92&searchsubmit=true&source=hotsearch""Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR2.0.50727)"


五、统计模块点击量
模块特征forum浏览量
http://www.aboutyun.com/forum-116-1.html
产生结果中模块id与模块名称相对应


六、空间访问量
1)统计浏览量
http://www.aboutyun.com/space-uid-61.html
2)统计不同uid

七、统计导航点击量:
1.统计微信ip及浏览量

http://www.aboutyun.com/hux_wx-qr.html

2.统计图文阅读区ip及浏览量

统计/plugin.php?id=forum_index
http://www.aboutyun.com/plugin.php?id=forum_index

3.统计导读ip及浏览量
http://www.aboutyun.com/forum.php?mod=guide

4.统计博客ip及浏览量
http://www.aboutyun.com/home.php?mod=space&do=blog
个人博客访问量
http://www.aboutyun.com/blog-3779-326.html

5.统计排行榜ip及浏览量
http://www.aboutyun.com/misc.php?mod=ranklist

6.统计分享ip及浏览量
http://www.aboutyun.com/home.php?mod=space&do=share&view=all

7.统计群组ip及浏览量
http://www.aboutyun.com/group.php
群组访问量
http://www.aboutyun.com/group-128-1.html


8.统计广播ip及浏览量
我收听的:
http://www.aboutyun.com/home.php?mod=follow&view=follow
广播大厅:
http://www.aboutyun.com/home.php?mod=follow&view=other

日志样例.zip (1.11 MB, 下载次数: 853)

已有(34)人评论

跳转到指定楼层
howtodown 发表于 2014-8-8 19:33:48
本帖最后由 howtodown 于 2014-8-15 17:10 编辑
kevin 发表于 2014-8-8 18:26
请问这个项目都可以参加吗

可以加这个qq群 371358502一起讨论
回复

使用道具 举报

pig2 发表于 2014-8-8 19:05:08
kevin 发表于 2014-8-8 18:26
请问这个项目都可以参加吗
可以根据需求编程,写完之后,可以申请提交代码
回复

使用道具 举报

ascentzhen 发表于 2014-7-18 21:48:21
很好的实例项目
回复

使用道具 举报

kevin 发表于 2014-8-8 18:26:02
请问这个项目都可以参加吗
回复

使用道具 举报

kevin 发表于 2014-8-15 11:52:25
howtodown 发表于 2014-8-8 19:33
可以加这个qq 2024562870一起讨论

确定有这个群,没有搜索到
回复

使用道具 举报

howtodown 发表于 2014-8-15 17:10:58
kevin 发表于 2014-8-15 11:52
确定有这个群,没有搜索到
这个是qq 2024562870不是群
回复

使用道具 举报

finder 发表于 2014-8-28 18:09:16
apache日志是怎么生成的呢?
回复

使用道具 举报

pig2 发表于 2014-8-28 19:13:37
finder 发表于 2014-8-28 18:09
apache日志是怎么生成的呢?
使用apache的,它会自动记录的
回复

使用道具 举报

finder 发表于 2014-8-28 22:14:57
pig2 发表于 2014-8-28 19:13
使用apache的,它会自动记录的

apache服务器自动生成的日志是吧
回复

使用道具 举报

1234下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条