分享

nutch抓取数据问题

lihy114 发表于 2015-10-13 09:15:08 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 10686
是用nutch抓取10个网站的数据,设置了url信息和过滤策略以后,执行抓取

查看抓取的文件,现在主要分析的是crawldb和linkdb文件夹的数据,在crawldb中查看到有2个站点没有抓取到,其他8个站点抓取是正常的,Status是db_fetched状态;我想分析一下网页之间的相互关系,去查看linddb的内容,但是我只找到了一个站点的页面关系,其他几个站点的页面关系都没有记录在linkdb中,这是什么原因呢,是不是跟站点有关系?

已有(3)人评论

跳转到指定楼层
Alkaloid0515 发表于 2015-10-13 10:43:09
1.确保规则正确 2.跟网站也有关系,有的网站拒绝爬虫

回复

使用道具 举报

lihy114 发表于 2015-10-14 09:33:12
Alkaloid0515 发表于 2015-10-13 10:43
1.确保规则正确 2.跟网站也有关系,有的网站拒绝爬虫

多谢您的指点

还想跟您请教一下,比如我对某个网站进行数据抓取,设置了depth为5,但是查看 了crawldb中的数据和depth3是一样的,而且segment中生成的文件夹也是3个;按照同样的规则抓取其他的网站是正常的,通过这些是否可以判断网站设置了反爬虫?

多谢
回复

使用道具 举报

Alkaloid0515 发表于 2015-10-14 21:29:57
lihy114 发表于 2015-10-14 09:33
多谢您的指点

还想跟您请教一下,比如我对某个网站进行数据抓取,设置了depth为5,但是查看 了crawldb ...

有的网站会根据时间和访问频率来判断是否为爬虫。有多种情况,比如你爬着爬着忽然中断了,后面就没有了。这就说明网站拒绝了。
deep一直为3可能也是拒绝的一种
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条