nutch抓取数据问题

是用nutch抓取10个网站的数据，设置了url信息和过滤策略以后，执行抓取

查看抓取的文件，现在主要分析的是crawldb和linkdb文件夹的数据，在crawldb中查看到有2个站点没有抓取到，其他8个站点抓取是正常的，Status是db_fetched状态；我想分析一下网页之间的相互关系，去查看linddb的内容，但是我只找到了一个站点的页面关系，其他几个站点的页面关系都没有记录在linkdb中，这是什么原因呢，是不是跟站点有关系？

Alkaloid0515 · 发表于 2015-10-13 10:43:09

1.确保规则正确 2.跟网站也有关系，有的网站拒绝爬虫

lihy114 · 发表于 2015-10-14 09:33:12

Alkaloid0515 发表于 2015-10-13 10:43
1.确保规则正确 2.跟网站也有关系，有的网站拒绝爬虫

多谢您的指点

还想跟您请教一下，比如我对某个网站进行数据抓取，设置了depth为5，但是查看了crawldb中的数据和depth3是一样的，而且segment中生成的文件夹也是3个；按照同样的规则抓取其他的网站是正常的，通过这些是否可以判断网站设置了反爬虫？

多谢

Alkaloid0515 · 发表于 2015-10-14 21:29:57

lihy114 发表于 2015-10-14 09:33
多谢您的指点

还想跟您请教一下，比如我对某个网站进行数据抓取，设置了depth为5，但是查看了crawldb ...

有的网站会根据时间和访问频率来判断是否为爬虫。有多种情况，比如你爬着爬着忽然中断了，后面就没有了。这就说明网站拒绝了。
deep一直为3可能也是拒绝的一种

图文精华

nutch抓取数据问题

已有(3)人评论

推荐 /2