分享

Nutch2.2.1+Mysql 怎么定制抓取数据规则,而不是将整个页面趴下了,保存到数据库

hnyyzj0724 发表于 2015-4-13 18:31:02 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 28909

已有(4)人评论

跳转到指定楼层
langke93 发表于 2015-4-13 19:30:04

这个需要懂正则表达式,按照下面两步,然后向过滤,加正则就可以了。

添加种子URL
mkdir ~/urls
vim ~/urls/seed.txt
http://movie.douban.com/subject/5323968/
设置URL过滤规则
如果只想抓取某种类型的URL,可以在 conf/regex-urlfilter.txt设置正则表达式,于是,只有匹配这些正则表达式的URL才会被抓取。

例如,我只想抓取豆瓣电影的数据,可以这样设置:

#注释掉这一行
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
# accept anything else
#注释掉这行
#+.
+^http:\/\/movie\.douban\.com\/subject\/[0-9]+\/(\?.+)?$

回复

使用道具 举报

hnyyzj0724 发表于 2015-4-14 11:41:55
langke93 发表于 2015-4-13 19:30
这个需要懂正则表达式,按照下面两步,然后向过滤,加正则就可以了。

添加种子URL

你好
  现在我的问题主要是能根据我所配置的正则获取网站的数据,但是nutch是将整个网页保存到数据表webpage中的content,而我想要的只是正文数据而非整个网页代码  
不知道我描述得清楚没

回复

使用道具 举报

langke93 发表于 2015-4-14 22:36:30
hnyyzj0724 发表于 2015-4-14 11:41
你好
  现在我的问题主要是能根据我所配置的正则获取网站的数据,但是nutch是将整个网页保存到数据表web ...

这个只能自己写程序过滤了。
比如当你抓下来之后,读取里面的内容,然后根据网页过滤里面的html标签
回复

使用道具 举报

hnyyzj0724 发表于 2015-4-15 14:07:59
langke93 发表于 2015-4-14 22:36
这个只能自己写程序过滤了。
比如当你抓下来之后,读取里面的内容,然后根据网页过滤里面的html标签

嗯,好点
  谢谢哈~~~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条