分享

请教Nutch 2.3的问题,InjectorJob 运行缓慢

ZTAngel 发表于 2015-3-26 14:04:48 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 29314
安装好了hbase 0.98.9-hadoop2 和nutch 2.3,在本地模式下运行crawl命令,长时间处于如下状态(有1、2个多小时 了),不知道怎么办,没报错:
[root@master local]# bin/crawl urls my 2
No SOLRURL specified. Skipping indexing.
Injecting seed URLs
/data/apache-nutch-2.3/runtime/local/bin/nutch inject urls -crawlId my
InjectorJob: starting at 2015-03-26 13:18:32
InjectorJob: Injecting urlDir: urls
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.



我的种子文件里就一个    http://nutch.apache.org/
请教该如何处理 ????

已有(2)人评论

跳转到指定楼层
rsgg03 发表于 2015-3-29 07:40:25
1、进入nutch的目录即nutch home,才有bin/nutch命令
2、urls必须是在nutch home下?另外urls是文件还是文件夹,如果是文件夹,里面有例如url.txt之类的文件没有
3、-dir crawl中的crawl是一个文件夹,在nutch home下,你有创建没?
4、不知道你的截屏是否完整,如果不是完整的,后面有&> crawl/crawl.log之类的,这是将log记录到指定的这个crawl/crawl.log中,是否在nutch home下有类似crawl/crawl.log的存在。 【如果是完整的,则log直接打印,这条可以忽视】

回复

使用道具 举报

ZTAngel 发表于 2015-3-31 21:35:50
你说的我都是正常配置的,不是这些问题。我再试试 其他的吧。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条