分享

关于solr+nutch+hadoop,是否还需要使用solrCloud

Rgnrtn 发表于 2013-10-16 13:39:06 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 7088
nutch用的1.6源码编译,hadoop用的1.0.4,solr是3.6.2
看hadoop的mapreduce管理页面,发现有solrindex这一项job。
索引建立是比较耗时的操作,节点扩展以后,按理来说会把索引建立的这些mapreduce任务分给节点,是不是这种情况下我就不需要再使用多节点的solrCloud?
              
               
         

已有(3)人评论

跳转到指定楼层
tntzbzc 发表于 2013-10-16 13:39:49

            问下LZ,索引建立后,你打算怎么处理?
        
回复

使用道具 举报

koubi1986 发表于 2013-10-16 13:40:33

            你好!请教一些问题:
请问一下
1。你是如何把nutch抓取到的二进制内容,在项目中读取的。
2。nutch抓取时候,发现有很多url没有被成功抓取过来,请问你做的时候,有什么 办法是提高成功率。
3。对抓取过来内容你们是如何进行关键词搜索
希望群主可以帮忙解答一下。万分感激!
email:83132614@qq.com
        
回复

使用道具 举报

Liushuai030805 发表于 2013-10-16 13:41:31

            引用 2 楼 koubi1986 的回复:你好!请教一些问题:
请问一下
1。你是如何把nutch抓取到的二进制内容,在项目中读取的。
2。nutch抓取时候,发现有很多url没有被成功抓取过来,请问你做的时候,有什么 办法是提高成功率。
3。对抓取过来内容你们是如何进行关键词搜索
希望群主可以帮忙解答一下。万分感激!
email:83132614@qq.com

抓取过来的东西不能直接使用,要进行二次开发。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条