分享

Nutch 2.3.1 Hbase Hadoop Solr 整合(一)


问题导读


1.你认为Nutch 2.3.1 Hbase Hadoop Solr整合需要哪些准备工作?
2.本文作者做了哪些准备?
3.整合的过程中,你认为哪些问题是比较重要的?






注:本熊搜索引擎新手一枚,本着连初学者都能看懂的想法写的本文,对专业的描述可能还不充分,还请多多指教


纯初学者说明模式
本章节主讲实现本地模式
  • 最低需要哪些软件
  • 版本问题
  • 目录规划
  • Mint下环境变量异常解决法



1.基础配置从最初的开始讲起,本熊采用的Linux是Mint版本的,其实和ubuntu差不多,本着追时髦的态度选了这个OS,结果成了噩梦的开端,这是后话啦。
开始的准备工作话,少年少女们快去安装java吧


安装配置Linux版本的JDK
(极其重要,必须安装)
网上有许多相关的配置,不劳本熊说明嘛,各位聪明的看官懂得起。
接下来说到Nutch 2.3.1的话,它是基于Gora 0.6.1的,所以版本必须和Gora的版本一致,Apache Gora 官网上是这么描述的

1.png

Gora 官方描述

经过本熊研究,但其实我们并不需要这么多就可以完成本地模式抓取的搭建。
最低只需要以下软件:

Apache Hadoop 1.2.1 and 2.5.2Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)Apache Solr 4.10.3Apache Tomcat(可选,版本随意,用于集成solr)

对你没看没错就这四个就够了,这些都可以在Apache的官网Download,但有一点一定要注意 版本一定要对! 版本一定要对! 版本一定要对! 本熊都说三遍了,这个重要 性各位看官懂得。

举个例子来说,如果Hbase的版本不对将导致Nutch抓取过程中InjectorJob的时间变得很长极长超级长。在这个位置上:
2.png



本熊是如何知道的呢?本熊从深夜等到黎明,才进如GeneratorJob进程,最后成功抓取后立刻屁颠屁颠的告诉小Y的时候,小Y已经睡够10的小时了。

总之版本要对,不要追新的,要考虑兼容性,当时本熊的配置是solr6.0,hadoop2.8,Hbase1.0.6,那问题出的千奇百怪,要是当时把版本选对,本熊就可以少数几个晚上的星星了。

下载完是这样的
3.png



软件下载完成后:
请拿去解压吧
简单来说随便你们解压到哪里,至于没有图形界面的看官们,那本熊只能推荐一下tar指令,去问可爱仁爱的百度吧。

主目录(/home)容量在10G左右的用户推荐放到容量大的挂载点下,因为后面编译后会很占空间的。

本熊解压在了/usr/Dzy下,这个目录代表着我存放这些软件的地方,今后文中代码中看见了这个路径请自动转换成你解压的位置。

4.png



2.环境变量
这个是基础中的基础,不是指难度,是重要度。网上有许多的参考,这个还请各位自行百度,关于如何配置JAVA环境变量,本熊就不做赘述了。

[mw_shl_code=bash,true]环境变量的配置文件在/etc的目录下,一个叫profile的文件里
[/mw_shl_code]

凡是看见报错里出现了 JAVA_HOME 这个词的时候,百分之八九十就是环境变量的配置问题,请好好检查哦
注:Error,false,not set,cannot reading,don't exist 输出里出现这些词都要注意啦,就代表有可能出现错误

还有一种状况是source ./profile 也执行了,环境变量始终没有生效,方法试遍了都不行,而且主目录下没有.bashrc的文件,想砸电脑了有没有?

那恭喜你,本熊的Linux Mint上也遇到了,解决办法就是这个
[mw_shl_code=bash,true] cd /bin/
  ls -l /bin/sh
  ln -sf bash /bin/sh
  ls -l /bin/sh[/mw_shl_code]


copy and past,复制黏贴到终端里执行在重启就好啦,原因在于Bash的新旧问题,不精通linux的本熊不好说明缘由,如果有懂的大神可以告诉本熊

要是还不行,那就上绝招了,在每次开机后,在终端里输入以下命令,要替换命令里面的内容


[mw_shl_code=bash,true] set JAVA_HOME=“这里写的是你的jdk的存放路径”
  export JAVA_HOME[/mw_shl_code]
还可以配置Hadoop,Hbase的环境变量,但本熊出于保险起见,在之后的命令中都采取了绝对路径







已有(4)人评论

跳转到指定楼层
aboutlei 发表于 2016-8-9 14:30:52
11111111111111111
回复

使用道具 举报

marc45 发表于 2016-8-9 17:32:21
非常实用的教程!顶!
回复

使用道具 举报

georgehym 发表于 2016-8-12 14:27:39
很详细 给力
回复

使用道具 举报

luojiandong 发表于 2017-4-14 17:49:18
666666666666666666666
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条