分享

about云日志分析项目准备5:hadoop,spark,kafka,flume,hive等工具的版本选择

Oner 发表于 2016-12-18 21:47:03 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 2 4322
问题导读:
1. 不同工具版本选择时只要考虑什么因素?
2. 有没有可推荐的版本组合?


由于整个项目需要使用到hadoop、spark、kafka、flume、hive,scala,所以对于不同软件之间的兼容性还是需要考虑的。主要考虑以下几点:

1. spark最新的稳定版是2.0.2,最高支持hadoop 2.7.x,并且在spark 2.0版本开始,使用的scala版本默认是2.11。这两点可以从spark官网得到证实。
20161218211858.jpg

2. kafka官网对于scala 2.10 和 2.11 版本分别提供了不同的安装包。
20161218215305.jpg

3. flume这块我不是特别的了解,大家可以补充下,看着官方文档的意思应该说是在1.6.0版本支持了kafka sink。
20161218215854.jpg

4. hive官网对于hive和hadoop之间的兼容性做了很好的说明,所以这个可以直接根据官网得到,这个很清楚。
20161218215102.jpg

4. scala 2.10 版本中会存在22个字段限制的原因,所以为了长久考虑,scala版本采用 2.11 系列。

这儿有两种参考方案,大家也可以自己组合。

方案一:hadoop 2.6.5 + spark 1.6.3 + kafka 0.9.0.1 + flume 1.6.0 + hive 1.2.1 + scala 2.11.8【修改为2.10】

方案二:hadoop 2.7.3 + spark 2.0.2 + kafka 0.10.1.0 + flume 1.7.0 + hive 1.2.1 + scala 2.11.8

下载时可以从官网去下载,也可以去一些开源的镜像网站去下载,这儿推荐几个开源的镜像网站:

清华大学开源软件镜像站
中国科学技术大学开源镜像站

补充: jdk版本选用的是jdk8.0

已有(2)人评论

跳转到指定楼层
pig2 发表于 2016-12-21 09:46:16
方案一:hadoop 2.6.5 + spark 1.6.3 + kafka 0.9.0.1 + flume 1.6.0 + hive 1.2.1 + scala 2.11.8
特点:稳定性比较好,开发可能会快一些,后期考虑在升级,因此采用此方案。


方案二:hadoop 2.7.3 + spark 2.0.2 + kafka 0.10.1.0 + flume 1.7.0 + hive 1.2.1 + scala 2.11.8

版本比较新,稳定性可能差一些
回复

使用道具 举报

Tank_2000 发表于 2016-12-22 23:20:51
方案一中的软件包下载地址

链接:http://pan.baidu.com/s/1eRJctZ8 密码:u8jh
回复

使用道具 举报

关闭

推荐上一条 /2 下一条