分享

Apache Hadoop 3.0.0-alpha1版发布做了哪些改进

问题导读
1.hadoop3.x必须使用哪个版本的jdk?
2.hadoop3.x是否可以配置5个namenode?
3.hadoop除了可以使用swift,还可以使用什么文件系统?
4.hadoop为何要更改一些端口?

hadoop3.0.png

Apache Hadoop 3.0.0-alpha1包含很多重要的改进在hadoop2.x的基础上。
这个是一个alpha 版,通过开发者和使用者帮助测试和搜集反馈。API的稳定性和质量还不能保证。

概述

提倡阅读全部发布说明,这里对更改内容做一个概述。

1.Java最低版本要求从Java7更改为Java8

所有的Hadoop JARs针对运行时版本的Java 8被编译。仍在使用Java 7或更低版本的用户必须升级至Java 8。


2.支持hdfs erasure encoding

与副本相比纠删码是一种更节省空间的数据持久化存储方法。编码标准如Reed Solomon(10,4)有1.4倍的空间开销.与HDFS副本相比则是3倍空间开销。

因为纠删码主要的额外开销是在重建和执行远程读,它传统用于存储冷数据,即不经常访问的数据。当部署这个新特性时用户应该考虑纠删码的网络和CPU开销。
更多细节参考 HDFS Erasure Coding (http://hadoop.apache.org/docs/r3 ... SErasureCoding.html)文档.


3、YARN Timeline Service v.2
我们引入YARN 的alpha 1版,. YARN Timeline Service v.2 地址两大挑战:提高时间轴的可扩展性和可靠性,并通过引入流量和聚合增强可用性.


————————————————
YARN Timeline Service v.2 alpha 1让用户和开发者测试,反馈和建议为替换 Timeline Service v.1.x做准备。它应用于测试容量。最重要的是,没有启用安全性。不设置或则使用Timeline Service v.2 ,直到安全是有效的如果安全是一个关键的要求。

更多细节参考 YARN Timeline Service v.2 【http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html】文档.


4、Shell 脚本重写
Hadoop的shell脚本已被重写,解决许多长期存在的漏洞,包括一些新的功能。尽管一些关键点保持兼容性,但是一些更改可能会破坏现有的安装。
不兼容的改变在发布说明中,相关的讨论在 HADOOP-9902(https://issues.apache.org/jira/browse/HADOOP-9902
更多内容在 Unix Shell Guide文档。也可看 Unix Shell API文档,它描述了许多新的功能,特别是与可扩展性有关的功能。



5、MR任务级本地优化
MR任务级本地优化。MapReduce添加了Map输出collector的本地实现。对于shuffle密集型作业,这将会有30%以上的性能提升。

更多细节: MAPREDUCE-2841(https://issues.apache.org/jira/browse/MAPREDUCE-2841

6、支持2个及以上 NameNodes.
允许用户运行多个Standby NN,更高的容错性。比如,通过配置3个NN和5个JournalNodes,集群能够容忍2个NN宕机而不是之前的一个。
刚开始HDFS NameNode高可用提供了一个namenode,和Standby namenode.通过规定的三个JournalNodes,复制edits 。这种架构能够容忍系统中的任何一个节点的失败。

然而,一些部署需要更高程度的容错性。这是通过这一新功能,它允许用户运行多个备用节点【Standby namenode】。例如,通过配置三个NameNodes和五个journalnodes,集群能够容忍两节点而不是一个失败。

高可用文档(http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html)已经更新,说明如何配置多个namenode。



7、更改多个服务的默认端口。
此前,多个Hadoop服务的默认端口是在Linux的临时端口范围(32768-61000)。这意味着在启动时,服务有时会失败,绑定到端口,由于与另一个应用程序的冲突。

这个冲突的端口已经移出这个范围,影响 NameNode, Secondary NameNode, DataNode, 和KMS。文档已更新
发布说明地址https://issues.apache.org/jira/browse/HDFS-9427
更改端口列表地址https://issues.apache.org/jira/browse/HADOOP-12811

8.支持微软Azure 数据Lake 系统连接器

hadoop支持整合软Azure 数据Lake作为一种替代Hadoop兼容的文件系统。


9、Intra-datanode 平衡器
一个DataNode管理多个磁盘.

10.改编守护进程和任务堆管理

hadoop守护进程及MapReduce任务一系列的heap管理的改变。
HADOOP-10950(https://issues.apache.org/jira/browse/HADOOP-10950) 介绍了配置守护进程heap大小配置方法
值得注意的是基于主机内存调整成为可能,和 HADOOP_HEAPSIZE 值被弃用。更多细节查看发布说明 HADOOP-10950
MAPREDUCE-5785(https://issues.apache.org/jira/browse/MAPREDUCE-5785)简化了map和reduce任务的heap大小的配置,因此理想的heap的大小,不在需要任务的指定配置和作为Java选项。已有的配置不受影响。更多链接可查看MAPREDUCE

文档下载:

https://yunpan.cn/ckR5SVrhrGCkr  访问密码
游客,如果您要查看本帖隐藏内容请回复




已有(34)人评论

跳转到指定楼层
xuliang123789 发表于 2016-9-15 11:38:53
谢谢楼主,学习一下,赞~~
回复

使用道具 举报

ggw0122 发表于 2016-9-20 01:02:35
不错,很详细,谢谢了
回复

使用道具 举报

慕容绝影 发表于 2016-9-20 16:26:48
点个赞!谢谢楼主了,很详细的介绍
回复

使用道具 举报

一期一会 发表于 2016-9-23 10:15:32
总结的好,赞一个
回复

使用道具 举报

蓦然回首6948 发表于 2016-9-23 10:40:42
谢谢楼主,楼主辛苦喽,学习了
回复

使用道具 举报

AllenWoon 发表于 2016-9-27 12:25:26
谢谢热情分享  很受用  下个3.0版本试试
回复

使用道具 举报

397376972 发表于 2016-9-29 11:43:47
谢谢热情分享
回复

使用道具 举报

1234下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条