Apache Hadoop 3.0.0-alpha1版发布做了哪些改进

问题导读
1.hadoop3.x必须使用哪个版本的jdk?
2.hadoop3.x是否可以配置5个namenode？
3.hadoop除了可以使用swift，还可以使用什么文件系统？
4.hadoop为何要更改一些端口？

hadoop3.0.png

Apache Hadoop 3.0.0-alpha1包含很多重要的改进在hadoop2.x的基础上。
这个是一个alpha 版，通过开发者和使用者帮助测试和搜集反馈。API的稳定性和质量还不能保证。

概述

提倡阅读全部发布说明，这里对更改内容做一个概述。

1.Java最低版本要求从Java7更改为Java8

所有的Hadoop JARs针对运行时版本的Java 8被编译。仍在使用Java 7或更低版本的用户必须升级至Java 8。

2.支持hdfs erasure encoding

与副本相比纠删码是一种更节省空间的数据持久化存储方法。编码标准如Reed Solomon（10,4）有1.4倍的空间开销.与HDFS副本相比则是3倍空间开销。

因为纠删码主要的额外开销是在重建和执行远程读，它传统用于存储冷数据，即不经常访问的数据。当部署这个新特性时用户应该考虑纠删码的网络和CPU开销。
更多细节参考 HDFS Erasure Coding （http://hadoop.apache.org/docs/r3 ... SErasureCoding.html）文档.

3、YARN Timeline Service v.2
我们引入YARN 的alpha 1版，. YARN Timeline Service v.2 地址两大挑战：提高时间轴的可扩展性和可靠性，并通过引入流量和聚合增强可用性.

————————————————
YARN Timeline Service v.2 alpha 1让用户和开发者测试，反馈和建议为替换 Timeline Service v.1.x做准备。它应用于测试容量。最重要的是，没有启用安全性。不设置或则使用Timeline Service v.2 ，直到安全是有效的如果安全是一个关键的要求。

更多细节参考 YARN Timeline Service v.2 【http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-yarn/hadoop-yarn-site/TimelineServiceV2.html】文档.

4、Shell 脚本重写
Hadoop的shell脚本已被重写，解决许多长期存在的漏洞，包括一些新的功能。尽管一些关键点保持兼容性，但是一些更改可能会破坏现有的安装。
不兼容的改变在发布说明中，相关的讨论在 HADOOP-9902（https://issues.apache.org/jira/browse/HADOOP-9902）
更多内容在 Unix Shell Guide文档。也可看 Unix Shell API文档，它描述了许多新的功能，特别是与可扩展性有关的功能。

5、MR任务级本地优化
MR任务级本地优化。MapReduce添加了Map输出collector的本地实现。对于shuffle密集型作业，这将会有30%以上的性能提升。

更多细节： MAPREDUCE-2841（https://issues.apache.org/jira/browse/MAPREDUCE-2841）

6、支持2个及以上 NameNodes.
允许用户运行多个Standby NN，更高的容错性。比如，通过配置3个NN和5个JournalNodes，集群能够容忍2个NN宕机而不是之前的一个。
刚开始HDFS NameNode高可用提供了一个namenode,和Standby namenode.通过规定的三个JournalNodes，复制edits 。这种架构能够容忍系统中的任何一个节点的失败。

然而，一些部署需要更高程度的容错性。这是通过这一新功能，它允许用户运行多个备用节点【Standby namenode】。例如，通过配置三个NameNodes和五个journalnodes，集群能够容忍两节点而不是一个失败。

高可用文档（http://hadoop.apache.org/docs/r3.0.0-alpha1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html）已经更新，说明如何配置多个namenode。

7、更改多个服务的默认端口。
此前，多个Hadoop服务的默认端口是在Linux的临时端口范围（32768-61000）。这意味着在启动时，服务有时会失败，绑定到端口，由于与另一个应用程序的冲突。

这个冲突的端口已经移出这个范围，影响 NameNode, Secondary NameNode, DataNode, 和KMS。文档已更新
发布说明地址https://issues.apache.org/jira/browse/HDFS-9427
更改端口列表地址https://issues.apache.org/jira/browse/HADOOP-12811

8.支持微软Azure 数据Lake 系统连接器

hadoop支持整合软Azure 数据Lake作为一种替代Hadoop兼容的文件系统。

9、Intra-datanode 平衡器
一个DataNode管理多个磁盘.

10.改编守护进程和任务堆管理

hadoop守护进程及MapReduce任务一系列的heap管理的改变。
HADOOP-10950(https://issues.apache.org/jira/browse/HADOOP-10950) 介绍了配置守护进程heap大小配置方法
值得注意的是基于主机内存调整成为可能，和 HADOOP_HEAPSIZE 值被弃用。更多细节查看发布说明 HADOOP-10950
MAPREDUCE-5785（https://issues.apache.org/jira/browse/MAPREDUCE-5785）简化了map和reduce任务的heap大小的配置，因此理想的heap的大小，不在需要任务的指定配置和作为Java选项。已有的配置不受影响。更多链接可查看MAPREDUCE

文档下载：

https://yunpan.cn/ckR5SVrhrGCkr 访问密码

游客，如果您要查看本帖隐藏内容请回复