Spark2.4有哪些新功能【尝鲜】

2018-9-21 18:45| 发布者: admin| 查看: 52| 评论: 4|原作者: pig2

摘要: 问题导读 1.Spark有哪些模块发生改变？ 2.Barrier Execution是什么？ 3.将Spark数据与AI整合的是什么项目？关注最新经典文章，欢迎关注公众号 Spark开发者公布了Spark2.4新增功能,多模块都做了改变， ...

问题导读

1.Spark有哪些模块发生改变？
2.Barrier Execution是什么？
3.将Spark数据与AI整合的是什么项目？

关注最新经典文章，欢迎关注公众号

Spark开发者公布了Spark2.4新增功能,多模块都做了改变，包括：
1.Barrier Execution
2.Spark on Kubernetes
3.Scala 2.12
4.PySpark改进
5.Structured Streaming
6.Image数据源
7.Native Avro支持
8.内置源代码改进
9.各种SQL功能

这里重点介绍Barrier Execution、Spark图像数据源、Spark On K8s

Barrier Execution

补充资料，熟悉可跳过：
对于Barrier Execution可能了解的不多，我们看下面下面链接内容
https://jira.apache.org/jira/browse/SPARK-24374

这里翻译如下：

这里的建议是为Apache Spark添加一个新的调度模型，以便用户可以嵌入分布式DL（深度学习）训练作为Spark stage，以简化分布式训练工作流程。例如，Horovod使用MPI实现all-reduce以加速分布式TensorFlow训练。 Spark计算模型不同于MapReduce。在Spark中，阶段中的任务不依赖于同一阶段中的任何其他任务，因此可以独立调度。在MPI中，所有Worker同时开始并传递消息。为了在Spark中嵌入这个workload，我们需要引入一个新的调度模型，定名为“barrier scheduling”，它同时启动任务并为用户提供足够的信息和工具来嵌入分布式DL训练。 Spark还可以提供额外的容错层，以防中间某些任务失败，Spark会中止所有任务并重新启动stage。

上面我们明白了Barrier Execution。

Hydrogen产生
Spark是第一个统一分析引擎，结合了数据和AI技术

为什么这么说那？如下图，在Spark和AI之间似乎缺少了将二者整合的系统技术

于是项目Hydrogen产生

项目Hydrogen: Spark + AI
Spark调度嵌入Spark分布式DL（深度学习）job作为Spark stage以简化分布式训练工作流程：
1.在一个stage同时启动任务
2.为用户提供足够的信息和工具来嵌入分布式DL训练
3.引入新的容错机制（任何任务时），在中间失败，Spark将中止所有任务并重新启动stage

Hydrogen相关视频下载：
链接: https://pan.baidu.com/s/1IYAi4LifIhRpFBG0KVtHCw 提取码: efbn

Structured Streaming
1.在Append和Completeoutput模式下支持流的LIMIT运算符。
2.从流聚合中的值中移除冗余key数据
3.当输入流中没有数据时，使用有状态操作（mapGroupsWithState, stream-stream join, streaming aggregation, streaming dropDuplicates）更快地生成输出结果和/或状态清理。
4.支持在查询中有多个输入流时选择最小或最大watermark。

Spark图像数据源
1.分区发现
2.从目录递归加载
3.dropImageFailures路径通配符匹配
4.路径通配符匹配

Spark On K8s
1.支持PySpark
2.支持Client-mode
3.支持安装K8S volume

更多功能参考pdf：