about云开发

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

about云开发 首页 大数据 Spark 新版说明 查看内容

Spark2.4有哪些新功能【尝鲜】

2018-9-21 18:45| 发布者: admin| 查看: 52| 评论: 4|原作者: pig2

摘要: 问题导读 1.Spark有哪些模块发生改变? 2.Barrier Execution是什么? 3.将Spark数据与AI整合的是什么项目? 关注最新经典文章,欢迎关注公众号 Spark开发者公布了Spark2.4新增功能,多模块都做了改变, ...
问题导读

1.Spark有哪些模块发生改变?
2.Barrier Execution是什么?
3.将Spark数据与AI整合的是什么项目?

关注最新经典文章,欢迎关注公众号


Spark开发者公布了Spark2.4新增功能,多模块都做了改变,包括:
1.Barrier Execution
2.Spark on Kubernetes
3.Scala 2.12
4.PySpark改进
5.Structured Streaming
6.Image数据源
7.Native Avro支持
8.内置源代码改进
9.各种SQL功能

这里重点介绍Barrier Execution、Spark图像数据源、Spark On K8s

1.png

Barrier Execution

补充资料,熟悉可跳过:
对于Barrier Execution可能了解的不多,我们看下面下面链接内容
https://jira.apache.org/jira/browse/SPARK-24374
2.png

这里翻译如下:
这里的建议是为Apache Spark添加一个新的调度模型,以便用户可以嵌入分布式DL(深度学习)训练作为Spark stage,以简化分布式训练工作流程。 例如,Horovod使用MPI实现all-reduce以加速分布式TensorFlow训练。 Spark计算模型不同于MapReduce。 在Spark中,阶段中的任务不依赖于同一阶段中的任何其他任务,因此可以独立调度。 在MPI中,所有Worker同时开始并传递消息。 为了在Spark中嵌入这个workload,我们需要引入一个新的调度模型,定名为“barrier scheduling”,它同时启动任务并为用户提供足够的信息和工具来嵌入分布式DL训练。 Spark还可以提供额外的容错层,以防中间某些任务失败,Spark会中止所有任务并重新启动stage。

上面我们明白了Barrier Execution。

Hydrogen产生
Spark是第一个统一分析引擎,结合了数据和AI技术
1.png

为什么这么说那?如下图,在Spark和AI之间似乎缺少了将二者整合的系统技术

1.png

于是项目Hydrogen产生

项目Hydrogen: Spark + AI
Spark调度嵌入Spark分布式DL(深度学习)job作为Spark stage以简化分布式训练工作流程:
1.在一个stage同时启动任务
2.为用户提供足够的信息和工具来嵌入分布式DL训练
3.引入新的容错机制(任何任务时),在中间失败,Spark将中止所有任务并重新启动stage

Hydrogen相关视频下载:
链接: https://pan.baidu.com/s/1IYAi4LifIhRpFBG0KVtHCw 提取码: efbn

Structured Streaming
1.在Append和Completeoutput模式下支持流的LIMIT运算符。
2.从流聚合中的值中移除冗余key数据
3.当输入流中没有数据时,使用有状态操作(mapGroupsWithState, stream-stream join, streaming aggregation, streaming dropDuplicates)更快地生成输出结果和/或状态清理。
4.支持在查询中有多个输入流时选择最小或最大watermark。

Spark图像数据源
1.分区发现
2.从目录递归加载
3.dropImageFailures路径通配符匹配
4.路径通配符匹配

Spark On K8s
1.支持PySpark
2.支持Client-mode
3.支持安装K8S volume

更多功能参考pdf:
1.png
2.png
3.png
4.png
5.png
6.png
7.png

更多下载:
链接: https://pan.baidu.com/s/1hePXdd2pcDpga0vdD2-gxQ 提取码: bpke



鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

jiangzi 2018-9-21 20:50
Spark2.4有哪些新功能~~~~
jiangzi 2018-9-22 18:33
Spark2.4有哪些新功能, 不错
美丽天空 2018-9-25 09:27
感谢分享
kennys 2018-9-26 09:43
Spark2.4什么时候出

查看全部评论(4)

关闭

推荐上一条 /3 下一条

QQ|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号

GMT+8, 2019-2-28 13:06 , Processed in 0.436956 second(s), 34 queries , Gzip On.

Powered by Discuz! X3.2 Licensed

返回顶部