1.Spark有哪些模块发生改变? 2.Barrier Execution是什么? 3.将Spark数据与AI整合的是什么项目? 关注最新经典文章,欢迎关注公众号 Spark开发者公布了Spark2.4新增功能,多模块都做了改变,包括: 1.Barrier Execution 2.Spark on Kubernetes 3.Scala 2.12 4.PySpark改进 5.Structured Streaming 6.Image数据源 7.Native Avro支持 8.内置源代码改进 9.各种SQL功能 这里重点介绍Barrier Execution、Spark图像数据源、Spark On K8s Barrier Execution 补充资料,熟悉可跳过: 对于Barrier Execution可能了解的不多,我们看下面下面链接内容 https://jira.apache.org/jira/browse/SPARK-24374 这里翻译如下: 这里的建议是为Apache Spark添加一个新的调度模型,以便用户可以嵌入分布式DL(深度学习)训练作为Spark stage,以简化分布式训练工作流程。 例如,Horovod使用MPI实现all-reduce以加速分布式TensorFlow训练。 Spark计算模型不同于MapReduce。 在Spark中,阶段中的任务不依赖于同一阶段中的任何其他任务,因此可以独立调度。 在MPI中,所有Worker同时开始并传递消息。 为了在Spark中嵌入这个workload,我们需要引入一个新的调度模型,定名为“barrier scheduling”,它同时启动任务并为用户提供足够的信息和工具来嵌入分布式DL训练。 Spark还可以提供额外的容错层,以防中间某些任务失败,Spark会中止所有任务并重新启动stage。 上面我们明白了Barrier Execution。 Hydrogen产生 Spark是第一个统一分析引擎,结合了数据和AI技术 为什么这么说那?如下图,在Spark和AI之间似乎缺少了将二者整合的系统技术 于是项目Hydrogen产生 项目Hydrogen: Spark + AI Spark调度嵌入Spark分布式DL(深度学习)job作为Spark stage以简化分布式训练工作流程: 1.在一个stage同时启动任务 2.为用户提供足够的信息和工具来嵌入分布式DL训练 3.引入新的容错机制(任何任务时),在中间失败,Spark将中止所有任务并重新启动stage Hydrogen相关视频下载: 链接: https://pan.baidu.com/s/1IYAi4LifIhRpFBG0KVtHCw 提取码: efbn Structured Streaming 1.在Append和Completeoutput模式下支持流的LIMIT运算符。 2.从流聚合中的值中移除冗余key数据 3.当输入流中没有数据时,使用有状态操作(mapGroupsWithState, stream-stream join, streaming aggregation, streaming dropDuplicates)更快地生成输出结果和/或状态清理。 4.支持在查询中有多个输入流时选择最小或最大watermark。 Spark图像数据源 1.分区发现 2.从目录递归加载 3.dropImageFailures路径通配符匹配 4.路径通配符匹配 Spark On K8s 1.支持PySpark 2.支持Client-mode 3.支持安装K8S volume 更多功能参考pdf: 更多下载: 链接: https://pan.baidu.com/s/1hePXdd2pcDpga0vdD2-gxQ 提取码: bpke |
|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号 )
GMT+8, 2019-2-28 13:06 , Processed in 0.436956 second(s), 34 queries , Gzip On.