分享

探索Spark源码---DAG图

regan 发表于 2015-12-8 09:24:43 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 5 16660
本帖最后由 regan 于 2015-12-9 14:15 编辑

RDD之间的依赖形成一个有向无环图DAG,依赖关系的分析和判断由DAGSchedular负责。DAGSchedular根据DAG划分的结果,将一个作业划分成多个stage,而划分stage的依据是shuffle操作。
图片1.png

在Spark中,计算的触发发生在action操作,而之前的transformation操作Spark只是记录下依赖关系,而这些依赖关系组成了一张有向无环图,即上面所说的DAG图。如上图中输入经过transformation操作生成A,B,C,D四个RDD,最终生成F,在这过程中没有发生真正的计算,当F要输出时,才真正触发计算操作,在触发真正的计算之前Spark只是记录下了RDD的生成和依赖关系。
   有了DAG图,DAGSchedular就可以根据RDD之间的依赖关系,划分出stage,然后将stage中的taskSet提交给TaskSchedular,TaskSchedular会将这些任务分发到Worker节点进行计算。

已有(5)人评论

跳转到指定楼层
regan 发表于 2015-12-8 09:27:22
不知道为什么,上传的图片竟显示不出来,无语
回复

使用道具 举报

xuanxufeng 发表于 2015-12-8 10:25:08
regan 发表于 2015-12-8 09:27
不知道为什么,上传的图片竟显示不出来,无语

1.png

是不是网速的问题
1.先点击图片
2.选择附件,然后选择本地路径
回复

使用道具 举报

regan 发表于 2015-12-8 10:31:59
上面的图片没有显示出来,我重新上传

spark DAG依赖图

spark DAG依赖图
回复

使用道具 举报

regan 发表于 2015-12-8 10:33:07
xuanxufeng 发表于 2015-12-8 10:25
是不是网速的问题
1.先点击图片
2.选择附件,然后选择本地路径

恩恩,谢谢,我重新上传图片

回复

使用道具 举报

xuanxufeng 发表于 2015-12-8 13:45:30
regan 发表于 2015-12-8 10:33
恩恩,谢谢,我重新上传图片




1.png

帖子底部有编辑功能


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条