日志

Spark源码分析-client 如何选择将task提交给那个excutor

已有 535 次阅读2014-12-29 01:12

park中很重要的一点就是task具体分配到哪个excutor上执行，如果分配不合理，将会消耗很多额外的资源。例如:executor1用flume receiver接收到数据，并将数据保存到block1上，excutor2用flume receiver接收到数据，并将数据保存到block2上。RDD将有两个patition,将对应产生两个task. task1处理block1，task2处理block2.如果将 task1分配到excutor2上去处理，那么excutor2将需要从excutor1上拿到block1，然后再计算，这样就加重了数据传输的消耗。那么spark是如何来选择的呢？spark是通过RDD的getPreferredLocations来确定某一个partition期望分配到哪个executor的。下面这个流程图中显示在创建Task的时候会先调用getPreferredLocations（）这个函数获取当前patition的期望运行的位置，在addPendingTask（）函数中预先将task加到各个列表中

路过

雷人

握手

鲜花

desehawk的个人空间 https://www.aboutyun.com/?29 [收藏] [复制] [分享] [RSS]

日志

Spark源码分析-client 如何选择将task提交给那个excutor

全部作者的其他最新日志

评论 (0 个评论)

desehawk

推荐 /2