Spark的Partition是如何形成的？

提示: 作者被禁止或删除内容自动屏蔽

desehawk · 发表于 2016-1-17 14:51:05

spark中的partion是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中，生成的数据在计算空间内最小单元，同一份数据（RDD）的partion大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定的，这也是为什么叫“弹性分布式”数据集的原因之一。

Partition里的数据的顺序是不是已经和原文件里的不一样了呢？
楼主是想表达什么意思？

seraph50 · 发表于 2016-1-17 15:51:58

提示: 作者被禁止或删除内容自动屏蔽

desehawk · 发表于 2016-1-17 16:14:38

seraph50 发表于 2016-1-17 15:51
不是由原文件按顺序直接截取形成多个Partition，是不是这个意思？每个partition里的数据元素是从原文件 ...

你是指读取顺序？文件的存储是如何存储的？RDD的Partition是存储在多台机器上的，肯定会多台读取。如果还不是的话，楼主最好画图表达

seraph50 · 发表于 2016-1-17 16:27:07

提示: 作者被禁止或删除内容自动屏蔽

Alkaloid0515 · 发表于 2016-1-17 20:56:42

seraph50 发表于 2016-1-17 16:27
我的意思就是Partition不会根据文件的偏移量来截取的（比如有3个Partition，1个是头多少M的数据，1个是中 ...

楼主很善于思考，并且找到了一个盲区。确实目前国内，还没有这方面的资料。
这个只能到官网上看看了

395455030 · 发表于 2016-1-19 11:44:11

seraph50 发表于 2016-1-17 16:27
我的意思就是Partition不会根据文件的偏移量来截取的（比如有3个Partition，1个是头多少M的数据，1个是中 ...

就是这样啊，头几M一个partition，接下来几M再一个partition……

hyj · 发表于 2016-1-20 09:51:27

跟hadoop一样的，有自己的分区函数

图文精华

Spark的Partition是如何形成的？

已有(7)人评论

活跃会员

热心会员

优秀版主

推荐 /2