分享

Spark的Partition是如何形成的?

seraph50 发表于 2016-1-17 14:20:53 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 7 29274
提示: 作者被禁止或删除 内容自动屏蔽

已有(7)人评论

跳转到指定楼层
desehawk 发表于 2016-1-17 14:51:05

spark中的partion是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的,这也是为什么叫“弹性分布式”数据集的原因之一。
Partition里的数据的顺序是不是已经和原文件里的不一样了呢?
楼主是想表达什么意思?


回复

使用道具 举报

seraph50 发表于 2016-1-17 15:51:58
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

desehawk 发表于 2016-1-17 16:14:38
seraph50 发表于 2016-1-17 15:51
不是由原文件按顺序直接截取形成多个Partition,是不是这个意思? 每个partition里的数据元素是从原文件 ...

你是指读取顺序?文件的存储是如何存储的?RDD的Partition是存储在多台机器上的,肯定会多台读取。如果还不是的话,楼主最好画图表达
回复

使用道具 举报

seraph50 发表于 2016-1-17 16:27:07
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

Alkaloid0515 发表于 2016-1-17 20:56:42
seraph50 发表于 2016-1-17 16:27
我的意思就是Partition不会根据文件的偏移量来截取的(比如有3个Partition,1个是头多少M的数据,1个是中 ...

楼主很善于思考,并且找到了一个盲区。确实目前国内,还没有这方面的资料。
这个只能到官网上看看了
回复

使用道具 举报

395455030 发表于 2016-1-19 11:44:11
seraph50 发表于 2016-1-17 16:27
我的意思就是Partition不会根据文件的偏移量来截取的(比如有3个Partition,1个是头多少M的数据,1个是中 ...

就是这样啊,头几M一个partition,接下来几M再一个partition……
回复

使用道具 举报

hyj 发表于 2016-1-20 09:51:27
跟hadoop一样的,有自己的分区函数
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条