分享

spark 字符map&&reduce处理问题

chyeers 发表于 2015-10-14 21:12:41 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 11510
本帖最后由 chyeers 于 2015-10-14 21:14 编辑

数据集
[mw_shl_code=shell,true]a,c,f,t,b
a,b,e,g,k
a,b,c,d,e
b,a,c,d,f[/mw_shl_code]

现想使用 spark 将这个数据集按 key=第一位+第二位      value=第一位+第二位+第三位+第四位+第五位  进行 group by ,并生成文件
如上数据集生成结果集:
[mw_shl_code=scala,true]a_b.txt   :
a,b,e,g,k
a,b,c,d,e

b_a.txt :
b,a,c,d,f[/mw_shl_code]

求助 spark 大神,望指教!


已有(3)人评论

跳转到指定楼层
Alkaloid0515 发表于 2015-10-14 21:39:07
感觉有点奇怪,生成的数据集为何是这样的

[mw_shl_code=bash,true]a_b.txt   :
a,b,e,g,k
a,b,c,d,e

b_a.txt :
b,a,c,d,f[/mw_shl_code]
即使按照楼主的key,value也应该不会这样生成吧
回复

使用道具 举报

傻子_D1DW2 发表于 2015-10-14 21:56:50
第一位和第二位为key的,a,b为key;b,a为key
回复

使用道具 举报

chyeers 发表于 2015-10-15 14:50:10
Alkaloid0515 发表于 2015-10-14 21:39
感觉有点奇怪,生成的数据集为何是这样的

[mw_shl_code=bash,true]a_b.txt   :

第一位和第二位为key的,a,b为key;b,a为key
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条