求大牛指教spark如何实现多层次分组？

11班小红语文:77
11班小红数学:87
11班小红外语:98
11班小黄语文:67
11班小黄数学:57
11班小黄外语:98

12班小黑语文:76
12班小黑数学:67
12班小黑外语:76
12班小白语文:45
12班小白数学:87
12班小白外语:33

dsy198816 · 发表于 2017-2-12 14:34:44

就是第一层班级，第二层姓名的分组，我知道groupby可以指定一个键实现一层的分组，但是我想实现多层的分组如何实现

NEOGX · 发表于 2017-2-12 16:20:16

dsy198816 发表于 2017-2-12 14:34
就是第一层班级，第二层姓名的分组，我知道groupby可以指定一个键实现一层的分组，但是我想实现多层的分组 ...

应该是二次排序是一样的道理。楼主这个甚至可以采用二次排序的方式。
下面是关于二次排序的代码，楼主可以修改下。下面是对一个数组的二次排序。思路应该都是一样的。
[mw_shl_code=scala,true]package com.spark.secondApp
import org.apache.spark.{SparkContext, SparkConf}

object SecondarySort {
  def main(args: Array[String]) {
val conf = new SparkConf().setAppName(" Secondary Sort ").setMaster("local")
val sc = new SparkContext(conf)
val file = sc.textFile("hdfs://worker02:9000/test/secsortdata")
val rdd = file.map(line => line.split("\t")).
   map(x => (x(0),x(1))).groupByKey().
   sortByKey(true).map(x => (x._1,x._2.toList.sortWith(_>_)))
val rdd2 = rdd.flatMap{
   x =>
   val len = x._2.length
   val array = new Array[(String,String)](len)
   for(i <- 0 until len) {
      array(i) = (x._1,x._2(i))
   }
   array
}
sc.stop()
  }
}[/mw_shl_code]

上图中第一列升序排列，第二列降序排列。