分享

Spark算子总结

linux_oracle 2020-12-4 14:39:32 发表于 其它 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 2112
本帖最后由 linux_oracle 于 2020-12-4 15:52 编辑
一.RDD创建1.从集合创建
1.1 parallelize
  1. 1.scala> var rdd = sc.parallelize(1 to 10)
  2. 2.rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :21
复制代码
1.2 makerdd
  1. 1.scala> var collect = Seq((1 to 10,Seq("slave007.lxw1234.com","slave002.lxw1234.com")),
  2. 2.(11 to 15,Seq("slave013.lxw1234.com","slave015.lxw1234.com")))
  3. 6.scala> var rdd = sc.makeRDD(collect)
  4. 7.rdd: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[6] at makeRDD at :23
复制代码


2.从外部创建RDD
2.1 textFile
  1. scala> var rdd = sc.textFile("hdfs:///tmp/lxw1234/1.txt")
复制代码
2.2 从其他HDFS文件格式创建
hadoopFile
sequenceFile
objectFile
newAPIHadoopFile



没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条