日志

sparkSQl的心得

已有 738 次阅读2017-6-12 15:23 |个人分类:spark| spark基础

利用sparkSQL 做数据的逻辑处理得到结论的代码并不复杂
原因是因为
                   1.spark 本身分布式的原理，并不涉及多线程的代码编写
                   2.sparkSql的用起来的Sql的代码，风格有些接近，毕竟都是在处理数据
                   3.sparkSql 提供的scala 的api 可以从中找到各种方法
                   4.如果没有那么自己写udf
注意事项：
1.整个逻辑因为只能运行在一个sc中，sparkContext中，所以，要写一个单列
2.代码中用到了许多隐士转换
需要引用 import sqlHiveContext.implicits._
其中 sqlHiveContext是单列中的HiveContext
3.自定义的udf 函数 val udftest=udf (funClass.funName _)
4.需要用到的常见的包 org.apache.spark.sql.functions._