分享

spark分析日志乱码

pandatyut 发表于 2016-11-9 21:23:37 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 9110
用下面的代码分析日志,日志的编码格式可能为ascii,utf-8,GBK,分析出来是乱码,有人知道这该怎么解决吗?   

val conf = new SparkConf().setAppName("SparkSQLDemo").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new org.apache.spark.sql.SQLContext(sc)
    // this is used to implicitly convert an RDD to a DataFrame.
    import sqlContext.implicits._

    val people = sc.textFile(hdfsFilePath).map(_.split("\t"))
      .map(p => Log(p(0), p(1),p(2),p(3))).toDF()

    people.registerTempTable("tmpLogs")
people.select("logTime","userName").show(10)

已有(2)人评论

跳转到指定楼层
arsenduan 发表于 2016-11-9 22:03:37
没什么好的解决办法先确定日志的编码,然后在程序中做转换。
当然楼主也可以一个个编码尝试,做编码转换。
其实就三个也很快的。
回复

使用道具 举报

easthome001 发表于 2016-11-9 22:06:00
楼主参考下这个吧,希望有所帮助
Spark 处理中文乱码问题(UTF-8编码)

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条