日志

Spark 处理中文乱码问题（UTF-8编码）

热度 1已有 2360 次阅读2016-11-9 22:04 | 中文

问题场景

要用Spark处理一大堆微信日志数据，日志存放在HDFS上，是xml格式，里面有大量的中文。用scala + Java实现了xml的处理逻辑，其中有一步是要获取xml中的一个title字段，中文。不管怎么抓取，最终得到的中文都会变成一堆“？？？？？”，乱码了。从xml中获取非中文字段，没有任何问题。也就是说，代码的逻辑是没什么问题的。

问题解析

直接用Hadoop fs -text或者hadoop fs -cat查看HDFS上的文件，是可以正常显示的，也就是说HDFS上存放的原数据是好的。那么就肯定是读取数据或者处理数据的过程中出了问题。spark on yarn的数据处理，同时涉及了HDFS，App driver, App excutor之间的交互，所以还真没法一下就判断出是哪一步传输中出了问题。抽丝剥茧，先梳理一遍spark的处理逻辑：

（1）从HDFS把xml读取到每个NM上的executor中（spark on yarn环境）

（2）在executor中对xml进行处理，获取中文字段。这里我实现了一个java方法，调用dom来解析xml。

（3）把解析后的字段collect到driver中，做存储或者输出打印等。

（4）或者把解析后的字段重新存入HDFS

进入Spark-shell，依次验证这几个步骤。读入HDFS上的xml文件，然后直接写入HDFS，检查发现字符显示正常，排除步骤（1）（4）。读入HDFS上的xml文件，collect到driver中，然后println，字符显示正常，排除步骤（3）。说明问题出在executor对字段的解析处理过程中。

无论汉字还是英文字符，本质上还是一组字节流，所以出现乱码，只能是编码解析出了问题。查看发现，代码中只有一个地方对xml文件中的字符做了解析，就是这里：

DocumentBuilder dbBuilder = dbFactory.newDocumentBuilder();

InputStream strm = new ByteArrayInputStream(xmlStream.getBytes());

Document doc = dbBuilder.parse(strm);

把string转为inputStream的过程。找到了出问题的位置，下一步就是检测。

登录到executor所在的hadoop节点，进入spark-shell，输入System.getProperty("file.encoding")，返回”ISO-8859-1“，说明它的默认编码方式是ISO-8859-1。另一种检测方法，是定义一个String变量等于一个汉字，然后a.getBytes().length。检查它的字节数，并推断对应的字符编码。UTF8汉字占3个字节，GBK汉字占2个字节。

ISO-8895-1占1字节，用ISO-8895-1的方式把汉字转成字节流，然后转回的过程中，肯定会损失一部分数据，所以会乱码。

问题定位到后，解决就很简单了。 在所有涉及到字节转换时，一定要指定编码方式。类似这样：