MapReduce 中文分词乱码

问题说明：在 MapReduce 中使用 IK 分词器，对中文分词统计，统计结果乱码
环境说明：
Hadoop 集群：Hadoop 2.7.0，采用完全分布式

CentOS 6.5 操作系统下可以查看中文文本文件

使用 Eclipse 插件上传 UTF-8 字符集的中文内容文件，在插件中打开显示效果如下

上传后，查看 HDFS文件效果如下

使用 IK 分词器，分析统计后的运行结果如下，分别贴出使用命令查看的结果，和使用插件看到的结果

下面贴出，Mapper 使用 IK 分词器的代码

程序运行没问题，结果也能统计词频。就是输出结果。。。

不知道什么，原因，还望大神多多指点

einhep · 发表于 2016-11-7 19:21:38

eclipse编码问题，尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

1.windows->Preferences 打开"首选项"对话框；

2.然后，general->Workspace，右侧Text file encoding，选择Other，改变为UTF-8。

3.Web->打开，把CSS、HTML、JSP、JavaScript、 XML等设置为UTF-8。

或在这里更改，general->Content Types，右侧Context Types树，点开Text，选择Java Source File，在下面的Default encoding输入框中输入UTF-8，点Update，则设置Java文件编码为UTF-8。其他如果需要更改，方法一样。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Kevin517 · 发表于 2016-11-7 20:23:05

einhep 发表于 2016-11-7 19:21
eclipse编码问题，尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

咋忘了这一点呢。。。。。
有点菜了。。。

谢谢提醒。

图文精华

MapReduce 中文分词乱码

已有(2)人评论

最佳新人

推荐 /2