分享

MapReduce 中文分词乱码

问题说明:在 MapReduce 中使用 IK 分词器,对中文分词统计,统计结果乱码
环境说明:
Hadoop 集群:Hadoop 2.7.0,采用完全分布式

CentOS 6.5 操作系统下可以查看中文文本文件



使用 Eclipse 插件 上传 UTF-8 字符集的中文内容文件,在插件中打开显示效果如下


a1.PNG


上传后,查看 HDFS文件效果如下


a2.PNG


使用 IK 分词器,分析统计后的运行结果如下,分别贴出 使用命令查看的结果,和使用插件看到的结果


a3.PNG                                a4.PNG



下面贴出,Mapper 使用 IK 分词器的代码


a5.PNG


程序运行没问题,结果也能统计词频。就是输出结果。。。


不知道什么,原因,还望大神多多指点

已有(2)人评论

跳转到指定楼层
einhep 发表于 2016-11-7 19:21:38
eclipse编码问题,尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

1.windows->Preferences   打开"首选项"对话框;

2.然后,general->Workspace,右侧Text file encoding,选择Other,改变为UTF-8。

3.Web->打开,把CSS、HTML、JSP、JavaScript、 XML等设置为UTF-8。

或在这里更改,general->Content Types,右侧Context Types树,点开Text,选择Java Source File,在下面的Default encoding输入框中输入UTF-8,点Update,则设置Java文件编码为UTF-8。其他如果需要更改,方法一样。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

回复

使用道具 举报

Kevin517 发表于 2016-11-7 20:23:05
einhep 发表于 2016-11-7 19:21
eclipse编码问题,尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

咋忘了这一点呢。。。。。
有点菜了。。。

谢谢提醒。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条