About云-梭伦科技»专题 › 交流区 › 技术交流 › MapReduce › MapReduce 中文分词乱码

MapReduce 中文分词乱码

查看数: 8201 | 评论数: 2 | 收藏 1

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

Kevin517

发布时间: 2016-11-7 18:57

正文摘要:

问题说明：在 MapReduce 中使用 IK 分词器，对中文分词统计，统计结果乱码环境说明： Hadoop 集群：Hadoop 2.7.0，采用完全分布式 CentOS 6.5 操作系统下可以查看中文文本文件使用 Eclipse 插件上传 ...

einhep 发表于 2016-11-7 19:21:38

eclipse编码问题，尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

1.windows->Preferences 打开"首选项"对话框；

2.然后，general->Workspace，右侧Text file encoding，选择Other，改变为UTF-8。

3.Web->打开，把CSS、HTML、JSP、JavaScript、 XML等设置为UTF-8。

或在这里更改，general->Content Types，右侧Context Types树，点开Text，选择Java Source File，在下面的Default encoding输入框中输入UTF-8，点Update，则设置Java文件编码为UTF-8。其他如果需要更改，方法一样。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Kevin517 发表于 2016-11-7 20:23:05

einhep 发表于 2016-11-7 19:21
eclipse编码问题，尝试下面方法。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
eclipse中UTF-8设置

咋忘了这一点呢。。。。。
有点菜了。。。

谢谢提醒。

图文精华

MapReduce 中文分词乱码

正文摘要:

回复

推荐 /2