分享

mr IK中文分词出现乱码

Wyy_Ck 发表于 2017-6-12 23:08:47 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 4981
输入:
[root@master logs]# hadoop fs -cat  /input/first.txt
人物、情节、环境是小说的三要素。情节一般包括开端、发展、高潮、结局四部分,有的包括序幕、尾声。环境包括自然环境和社会环境。 小说按照篇幅及容量可分为长篇、中篇、短篇和微型小说(小小说)。按照表现的内容可分为科幻、公案、传奇、武侠、言情、同人、官宦等。按照体制可分为章回体小说、日记体小说、书信体小说、自传体小说。按照语言形式可分为文言小说和白话小说。
[root@master logs]#


输出乱码:
[mw_shl_code=bash,true][root@master logs]# hadoop fs -cat  /output1/part-r-00000
佷        3
佸        5
佹        3
佺        4
佽        2
侀        1
傘        1
備        1
傛        4
傜        1
儏        2
儴        1
冨        2
冩        1
剁        1
功        1
勪        1
収        1
叕        1
句        1
呫        1
呭        1
呮        1
嗕        2
嗭        1
嚜        2
囥        2
囧        2
垎        2
堛        1
堝        1
墿        1
夈        1
夌        2
妗        1
娼        1
婂        1
嫭        1
寘        2
寜        3
寰        1
岀        1
幆        3
彂        1
彲        2
忓        2
忚        8
恒        1
悓        1
扮        1
拰        2
搴        1
撳        1
曘        1
枃        1
棩        1
槸        1
櫧        1
殑        2
汇        1
洖        1
浜        2
浣        1
浼        1
涓        2
涢        1
淇        1
淬        2
渚        1
澧        3
澹        1
濂        1
濆        1
瀷        1
瀹        1
灏        8
灞        2
烘        1
煭        1
熬        1
犮        1
犱        1
犲        1
珮        1
瑕        1
瑷        2
璁        1
璇        3
瓑        1
畼        1
瘒        1
皬        3
礌        1
竴        1
笁        1
箙        1
箷        1
粨        1
紑        1
紝        1
紡        1
細        1
紶        1
綋        4
绀        1
绔        2
绡        3
腑        1
般        1
虹        2
褰        1
负        2
跨        1
跺        1
銆        9
鍐        1
鍒        4
鍖        1
鍙        3
鍜        1
鍥        1
鎯        1
鎷        2
鎸        1
鏈        1
鐒        1
鐓        3
鐜        2
鐨        1
鑸        1
鑺        2
锛        2
閲        1
闀        1
颁        1
骞        1[/mw_shl_code]


请问是怎么回事呢

已有(2)人评论

跳转到指定楼层
einhep 发表于 2017-6-13 07:22:13
这应该不是乱码,是繁体字。
回复

使用道具 举报

Wyy_Ck 发表于 2017-6-13 12:02:14
einhep 发表于 2017-6-13 07:22
这应该不是乱码,是繁体字。

哦哦 我看了下 paoding-analysis 和 Lucene有版本配套的  否则用起来会代码报错的。  你那边有没有对应的版本配套吗?

谢谢哈!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条