使用 MapReduce 统计其他类型文件

想问大家一个问题，在使用 MapReduce 做单词统计的时候，如何读取非文本文档类型文件呢？

我想读取 .doc，.docx，.pdf 类型的文件。

希望大家能给点思路。

今天做了在 JAVA 中使用 POI 的 JAR 包读 .doc/.docx 文档的内容。没有问题
然后做了使用 PDFBox的 JAR 包，读取 PDF 文件，也能读取到里面的文本信息。

然后我就在 Map 里面写，但一想，不对呀，可是有没有啥思路，不知道该怎么写。

mapreduce 从 HDFS 获取数据，我该怎么能拿到正常的文本类型的数据呢？

是要写一个自定义的 InputFormat 方法吗？

langke93 · 发表于 2016-11-12 16:35:10

InputFormat 是针对数据内容格式的
楼主可以直接上传到hdfs，然后读取路径换成hdfs路径即可。
其它的编程应该都是类似的，把相关包等导入到开发环境中

Kevin517 · 发表于 2016-11-12 17:08:38

langke93 发表于 2016-11-12 16:35
InputFormat 是针对数据内容格式的
楼主可以直接上传到hdfs，然后读取路径换成hdfs路径即可。
其它的编程 ...

你好，
我直接上传到 HDFS 后，用 WordCount 统计，输出结果是一堆乱码。

毕竟是 .doc 和 .pdf 格式文件。我想知道应该怎么正确读取呢？

nextuser · 发表于 2016-11-12 17:40:14

Kevin517 发表于 2016-11-12 17:08
你好，
我直接上传到 HDFS 后，用 WordCount 统计，输出结果是一堆乱码。

这个就麻烦了，可能真需要重写inputformat。不过ibm有现成的内容，楼主可以参考下

如何使用 IBM InfoSphere BigInsights 分析各种类型(word,pdf等)数字的文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20273

Kevin517 · 发表于 2016-11-12 17:44:08

nextuser 发表于 2016-11-12 17:40
这个就麻烦了，可能真需要重写inputformat。不过ibm有现成的内容，楼主可以参考下
http://www.ibm.com/d ...

恩恩，非常感谢。。。
我去看看

图文精华

使用 MapReduce 统计其他类型文件

已有(4)人评论

最佳新人

活跃会员

热心会员

推荐 /2