分享

使用 MapReduce 统计其他类型文件

Kevin517 发表于 2016-11-12 14:17:51 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7241
想问大家一个问题,在使用 MapReduce 做单词统计的时候,如何读取 非文本文档类型文件呢?

我想读取 .doc,.docx,.pdf 类型的文件。

希望大家能给点思路。

今天做了在 JAVA 中使用 POI 的 JAR 包 读 .doc/.docx 文档的内容。没有问题
然后做了 使用 PDFBox的 JAR 包,读取 PDF  文件,也能读取到里面的文本信息。

然后我就在 Map 里面写,但一想,不对呀, 可是有没有啥思路,不知道该怎么写。

mapreduce 从 HDFS 获取数据,我该怎么能拿到正常的文本类型的数据呢?

是要写一个自定义的 InputFormat 方法吗?


已有(4)人评论

跳转到指定楼层
langke93 发表于 2016-11-12 16:35:10
InputFormat 是针对数据内容格式的
楼主可以直接上传到hdfs,然后读取路径换成hdfs路径即可。
其它的编程应该都是类似的,把相关包等导入到开发环境中
回复

使用道具 举报

Kevin517 发表于 2016-11-12 17:08:38
langke93 发表于 2016-11-12 16:35
InputFormat 是针对数据内容格式的
楼主可以直接上传到hdfs,然后读取路径换成hdfs路径即可。
其它的编程 ...

你好,
我直接上传到 HDFS 后,用 WordCount 统计,输出结果是一堆乱码。

毕竟是 .doc 和 .pdf 格式文件。我想知道应该怎么正确读取呢?


回复

使用道具 举报

nextuser 发表于 2016-11-12 17:40:14
Kevin517 发表于 2016-11-12 17:08
你好,
我直接上传到 HDFS 后,用 WordCount 统计,输出结果是一堆乱码。

这个就麻烦了,可能真需要重写inputformat。不过ibm有现成的内容,楼主可以参考下

如何使用 IBM InfoSphere BigInsights 分析各种类型(word,pdf等)数字的文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20273


回复

使用道具 举报

Kevin517 发表于 2016-11-12 17:44:08
nextuser 发表于 2016-11-12 17:40
这个就麻烦了,可能真需要重写inputformat。不过ibm有现成的内容,楼主可以参考下
http://www.ibm.com/d ...

恩恩,非常感谢。。。
我去看看
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条