分享

大神速来,指导一下处理思路吧

我之前学习的MR都是对一个文件进行处理,现在项目任务需求需要对两个文件进行处理。
文件一:存储手机品牌、手机型号信息。已经过处理,有1000多条,格式如图:
QQ截图20151209190604.png
文件二:搜索关键词和用户数据,存放在hdfs中,有对应的hive表。
————————————————————————————————
请问根据文件一中的关键词如何筛选出,包含以上关键词的搜索记录?求大神说一下思路就好了。


补充内容 (2015-12-25 16:53):
问题已解决:文件一提供了关键词,文件二(hive表)提供了基本的dpi数据。实现方案已定,将文件一处理为正则表达式,写UDF函数,筛选hive表中的相关数据。

已有(2)人评论

跳转到指定楼层
arsenduan 发表于 2015-12-9 19:48:16
本帖最后由 arsenduan 于 2015-12-9 19:49 编辑

没明白楼主的意思。

文件一是个表
文件二是什么?
搜索关键词?和用户数据?
是指两个字段:
搜索关键词
用户数据
还是说:
hdfs是存储搜索关键字和用户数据。
可是用户关键字和用户数据,跟第一个表又是什么关系那?
文件一跟文件二是关系什么关系,筛选什么那。

文件二中有关键字,最后表达的是文件一筛选


回复

使用道具 举报

regan 发表于 2015-12-9 21:16:58
在程序中自己实现类似于关系型数据中中的join操作,这个实现应该很容易吧,spark从HDFS读出文件A,形成RDD1,从HDFS读出文件B形成RDD2,实现join操作就ok
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条