大神速来，指导一下处理思路吧

我之前学习的MR都是对一个文件进行处理，现在项目任务需求需要对两个文件进行处理。
文件一：存储手机品牌、手机型号信息。已经过处理，有1000多条，格式如图：
QQ截图20151209190604.png

文件二：搜索关键词和用户数据，存放在hdfs中，有对应的hive表。
————————————————————————————————
请问根据文件一中的关键词如何筛选出，包含以上关键词的搜索记录？求大神说一下思路就好了。

补充内容 (2015-12-25 16:53):
问题已解决：文件一提供了关键词，文件二（hive表）提供了基本的dpi数据。实现方案已定，将文件一处理为正则表达式，写UDF函数，筛选hive表中的相关数据。

arsenduan · 发表于 2015-12-9 19:48:16

本帖最后由 arsenduan 于 2015-12-9 19:49 编辑

没明白楼主的意思。

文件一是个表
文件二是什么？
搜索关键词？和用户数据？
是指两个字段：
搜索关键词
用户数据
还是说：
hdfs是存储搜索关键字和用户数据。
可是用户关键字和用户数据，跟第一个表又是什么关系那？
文件一跟文件二是关系什么关系，筛选什么那。

文件二中有关键字，最后表达的是文件一筛选

regan · 发表于 2015-12-9 21:16:58

在程序中自己实现类似于关系型数据中中的join操作，这个实现应该很容易吧，spark从HDFS读出文件A，形成RDD1，从HDFS读出文件B形成RDD2，实现join操作就ok

图文精华

大神速来，指导一下处理思路吧

已有(2)人评论

浏览过的版块

最佳新人

活跃会员

热心会员

推荐 /2