分享

求助:如何对含有千万条数据的文件进行join合并?

本帖最后由 pig2 于 2016-2-11 16:01 编辑

手头上有一些数据大约300G,但是这些数据是分散在不同的文件中,具体如下:
QQ图片20160211114752.png
每个文件的内容非常简单,具体如下:
表一:
b.png
表二:
c.png
每个文件大约有2700多万条数据,现在需要对这些表进行join合并,也就是将表一,与表二合并成如下表三:
表三:
a.png
因为需要合并的表一,表二都有2700多万行,我想请教一下大家(1)如何才能快速的实现表一,表二join合并。(2)这个任务能不能再一台普通的笔记本电脑上完成,还是说需要借助云平台才能完成。(3)哪个云平台能够方便的实现这个任务?之前我拿各种数据分析软件都没能合并成功,就是一直运行出不来结果,如Python,RRE。希望大家能够给个建议,谢谢大家。

已有(6)人评论

跳转到指定楼层
when30 发表于 2016-2-11 12:55:50
join方法很多种,比如在hive中,可以使用hive sql,这个比较方便,而且简单,但是需要导入到hive中。这样就麻烦了。

另外也可以直接使用mapreduce join,这样让文件直接被mapreduce处理
回复

使用道具 举报

when30 发表于 2016-2-11 12:59:38

推荐资料:

hadoop mapreduce join原理、方法讲解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12054


Hadoop MapReduce Join实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=5867

最新100份开源大数据架构论文之61:mapreduce join
http://www.aboutyun.com/forum.php?mod=viewthread&tid=14398


hadoop mapreduce join代码示例及讲解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12055




回复

使用道具 举报

xiaoguozhi 发表于 2016-2-11 20:57:04
when30 发表于 2016-2-11 12:55
join方法很多种,比如在hive中,可以使用hive sql,这个比较方便,而且简单,但是需要导入到hive中。这样就 ...

那hive sql这个方法在一台电脑上完成不了吧?有没有适合用一台电脑能够解决的方法?
回复

使用道具 举报

bob007 发表于 2016-2-11 22:03:03
xiaoguozhi 发表于 2016-2-11 20:57
那hive sql这个方法在一台电脑上完成不了吧?有没有适合用一台电脑能够解决的方法?

都可以用一台电脑解决的,可以安装伪分布式,只不过慢而已。楼主可以先入门大数据,集群有分布式和伪分布。
不过伪分布不能发挥大数据的作用。




回复

使用道具 举报

bob007 发表于 2016-2-11 22:05:50
下面是单机安装
hadoop2.7【单节点】单机、伪分布、分布式安装指导
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12798


多机安装
hadoop(2.x)以hadoop2.2为例完全分布式最新高可靠安装文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7684




回复

使用道具 举报

szcountryboy 发表于 2016-2-15 13:45:17
手工将两个文件合并,一个文件追加到另一个文件尾部
在mr里面根据id进行处理就可以了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条