在Hadoop中用ArrayList出现的问题

查看数: 10322 | 评论数: 7 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

发布时间: 2014-5-15 16:07

在Hadoop中用ArrayList有什么问题没把每个key对应的values放到List中然后遍历List 值就变了怎么回事啊?

pig2 发表于 2014-5-15 16:18:44

这样应该会有点麻烦，你可以用BitMap试试。
将reduce中已经连接的好的分组按照来源标志分别放到两个BitMap中。这样比较省内存。

sstutu 发表于 2014-5-15 16:18:01

如果在reduce中做连接，该怎么做？

pig2 发表于 2014-5-15 16:16:49

数据量不大直接mapJoin
你其中一个文件很小看到

小的放到一个hashMap里面通过distribute分发，然后比较就ok

pig2 发表于 2014-5-15 16:11:32

写这种程序尽量使内存能够动态流动，而不是常驻型
例如，你为何要复制一份？可不可以不同过复制一份来进行实现。

pig2 发表于 2014-5-15 16:08:36

检查对象引用是否正确。
另外你这个用的地方不对，很容易造成OOM
只要有某个分组过大你这个就必定OOM了

图文精华