在Hadoop中用ArrayList出现的问题

查看数: 10322 | 评论数: 7 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2014-5-15 16:07

正文摘要:

在Hadoop中用ArrayList有什么问题没 把每个key对应的values放到List中 然后遍历List 值就变了 怎么回事啊?

回复

pig2 发表于 2014-5-15 16:18:44
这样应该会有点麻烦,你可以用BitMap试试。
将reduce中已经连接的好的分组按照来源标志分别放到两个BitMap中。这样比较省内存。



sstutu 发表于 2014-5-15 16:18:01
如果在reduce中做连接,该怎么做?
pig2 发表于 2014-5-15 16:16:49
数据量不大直接mapJoin
你其中一个文件很小看到

小的放到一个hashMap里面通过distribute分发,然后比较就ok



pig2 发表于 2014-5-15 16:11:32
写这种程序尽量使内存能够动态流动,而不是常驻型
例如,你为何要复制一份?可不可以不同过复制一份来进行实现。
pig2 发表于 2014-5-15 16:08:36
检查对象引用是否正确。
另外你这个用的地方不对,很容易造成OOM
只要有某个分组过大你这个就必定OOM了



关闭

推荐上一条 /2 下一条