分享

作业在单机上跑的时间和在集群上跑的时间差不多,这是为什么?

nickpro 发表于 2014-12-6 18:14:29 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 1 10216
我的一个作业大小事30M,在单机上面跑的时间和在集群上面跑的时间差不多, Image 003.png

这边Node下面只有一个节点,是不是意味着这个作业只有一个datanode在跑,其他datanode都没有参加计算?
是不是我的集群配置有什么问题?
求大神解答!

已有(1)人评论

跳转到指定楼层
desehawk 发表于 2014-12-6 18:58:03

数据存储可能发生倾斜,楼主可以了解下ApplicationMaster,它只是一个进程。如果不确定,可以让集群的数据reblance一下。

MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后,资源管理模块则交由YARN实现,这样为了让MapReduce框架运行在YARN上,仅需要一个ApplicationMaster组件完成作业控制模块功能即可,
对于ApplicationMaster,可以参考
hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍
Hadoop概念性问题(关于ApplicationMaster




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条