作业在单机上跑的时间和在集群上跑的时间差不多，这是为什么？

我的一个作业大小事30M，在单机上面跑的时间和在集群上面跑的时间差不多， Image 003.png

这边Node下面只有一个节点，是不是意味着这个作业只有一个datanode在跑，其他datanode都没有参加计算？
是不是我的集群配置有什么问题？
求大神解答！

desehawk · 发表于 2014-12-6 18:58:03

数据存储可能发生倾斜，楼主可以了解下ApplicationMaster，它只是一个进程。如果不确定，可以让集群的数据reblance一下。

MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后，资源管理模块则交由YARN实现，这样为了让MapReduce框架运行在YARN上，仅需要一个ApplicationMaster组件完成作业控制模块功能即可，
对于ApplicationMaster，可以参考
hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍
Hadoop概念性问题（关于ApplicationMaster）

图文精华

作业在单机上跑的时间和在集群上跑的时间差不多，这是为什么？

已有(1)人评论

活跃会员

热心会员

优秀版主

推荐 /2