分享

hadoop2.6.0作业恢复问题

幻灭若水 发表于 2015-1-20 10:27:38 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 13 34476
xuanxufeng 发表于 2015-1-20 15:08:59
幻灭若水 发表于 2015-1-20 13:48
这个参数我之前就配置成true了,还是不行,你试过这个功能吗?
你这是配置的ResourceManager HA吧。
检查下其它配置
参考这个试试
Hadoop2.4的ResourceManager HA高可用配置

回复

使用道具 举报

幻灭若水 发表于 2015-1-20 15:19:04
xuanxufeng 发表于 2015-1-20 15:08
你这是配置的ResourceManager HA吧。
检查下其它配置
参考这个试试

我ResourceManager HA配置了,这个链接说的也是RM的HA。我的问题是MRAppMaster挂掉后作业恢复的配置。还是谢谢了。
回复

使用道具 举报

Joker 发表于 2015-1-20 15:46:43
在mapred-site.xml中配置mapreduce.jobtracker.restart.recover
我在测试时候,假设第一次kill -9 appmaster
Hadoop会重启这个appmaster,但是在你第二次kill时候,就会发出异常,心跳3次连接失效,通过外部信息杀死这么一串英文。

在kill的时候假设你map task执行到99%重启appMaster也是0%开始
但是map Task执行完毕之后,在reduce Task kill
那么重启的时候就只执行reduce 的task
回复

使用道具 举报

幻灭若水 发表于 2015-1-21 10:09:41
Joker 发表于 2015-1-20 15:46
在mapred-site.xml中配置mapreduce.jobtracker.restart.recover
我在测试时候,假设第一次kill -9 appmast ...

哎,确实是,我今天测试了,但我们根据业务开发的MR只有map没有reduce,如果map执行到90%杀死MRAppMaster又重头计算了,这样很浪费时间啊。我以为hadoop新版本的能够恢复已经计算完成的任何任务呢。
回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条