allenpony 发表于 2013-10-16 13:38:34

hadoop的reduce阶段卡住的问题

2013-10-14 18:02:37,237 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0637_r_000000_0 0.16666667% reduce > copy (1 of 2 at 0.01 MB/s) >
2013-10-14 18:02:38,447 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0622_r_000000_0 0.05263158% reduce > copy (3 of 19 at 0.00 MB/s) >
2013-10-14 18:02:40,981 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0616_r_000000_0 0.17543861% reduce > copy (10 of 19 at 0.00 MB/s) >
2013-10-14 18:02:43,465 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0637_r_000000_0 0.16666667% reduce > copy (1 of 2 at 0.01 MB/s) >
2013-10-14 18:02:44,192 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0616_r_000000_0 0.17543861% reduce > copy (10 of 19 at 0.00 MB/s) >
2013-10-14 18:02:44,652 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0622_r_000000_0 0.05263158% reduce > copy (3 of 19 at 0.00 MB/s) >
2013-10-14 18:02:46,665 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0637_r_000000_0 0.16666667% reduce > copy (1 of 2 at 0.01 MB/s) >
2013-10-14 18:02:47,869 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0622_r_000000_0 0.05263158% reduce > copy (3 of 19 at 0.00 MB/s) >
2013-10-14 18:02:50,411 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201310122012_0616_r_000000_0 0.17543861% reduce > copy (10 of 19 at 0.00 MB/s) >
reduce阶段一直被卡在17%,一个datanode机器上显示上面这些信息,拷贝没有速度,这是什么问题呢?说明一下,不是每一个任务都会出现这个问题,而是有的任务会这样,而另外一些任务是可以正常完成的。因此我任务应该不是防火墙或者/etc/hosts配置的问题
            
               
               

s060403072 发表于 2013-10-16 13:39:16


            如果不是/etc/hosts的问题,可能是datanode节点出了问题
      

allenpony 发表于 2013-10-16 13:40:10


            引用 1 楼 s060403072 的回复:如果不是/etc/hosts的问题,可能是datanode节点出了问题
可能会是什么问题呢?这问题让人头痛。它不是一直出现,而是有时候出现。特别是当我把HIVE的SQL放到后台执行的时候,特别容易出现
      

jxlhc09 发表于 2013-10-16 13:40:58


            会不会是 数据倾斜 问题呢,改改hql语句,减少出现这种现象的概率。
      

allenpony 发表于 2013-10-16 13:41:28


            引用 3 楼 jxlhc09 的回复:会不会是 数据倾斜 问题呢,改改hql语句,减少出现这种现象的概率。
数据倾斜最多也是慢,不会卡住不动啊,一直就这样了,跑一晚上都这样挂住

仙本是凡123 发表于 2021-10-13 17:19:58

这是网络问题吧,copy阶段卡主了,要么网络不行,要么内存资源和硬盘资源有问题
页: [1]
查看完整版本: hadoop的reduce阶段卡住的问题