Hadoop常见错误及解决办法汇总

问题汇总：
1.java.io.IOException: Incompatible clusterIDs错误原因，以及如何解决？
2.org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container错误原因，以及如何解决？
3.java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write错误原因，以及如何解决？
4.DataXceiver error processing WRITE_BLOCK operation错误原因，以及如何解决？
5.java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.
错误原因，以及如何解决？
6.org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for错误原因，以及如何解决？

错误一：java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后
2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool BP-1480406410-192.168.1.181-1398701121586 (storage id DS-167510828-192.168.1.191-50010-1398750515421) service to hadoop-master/192.168.1.181:9000$
java.io.IOException: Incompatible clusterIDs in /data/dfs/data: namenode clusterID = CID-d1448b9e-da0f-499e-b1d4-78cb18ecdebb; datanode clusterID = CID-ff0faa40-2940-4838-b321-98272eb0dee37 A) p* B' ^3 H: M* c2 T
      at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:391)+ A9 ~  s/ r9 C& b% `
      at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:191)
      at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:219)
      at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:837)
      at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:808)
      at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:280)
      at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:222)
      at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:664)
      at java.lang.Thread.run(Thread.java:722)
2014-04-29 14:32:53,885 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool BP-1480406410-192.168.1.181-1398701121586 (storage id DS-167510828-192.168.1.191-50010-1398750515421) service to hadoop-master/192.168.1.181:9000  `3 B) b; V, C& F) B$ }8 m
2014-04-29 14:32:53,889 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool BP-1480406410-192.168.1.181-1398701121586 (storage id DS-167510828-192.168.1.191-50010-1398750515421)
2014-04-29 14:32:55,897 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode!

原因：每次namenode format会重新创建一个namenodeId,而data目录包含了上次format时的id,namenode format清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所要做的就是每次fotmat前,清空data下的所有目录.

解决办法：停掉集群，删除问题节点的data目录下的所有内容。即hdfs-site.xml文件中配置的dfs.data.dir目录。重新格式化namenode。

另一个更省事的办法：先停掉集群，然后将datanode节点目录/dfs/data/current/VERSION中的修改为与namenode一致即可。

错误二：org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container

14/04/29 02:45:07 INFO mapreduce.Job: Job job_1398704073313_0021 failed with state FAILED due to: Application application_1398704073313_0021 failed 2 times due to Error launching appattempt_1398704073313_0021_000002. Got exception: org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container. 2 S" C)
This token is expired. current time is 1398762692768 found 1398711306590
      at sun.reflect.GeneratedConstructorAccessor30.newInstance(Unknown Source)! ]
      at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
      at java.lang.reflect.Constructor.newInstance(Constructor.java:525)
      at org.apache.hadoop.yarn.api.records.impl.pb.SerializedExceptionPBImpl.instantiateException(SerializedExceptionPBImpl.java:152)
      at org.apache.hadoop.yarn.api.records.impl.pb.SerializedExceptionPBImpl.deSerialize(SerializedExceptionPBImpl.java:106)
      at org.apache.hadoop.yarn.server.resourcemanager.amlauncher.AMLauncher.launch(AMLauncher.java:122)
      at org.apache.hadoop.yarn.server.resourcemanager.amlauncher.AMLauncher.run(AMLauncher.java:249)$ u& w- R)
      at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
      at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
      at java.lang.Thread.run(Thread.java:722)
. Failing the application.
14/04/29 02:45:07 INFO mapreduce.Job: Counters: 00 k;

问题原因：namenode,datanode时间同步问题

解决办法：多个datanode与namenode进行时间同步，在每台服务器执行：ntpdate time.nist.gov，确认时间同步成功。
最好在每台服务器的 /etc/crontab 中加入一行：)
root ntpdate time.nist.gov && hwclock -w

错误：java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write
2014-05-06 14:28:09,386 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-datanode1:50010ataXceiver error processing READ_BLOCK operation  src: /192.168.1.191:48854 dest: /192.168.1.191:50010
java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/192.168.1.191:50010 remote=/192.168.1.191:48854]:
      at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:246)
      at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:172)
      at org.apache.hadoop.net.SocketOutputStream.transferToFully(SocketOutputStream.java:220)
      at org.apache.hadoop.hdfs.server.datanode.BlockSender.sendPacket(BlockSender.java:546)
      at org.apache.hadoop.hdfs.server.datanode.BlockSender.sendBlock(BlockSender.java:710)
      at org.apache.hadoop.hdfs.server.datanode.DataXceiver.readBlock(DataXceiver.java:340)
      at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opReadBlock(Receiver.java:101)
      at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:65)
      at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:221)
      at java.lang.Thread.run(Thread.java:722)

原因：IO超时

解决方法：
修改hadoop配置文件hdfs-site.xml，增加dfs.datanode.socket.write.timeout和dfs.socket.timeout两个属性的设置。'
<property>
      <name>dfs.datanode.socket.write.timeout</name>
      <value>6000000</value>
</property>

<property>
      <name>dfs.socket.timeout</name>$
      <value>6000000</value>
</property>

注意: 超时上限值以毫秒为单位。0表示无限制。

错误：DataXceiver error processing WRITE_BLOCK operation
2014-05-06 15:21:30,378 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: hadoop-datanode1:50010ataXceiver error processing WRITE_BLOCK operation  src: /192.168.1.193:34147 dest: /192.168.1.191:50010
java.io.IOException: Premature EOF from inputStream.
      at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:194)
      at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doReadFully(PacketReceiver.java:213)
      at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.doRead(PacketReceiver.java:134)
      at org.apache.hadoop.hdfs.protocol.datatransfer.PacketReceiver.receiveNextPacket(PacketReceiver.java:109)
      at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receivePacket(BlockReceiver.java:435)
      at org.apache.hadoop.hdfs.server.datanode.BlockReceiver.receiveBlock(BlockReceiver.java:693)
      at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:569)
      at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:115)
      at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:68)
      at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:221)
      at java.lang.Thread.run(Thread.java:722);

原因：文件操作超租期，实际上就是data stream操作过程中文件被删掉了。

解决办法：
修改hdfs-site.xml （针对2.x版本，1.x版本属性名应该是：dfs.datanode.max.xcievers）：
<property>
      <name>dfs.datanode.max.transfer.threads</name>
      <value>8192</value>
</property>
拷贝到各datanode节点并重启datanode即可

错误：java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try.
2014-05-07 12:21:41,820 WARN [Thread-115] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Graceful stop failed 6
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[192.168.1.191:50010, 192.168.1.192:50010], original=[192.168.1.191:50010, 192.168.1.192:50010]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration.
      at org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler.handleEvent(JobHistoryEventHandler.java:514)
      at org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler.serviceStop(JobHistoryEventHandler.java:332)
      at org.apache.hadoop.service.AbstractService.stop(AbstractService.java:221)
      at org.apache.hadoop.service.ServiceOperations.stop(ServiceOperations.java:52)
      at org.apache.hadoop.service.ServiceOperations.stopQuietly(ServiceOperations.java:80)
      at org.apache.hadoop.service.CompositeService.stop(CompositeService.java:159)
      at org.apache.hadoop.service.CompositeService.serviceStop(CompositeService.java:132)
      at org.apache.hadoop.service.AbstractService.stop(AbstractService.java:221)
      at org.apache.hadoop.mapreduce.v2.app.MRAppMaster.shutDownJob(MRAppMaster.java:548)
      at org.apache.hadoop.mapreduce.v2.app.MRAppMaster$JobFinishEventHandler$1.run(MRAppMaster.java:599)
Caused by: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[192.168.1.191:50010, 192.168.1.192:50010], original=[192.168.1.191:50010, 192.168.1.192:50010]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration.
      at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.findNewDatanode(DFSOutputStream.java:860)
      at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.addDatanode2ExistingPipeline(DFSOutputStream.java:925)
      at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.setupPipelineForAppendOrRecovery(DFSOutputStream.java:1031)
      at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.processDatanodeError(DFSOutputStream.java:823)# A)
      at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:475)

原因：无法写入；我的环境中有3个datanode，备份数量设置的是3。在写操作时，它会在pipeline中写3个机器。默认replace-datanode-on-failure.policy是DEFAULT,如果系统中的datanode大于等于3，它会找另外一个datanode来拷贝。目前机器只有3台，因此只要一台datanode出问题，就一直无法写入成功。

解决办法：修改hdfs-site.xml文件，添加或者修改如下两项：
<property>
  <name>dfs.client.block.write.replace-datanode-on-failure.enable</name>
  <value>true</value>
</property>
<property>
  <name>dfs.client.block.write.replace-datanode-on-failure.policy</name>
  <value>NEVER</value>
</property>
对于dfs.client.block.write.replace-datanode-on-failure.enable，客户端在写失败的时候，是否使用更换策略，默认是true没有问题。
对于，dfs.client.block.write.replace-datanode-on-failure.policy，default在3个或以上备份的时候，是会尝试更换结点尝试写入datanode。而在两个备份的时候，不更换datanode，直接开始写。对于3个datanode的集群，只要一个节点没响应写入就会出问题，所以可以关掉。

错误：org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for
14/05/08 18:24:59 INFO mapreduce.Job: Task Id : attempt_1399539856880_0016_m_000029_2, Status : FAILED
Error: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_1399539856880_0016_m_000029_2_spill_0.out
      at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398)
      at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)
      at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)
      at org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159): M8 U  ]
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573)
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1467)
      at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:699)
      at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:769)
      at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
      at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
      at java.security.AccessController.doPrivileged(Native Method)
      at javax.security.auth.Subject.doAs(Subject.java:415)
      at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
      at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

Container killed by the ApplicationMaster.

原因：两种可能，hadoop.tmp.dir或者data目录存储空间不足。

解决办法：看了一下我的dfs状态，data使用率不到40%，所以推测是hadoop.tmp.dir空间不足，导致无法创建Jog临时文件。查看core-site.xml发现没有配置hadoop.tmp.dir，因此使用的是默认的/tmp目录，在这目录一旦服务器重启数据就会丢失，因此需要修改。添加：
<property>
<name>hadoop.tmp.dir</dir>
<value>/data/tmp</value>
</property>
然后重新格式化：hadoop namenode -format
重启。

错误：java.io.IOException: Spill failed
2014-06-19 10:00:32,181 INFO [org.apache.hadoop.mapred.MapTask] - Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector
java.io.IOException: Spill failed
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540)
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.flush(MapTask.java:1447)
      at org.apache.hadoop.mapred.MapTask$NewOutputCollector.close(MapTask.java:699)
      at org.apache.hadoop.mapred.MapTask.closeQuietly(MapTask.java:1997)
      at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:773)
      at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
      at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:235)
      at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
      at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:334)
      at java.util.concurrent.FutureTask.run(FutureTask.java:166)
      at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1110)
      at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:603)
      at java.lang.Thread.run(Thread.java:722)
Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for output/spill0.out
      at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398)
      at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)
      at org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)
      at org.apache.hadoop.mapred.MROutputFiles.getSpillFileForWrite(MROutputFiles.java:146)
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573)
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852)
      at org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1510)
错误原因：本地磁盘空间不足非hdfs (我是在myeclipse中调试程序，本地tmp目录占满)
解决办法：清理、增加空间

错误： java.io.IOException: Spill failed
2014-06-23 10:21:01,479 INFO [IPC Server handler 3 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1403488126955_0002_m_000000_0 is : 0.308017162014-06-23 10:21:01,512 FATAL [IPC Server handler 2 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1403488126955_0002_m_000000_0 - exited : java.io.IOException: Spill failed       at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540) =org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063)
org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691)
org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)       org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1)
org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)
org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)
org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
java.security.AccessController.doPrivileged(Native Method)
javax.security.auth.Subject.doAs(Subject.java:415)
org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)       org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_1403488126955_0002_m_000000_0_spill_53.out       org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)       org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1510)2014-06-23 10:21:01,513 INFO [IPC Server handler 2 on 45207] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1403488126955_0002_m_000000_0: Error: java.io.IOException: Spill failed       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063)       org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691)       org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)       org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1)       at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)       at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)       at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)       at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)       at java.security.AccessController.doPrivileged(Native Method)       javax.security.auth.Subject.doAs(Subject.java:415)       at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)       at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_1403488126955_0002_m_000000_0_spill_53.out       org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)       org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1510)2014-06-23 10:21:01,514 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics report from attempt_1403488126955_0002_m_000000_0: Error: java.io.IOException: Spill failed       at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1540)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1063)       org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:691)       org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)       org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:180)       com.mediadc.hadoop.MediaIndex$SecondMapper.map(MediaIndex.java:1)       at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)       at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)       at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)       at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)       at java.security.AccessController.doPrivileged(Native Method)       javax.security.auth.Subject.doAs(Subject.java:415)       at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)       at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for attempt_1403488126955_0002_m_000000_0_spill_53.out       org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:398)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:150)       org.apache.hadoop.fs.LocalDirAllocator.getLocalPathForWrite(LocalDirAllocator.java:131)       org.apache.hadoop.mapred.YarnOutputFiles.getSpillFileForWrite(YarnOutputFiles.java:159)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1573)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:852)       org.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1510)2014-06-23 10:21:01,516 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_1403488126955_0002_m_000000_0 TaskAttempt Transitioned from RUNNING to FAIL_CONTAINER_CLEANUP8
错误很明显，磁盘空间不足，但郁闷的是，进各节点查看，磁盘空间使用不到40%，还有很多空间。

郁闷很长时间才发现，原来有个map任务运行时输出比较多，运行出错前，硬盘空间一路飙升，直到100%不够时报错。随后任务执行失败，释放空间，把任务分配给其它节点。正因为空间被释放，因此虽然报空间不足的错误，但查看当时磁盘还有很多剩余空间。

这个问题告诉我们，运行过程中的监控很重要。

图文精华

Hadoop常见错误及解决办法汇总

推荐 /2