来自:7群:552029443
今天处理数据的时候遇到个问题没搞定想请教下大家,我用spark处理指定目录下的原始文件,文件数量较大,我是整个目录加载,目录下部分原始文件本身有问题,导致spark在处理的时候出现EOFException,Task失败后会重试,但因为部分原始文件本身有问题,重试仍旧会失败,当失败次数达到spark.task.maxFailures之后就会执行cluster.YarnClientSchedulerBackend: Shutting down all executors,将该job判定为失败了,但源文件目录下也有其它正常文件,如何做才能使spark将正确的原始文件跑出正确的结果?
Spark中有没有类似Hadoop中的如下配置
conf.set ( "mapreduce.map.failures.maxpercent", "95" );
conf.set ( "mapreduce.reduce.failures.maxpercent", "95" );
就是当失败的task达到一定的比例才会判定该任务执行失败呢
尝试解决方案:
配置参数
spark.yarn.max.executor.failures 导致应用程序宣告失败的最大executor失败次数