立即注册 登录
About云-梭伦科技 返回首页

s060403072的个人空间 https://www.aboutyun.com/?57 [收藏] [复制] [分享] [RSS]

日志

spark允许失败的任务,成功的任务跑完

已有 1490 次阅读2018-9-14 21:03 |系统分类:Spark


来自:7群:552029443
今天处理数据的时候遇到个问题没搞定想请教下大家,我用spark处理指定目录下的原始文件,文件数量较大,我是整个目录加载,目录下部分原始文件本身有问题,导致spark在处理的时候出现EOFException,Task失败后会重试,但因为部分原始文件本身有问题,重试仍旧会失败,当失败次数达到spark.task.maxFailures之后就会执行cluster.YarnClientSchedulerBackend: Shutting down all executors,将该job判定为失败了,但源文件目录下也有其它正常文件,如何做才能使spark将正确的原始文件跑出正确的结果?
Spark中有没有类似Hadoop中的如下配置
conf.set ( "mapreduce.map.failures.maxpercent", "95" );
conf.set ( "mapreduce.reduce.failures.maxpercent", "95" );
就是当失败的task达到一定的比例才会判定该任务执行失败呢

尝试解决方案:
配置参数
spark.yarn.max.executor.failures  导致应用程序宣告失败的最大executor失败次数


路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条