分享

spark thrift server 任务跑几天后,spark会越来越慢,很多任务会挂掉

ananan36 2018-3-12 11:29:39 发表于 疑问解答 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 16713
spark thrift server 任务跑几天后,spark会越来越慢,很多任务会挂掉,有人遇到吗?

已有(3)人评论

跳转到指定楼层
desehawk 发表于 2018-3-12 14:30:49
这个需要具体任务具体分析。跟spark thrift server应该关系不大,而是跟任务的执行原理有关系。
使用的是spark streaming编程吗?
我曾经遇到spark streaming越跑越慢。不是因为执行时间,而是因为生成执行计划的时间越来越长。生成执行计划时间是因为依赖越来越多,导致越来越慢。所以楼主可以分析下自己的项目
回复

使用道具 举报

ananan36 发表于 2018-3-12 14:37:31
desehawk 发表于 2018-3-12 14:30
这个需要具体任务具体分析。跟spark thrift server应该关系不大,而是跟任务的执行原理有关系。
使用的是s ...

不是spark streaming,是spark sql
回复

使用道具 举报

nextuser 发表于 2018-3-12 15:47:23
ananan36 发表于 2018-3-12 14:37
不是spark streaming,是spark sql

spark sql有一个优化器,物理执行计划的,对于执行时间影响很关键。
可以先参数上调整下
参数的优化:

并行度:spark.sql.shuffle.partitions
默认的是200,配置的是partitions的数量,对应了task的数量
若觉得运行得太慢,则需要吧这个值调大
在conf里面改(YARN启动时)

分区字段类型推测:spark.sql.sources.partitionColumnTypeInference.enabled
默认为开启,若开启之后系统就会自动推测分区字段的类型
关闭后能提升性能


然后在看看执行中,与原先执行区别是什么?这个需要楼主自己总结分析。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条