about云开发

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 5372|回复: 3

[疑问解答] spark thrift server 任务跑几天后,spark会越来越慢,很多任务会挂掉

[复制链接]

41

主题

3

听众

0

收听

中级会员

Rank: 3Rank: 3

积分
607
发表于 2018-3-12 11:29:39 | 显示全部楼层 |阅读模式
spark thrift server 任务跑几天后,spark会越来越慢,很多任务会挂掉,有人遇到吗?
发表于 2018-3-12 14:30:49 | 显示全部楼层
这个需要具体任务具体分析。跟spark thrift server应该关系不大,而是跟任务的执行原理有关系。
使用的是spark streaming编程吗?
我曾经遇到spark streaming越跑越慢。不是因为执行时间,而是因为生成执行计划的时间越来越长。生成执行计划时间是因为依赖越来越多,导致越来越慢。所以楼主可以分析下自己的项目

41

主题

3

听众

0

收听

中级会员

Rank: 3Rank: 3

积分
607
 楼主| 发表于 2018-3-12 14:37:31 | 显示全部楼层
desehawk 发表于 2018-3-12 14:30
这个需要具体任务具体分析。跟spark thrift server应该关系不大,而是跟任务的执行原理有关系。
使用的是s ...

不是spark streaming,是spark sql

76

主题

38

听众

20

收听

高级会员

Rank: 4

积分
3163

最佳新人活跃会员热心会员

发表于 2018-3-12 15:47:23 | 显示全部楼层
ananan36 发表于 2018-3-12 14:37
不是spark streaming,是spark sql

spark sql有一个优化器,物理执行计划的,对于执行时间影响很关键。
可以先参数上调整下
参数的优化:

并行度:spark.sql.shuffle.partitions
默认的是200,配置的是partitions的数量,对应了task的数量
若觉得运行得太慢,则需要吧这个值调大
在conf里面改(YARN启动时)

分区字段类型推测:spark.sql.sources.partitionColumnTypeInference.enabled
默认为开启,若开启之后系统就会自动推测分区字段的类型
关闭后能提升性能


然后在看看执行中,与原先执行区别是什么?这个需要楼主自己总结分析。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /3 下一条

QQ|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号

GMT+8, 2018-12-13 13:15 , Processed in 0.554136 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.2 Licensed

快速回复 返回顶部 返回列表