hive on spark on yarn的问题

hive on spark并以yarn-cluster方式部署，用beeline连接hive执行查询以及在HUE上执行hive查询，发现返回结果后yarn的任务状态仍是running，重新执行一个新的查询，任务的applicationid也不变，除非关闭beeline或者从HUE的Job Browser中kill掉Job，yarn中任务状态才变为finished和killed。感觉像是连接或session的问题，因为用程序查询后关闭了连接就不存在此问题。在此请教各位达人怎么解决此问题。

atsky123 · 发表于 2016-3-21 19:17:10

查询完成之后，还是running，应该是有状态标记的。
结果确定都返回完毕了。
假如都返回完毕，还在跑，除非程序卡住跑不动了，或则内存得不到释放造成的

Fortitude · 发表于 2016-3-22 09:22:43

atsky123 发表于 2016-3-21 19:17
查询完成之后，还是running，应该是有状态标记的。
结果确定都返回完毕了。
假如都返回完毕，还在跑，除 ...

查询是结束了，都返回结果了，就是这个任务不结束。日志一直打印：
[DEBUG] 2016-03-22 09:21:49,190(54688248) : Sending progress [DEBUG] 2016-03-22 09:21:49,190(54688248) : IPC Client (1834361038) connection to hdfs00/10.129.20.100:8030 from hue sending #20545 [DEBUG] 2016-03-22 09:21:49,192(54688250) : IPC Client (1834361038) connection to hdfs00/10.129.20.100:8030 from hue got value #20545 [DEBUG] 2016-03-22 09:21:49,192(54688250) : Call: allocate took 2ms [DEBUG] 2016-03-22 09:21:49,192(54688250) : Number of pending allocations is 0. Sleeping for 3000.

atsky123 · 发表于 2016-3-22 12:04:49

Fortitude 发表于 2016-3-22 09:22
查询是结束了，都返回结果了，就是这个任务不结束。日志一直打印：
[DEBUG] 2016-03-22 09:21:49,190(54 ...

hue 是不是没有停止，而且可能休眠了。
看看是不是其它进程导致的

风的季节 · 发表于 2016-3-31 11:25:31

你的问题解决吗，我也遇到了相同的问题。

Fortitude · 发表于 2016-3-31 17:55:11

风的季节发表于 2016-3-31 11:25
你的问题解决吗，我也遇到了相同的问题。

没有，还是那样。

风的季节 · 发表于 2016-4-1 09:00:30

Fortitude 发表于 2016-3-31 17:55
没有，还是那样。

嗯，没有找到原因，但是我找到了stages 的报错信息foreachAsync at RemoteHiveSparkClient.java:327
org.apache.spark.api.java.AbstractJavaRDDLike.foreachAsync(JavaRDDLike.scala:46)
org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient$JobStatusJob.call(RemoteHiveSparkClient.java:327)
org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:353)
org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:322)
java.util.concurrent.FutureTask.run(FutureTask.java:262)

mapPartitionsToPair at MapTran.java:40
org.apache.spark.api.java.AbstractJavaRDDLike.mapPartitionsToPair(JavaRDDLike.scala:46)
org.apache.hadoop.hive.ql.exec.spark.MapTran.doTransform(MapTran.java:40)
org.apache.hadoop.hive.ql.exec.spark.CacheTran.transform(CacheTran.java:45)
org.apache.hadoop.hive.ql.exec.spark.SparkPlan.generateGraph(SparkPlan.java:73)
org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient$JobStatusJob.call(RemoteHiveSparkClient.java:325)
org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:353)
org.apache.hive.spark.client.RemoteDriver$JobWrapper.call(RemoteDriver.java:322)
java.util.concurrent.FutureTask.run(FutureTask.java:262)
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
java.lang.Thread.run(Thread.java:745)