spark-sql 数据缺失

查看数: 10610 | 评论数: 3 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2016-2-16 19:11

正文摘要:

我使用spark sql做了一些简单的ETL,最后将数据输出到HDFS中,但是我发现输出的结果不完整,有的output是0B 我使用spark sql 的insert into 和 saveAsTextFile都出现了上述情况,我发现第一组并行的task输 ...

回复

bob007 发表于 2016-2-17 09:45:18
要么是输出失败,或则是任务失败,这个应该有错误日志,楼主可以看看
wscl1213 发表于 2016-2-16 22:06:36
代表这些文件输出,但是输出失败了
第二次尝试,输出成功了。
可能有些因素影响了:这里只是举个例子,楼主根据自己的集群的实际情况思考下。
比如:
第一次运行内存暂用太大了,导致输出失败。
第二次可能运行的客户端变了,或则使用 的内存少了,就运行成功了。


when30 发表于 2016-2-16 21:13:16
是不是数据倾斜或则有的datanode坏掉了
关闭

推荐上一条 /2 下一条