spark-sql 数据缺失

我使用spark sql做了一些简单的ETL，最后将数据输出到HDFS中，但是我发现输出的结果不完整，有的output是0B
QQ图片20160216190521.png

我使用spark sql 的insert into 和 saveAsTextFile都出现了上述情况，我发现第一组并行的task输出都是0B，下面还有一些零星的也是0B
后来我在spark-shell中看了下DataFrame的行数，发现与预期行数不符，但是我再执行insert into 操作，数据居然完整了，我在查看行数，又正确了。后面我又做了一些试验，发现第一次运行的结果（插入操作，显示行数）都是错误的（数据不完整），但第二次的就对了（完整了，行时也正确），这是怎么回事啊，好烦人。

when30 · 发表于 2016-2-16 21:13:16

是不是数据倾斜或则有的datanode坏掉了

wscl1213 · 发表于 2016-2-16 22:06:36

代表这些文件输出，但是输出失败了
第二次尝试，输出成功了。
可能有些因素影响了：这里只是举个例子，楼主根据自己的集群的实际情况思考下。
比如：
第一次运行内存暂用太大了，导致输出失败。
第二次可能运行的客户端变了，或则使用的内存少了，就运行成功了。

bob007 · 发表于 2016-2-17 09:45:18

要么是输出失败，或则是任务失败，这个应该有错误日志，楼主可以看看

图文精华

spark-sql 数据缺失

已有(3)人评论

推荐 /2