分享

spark-sql 数据缺失

cp87597 发表于 2016-2-16 19:11:34 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 3 10602
我使用spark sql做了一些简单的ETL,最后将数据输出到HDFS中,但是我发现输出的结果不完整,有的output是0B
QQ图片20160216190521.png

我使用spark sql 的insert into 和 saveAsTextFile都出现了上述情况,我发现第一组并行的task输出都是0B,下面还有一些零星的也是0B
后来我在spark-shell中看了下DataFrame的行数,发现与预期行数不符,但是我再执行insert into 操作,数据居然完整了,我在查看行数,又正确了。后面我又做了一些试验,发现第一次运行的结果(插入操作,显示行数)都是错误的(数据不完整),但第二次的就对了(完整了,行时也正确),这是怎么回事啊,好烦人。

已有(3)人评论

跳转到指定楼层
when30 发表于 2016-2-16 21:13:16
是不是数据倾斜或则有的datanode坏掉了
回复

使用道具 举报

wscl1213 发表于 2016-2-16 22:06:36
代表这些文件输出,但是输出失败了
第二次尝试,输出成功了。
可能有些因素影响了:这里只是举个例子,楼主根据自己的集群的实际情况思考下。
比如:
第一次运行内存暂用太大了,导致输出失败。
第二次可能运行的客户端变了,或则使用 的内存少了,就运行成功了。


回复

使用道具 举报

bob007 发表于 2016-2-17 09:45:18
要么是输出失败,或则是任务失败,这个应该有错误日志,楼主可以看看
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条