分享

hive数据紊乱问题

hrluo1990 发表于 2015-7-3 10:40:08 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 16942
hive表: test(外部表,字段数:40+)
HDFS路径:/main/tmp/test/20150702
使用如下命令:
alter table test add partition(ds='20150702') location '/main/tmp/test/20150702';

在hive中查询时,会发现有些字段出现错乱了,即:字段串了,1亿的数据量,大概会有3W条左右。

谢谢高手解答!

已有(2)人评论

跳转到指定楼层
hrluo1990 发表于 2015-7-3 10:40:58
自己在原始文件之前加了过滤,如果字段没达到hive字段的数目就抛弃了,所以数据应该没问题。
回复

使用道具 举报

Alkaloid0515 发表于 2015-7-3 12:36:44
hrluo1990 发表于 2015-7-3 10:40
自己在原始文件之前加了过滤,如果字段没达到hive字段的数目就抛弃了,所以数据应该没问题。

楼主可以这样,把里面的数据贴出很少一部分,做一个测试。
最多会出现乱码问题,至于错行,可能是分隔符的问题。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条