分享

spark生成HFile bulkload到hbase 延伸二

remarkzhao 发表于 2018-3-14 11:31:25 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 17 14449
remarkzhao 发表于 2018-3-14 16:09:58
nextuser 发表于 2018-3-14 14:02
那就是配置入手。比如内存等。使用yarn-client还是yarn-cluster。这里面也有区别

刚刚又打了一个jar   put的形式的,一条一条插入,同一个工程下 就没问题。可能配置也不会有问题吧?
回复

使用道具 举报

langke93 发表于 2018-3-14 16:13:29
remarkzhao 发表于 2018-3-14 15:44
问题就不明白了。。。为什么配置不对会出现业务逻辑上的错误。

这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的。是否每次yarn都是错误的。其中不排除楼主操作问题。因为这个问题,本身就很奇怪。同一份

代码,在不同的方式出问题。说明代码没有问题
但是不同方式下,又出现代码的问题。
Added a key not lexically larger than previous.
这就说明代码其实是有问题的。
所以从推理角度来说,这二者本身是矛盾的。
所以要从多角度,多测试,结论不能随便下。也从自己操作角度,看看是否那里有失误。
回复

使用道具 举报

remarkzhao 发表于 2018-3-14 16:33:49
langke93 发表于 2018-3-14 16:13
这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的 ...

我能怎么办。我也很无奈,whatever 继续测试。
回复

使用道具 举报

remarkzhao 发表于 2018-3-14 16:35:05
langke93 发表于 2018-3-14 16:13
这个问题确实挺困扰的。
无论是配置还是环境。
多测试,发现其中的规律。比如是否每次local都是可以的 ...

我突然想到一个问题,local没问题 是因为是在单台机子上。排序肯定是按个排序,只有一个文件。如果放在集群上执行,各个节点都在执行任务,那么每个节点都在排序,这样会不会导致rowkey排序出现问题。
回复

使用道具 举报

langke93 发表于 2018-3-14 16:44:26
remarkzhao 发表于 2018-3-14 16:35
我突然想到一个问题,local没问题 是因为是在单台机子上。排序肯定是按个排序,只有一个文件。如果放在集 ...

那就是了。代码中,要实现整体排序。
回复

使用道具 举报

fly2015 发表于 2018-3-15 11:26:06
回复

使用道具 举报

fly2015 发表于 2018-3-15 11:27:22
langke93 发表于 2018-3-14 16:44
那就是了。代码中,要实现整体排序。

collect后再排序
回复

使用道具 举报

难了 发表于 2019-3-26 23:17:02
你好,问你一下,这问题最后是怎么解决?
回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条