分享

hbase数据统计:spark VS 协处理器+过滤器 哪种更有优势

IT_雪夜归人 发表于 2016-5-23 10:21:49 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 10093
hbase数据统计:spark VS 协处理器+过滤器 哪种更有优势
百亿数据量以上,分析hbase数据(离线数据分析):
方案一:spark直接通过rowkey读取hbase数据来进行分析。
方案二:协处理器在region层使用过滤器来统计,region层做完之后再统计。

已有(4)人评论

跳转到指定楼层
einhep 发表于 2016-5-23 11:26:56
spark应该更合适些。spark之所以快,使用 内存是一方面,另外一个快的原因是使用DAG算法。如果内存不够,spark也是可以使用硬盘的,由于DAG算法,相对来说也不慢的。
hbase更适合做搜索
回复

使用道具 举报

IT_雪夜归人 发表于 2016-5-24 08:16:08
自己顶,有没有相关经验的同学啊,求解答
回复

使用道具 举报

dlh 发表于 2016-6-16 21:47:11
应该是改hbase源码,加上自己需要的接口,在接口里做自己的逻辑
回复

使用道具 举报

IT_雪夜归人 发表于 2016-6-17 07:51:29
dlh 发表于 2016-6-16 21:47
应该是改hbase源码,加上自己需要的接口,在接口里做自己的逻辑

方法很好
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条