大量数据，同步更新，HADOOP怎么做合理？

大概15亿条记录，每天增量更新1000万左右。
目前用oracle rac在做。
现在希望能通过hadoop的相关产品搞，看了很多资料还是没能确定怎么弄。
这里高人多，能给出个主意吗？

langke93 · 发表于 2017-2-2 07:51:43

肯定不是单纯的更新吧如果只是单纯的增量，你可以放到hadoop或则hbase或则hive里面
计算框架，有spark，mapreduce，storm等，所以还需要看你的需求及场景

evababy · 发表于 2017-2-13 14:16:05

15亿不是一个小数目，相信在oracle你面已经到了极限。如果只是存储hdfs更适合，如果有读取分析想接近oracle用hbase，hive不太建议用。

ggggying12 · 发表于 2017-2-22 17:14:00

好好学习，天天向上

Chain@About · 发表于 2017-2-23 21:41:33

evababy 发表于 2017-2-13 14:16
15亿不是一个小数目，相信在oracle你面已经到了极限。如果只是存储hdfs更适合，如果有读取分析想接近oracle ...

目前是增量更新后，通过jdbc进行简单的报表程序。
或者直接按照文件接口，给对端系统传送文件。
这些方面hive on spark 应该可以满足了吧？

图文精华