大数据存储方案讨论

最近公司准备做hadoop平台处理各种数据：文件的、关系数据库的等等，有没有人做过这样的存储方案分享一下？
补充说明：
1.我们想做一个手机端APP数据采集、购物网站日志数据及交易数据采集。将这些数据全部放到hadoop平台做数据分析，分析用户行为，然后给用户推荐产品。
2.手机端采集的数据保存在oracle中，购物网站的交易数据才oracle中，日志文件在购物网站的tomcat下。
不知道这样描述清楚否？还有需要知道什么请留言，谢谢！

ngou · 发表于 2014-12-23 16:05:13

个人的一点想法,
日志 FLUME --> HBASE
数据库SQOOP--->HBASE
HIVE上建立映射HBASE
结果后送入应用系统.

redhat1986 · 发表于 2014-12-23 17:19:42

ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志 FLUME --> HBASE
数据库SQOOP--->HBASE

算法层一般需要什么技术实现？具体一个实现思路是什么？如数据模型、算法、分析，等这些都怎么落地或实现？

redhat1986 · 发表于 2014-12-23 17:22:28

ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志 FLUME --> HBASE
数据库SQOOP--->HBASE

算法层一般需要什么技术实现？具体一个实现思路是什么？如数据模型、算法、分析，等这些都怎么落地或实现？

muyannian · 发表于 2014-12-23 18:03:07

redhat1986 发表于 2014-12-23 17:22
算法层一般需要什么技术实现？具体一个实现思路是什么？如数据模型、算法、分析，等这些都怎么落地或实现 ...

这个项目还是比较复杂的，首先需要明确需求，你们使用大数据，想用它来干什么？只有明确了这个，才能有自己的方案。
比如你们想用hadoop做离线分析，然后通过对这些数据的分析，得出自己想要的结果。
当然除了离线，还有实时的，比如storm，spark，spark属于内存计算，目前最快的大数据工具了，但是集群规模有限。

包含算的技术比较多的，比如spark
当然还有mahout.
你们的这个项目可能还涉及到数据挖掘，更多内容，需要说的想详细，明确你们的需求。

linian_hadoop · 发表于 2014-12-26 11:02:16

嗯嗯，我也持续关注这个问题。。。

图文精华

大数据存储方案讨论

已有(5)人评论

最佳新人

热心会员

推荐 /2