分享

大数据存储方案讨论

redhat1986 发表于 2014-12-23 15:55:14 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 10927
最近公司准备做hadoop平台处理各种数据:文件的、关系数据库的等等,有没有人做过这样的存储方案分享一下?
补充说明:
1.我们想做一个手机端APP数据采集、购物网站日志数据及交易数据采集。将这些数据全部放到hadoop平台做数据分析,分析用户行为,然后给用户推荐产品。
2.手机端采集的数据保存在oracle中,购物网站的交易数据才oracle中,日志文件在购物网站的tomcat下。
不知道这样描述清楚否?还有需要知道什么请留言,谢谢!

已有(5)人评论

跳转到指定楼层
ngou 发表于 2014-12-23 16:05:13
个人的一点想法,
日志  FLUME --> HBASE
数据库SQOOP--->HBASE
HIVE上建立映射HBASE
结果后送入应用系统.
回复

使用道具 举报

redhat1986 发表于 2014-12-23 17:19:42
ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志  FLUME --> HBASE
数据库SQOOP--->HBASE

算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现?
回复

使用道具 举报

redhat1986 发表于 2014-12-23 17:22:28
ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志  FLUME --> HBASE
数据库SQOOP--->HBASE

算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现?
回复

使用道具 举报

muyannian 发表于 2014-12-23 18:03:07
redhat1986 发表于 2014-12-23 17:22
算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现 ...
这个项目还是比较复杂的,首先需要明确需求,你们使用大数据,想用它来干什么?只有明确了这个,才能有自己的方案。
比如你们想用hadoop做离线分析,然后通过对这些数据的分析,得出自己想要的结果。
当然除了离线,还有实时的,比如storm,spark,spark属于内存计算,目前最快的大数据工具了,但是集群规模有限。


包含算的技术比较多的,比如spark
当然还有mahout.
你们的这个项目可能还涉及到数据挖掘,更多内容,需要说的想详细,明确你们的需求。
回复

使用道具 举报

linian_hadoop 发表于 2014-12-26 11:02:16
嗯嗯,我也持续关注这个问题。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条