分享

关于“Hadoop大数据处理和Hadoop数据仓库”二者关系的疑问

eksmile 发表于 2016-1-29 17:23:33 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 16409
新手求指点。

感觉HADOOP是用来处理海量数据的,像日志分析这样的。是非结构化的。
但是数据仓库,是一层一层的处理,处理的是结构化的表。感觉不是一个东西呀。

现在公司要把数据仓库移植到HADOOP(没有人才储备)。
现在有点无从入手。感觉仓库是仓库,数据处理是数据处理。
我不太明白这个逻辑关系。

ETL是将若干个表的数据处理完,保存到下一张单独的表里。类似于这样的方式。
感觉和HADOOP的FS存储方式不靠边呀。

而且平常数据仓库的每小时的调度的概念在HADOOP里,对应的是什么呢?

新手求指路

已有(3)人评论

跳转到指定楼层
xuanxufeng 发表于 2016-1-29 17:50:44
楼主说的对的,hadoop与数据仓库是两码事的。
hive是数据仓库,他是基于hadoop的。

下面参考
使用_Hive_构建数据库和数据仓库
http://www.aboutyun.com/thread-17119-1-1.html


Hadoop的数据仓库工具:Hive
http://www.aboutyun.com/thread-10010-1-1.html


数据仓库中的SQL性能优化(Hive篇)
http://www.aboutyun.com/thread-12880-1-1.html


hive 构建一个数据仓库
http://www.aboutyun.com/thread-8044-1-1.html



回复

使用道具 举报

eksmile 发表于 2016-2-1 09:07:30
xuanxufeng 发表于 2016-1-29 17:50
楼主说的对的,hadoop与数据仓库是两码事的。
hive是数据仓库,他是基于hadoop的。


我看了一下,说hive查询延迟高,是不是就意味着查询慢?所以hadoop优势在于处理海量数据,而并非搭建数据仓库?应该是通过hadoop处理了数据之后,变成了结构化的数据,保存到oracle这样的数据库中再做后续处理(仓库的搭建)?
回复

使用道具 举报

when30 发表于 2016-2-1 10:21:53
eksmile 发表于 2016-2-1 09:07
我看了一下,说hive查询延迟高,是不是就意味着查询慢?所以hadoop优势在于处理海量数据,而并非搭建数据 ...

hive 与hadoop是两码事
hive是数据仓库,如果你用oracle也可以,
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条