liyang417800 发表于 2014-6-25 00:03:34

hive数据仓库更新删除的问题处理

目前系统为oracle的数据仓库,由于点击流数据的指数增长,目前关系型数据已经无法满足,需要将现有的oracle的数据仓库迁移到基于hadoop平台的hive,并整合其他业务系统的数据,构造基于hive的数据中心。

之前在oracle数据仓库中会设计到拉链表和增量更新操作等ddl,但是hive目前不支持删除和更新的操作,所以想问下大家在设计hive数据仓库时是通过什么样的变通的方法来解决hive的这个弊端?

nettman 发表于 2014-6-25 08:03:24

这个或许不是弊端,应该合理的利用这些工具的优点和缺点,数据仓库,顾名思义,是用来存储历史记录的。他的目的是用来分析。如果数据仓库允许删除,那么利用它来进行分析得到的数据就会不准确。这是数据仓库本身的意义。

如果你还需要对它进行删除,那么说明你可能选错目标了。
你可以了解一下hbase。

下面的资料供你参考

hive与hbase的十大区别与联系


白话数据库与数据仓库的区别

fniks 发表于 2014-7-7 15:51:01

完全用HADOOP代替传统数据库,现在是不可能的

阿飞 发表于 2020-4-27 16:33:30



hive后面支持了更新,可查看
HIVE中数据更新(update)操作的实现

https://blog.csdn.net/sparkexpert/article/details/50432369
页: [1]
查看完整版本: hive数据仓库更新删除的问题处理