立即注册 登录
About云-梭伦科技 返回首页

pig2的个人空间 https://www.aboutyun.com/?61 [收藏] [复制] [分享] [RSS]

日志

数据仓库笔记

已有 704 次阅读2020-8-1 12:39 |系统分类:大数据


数据仓库的设计为何与传统数据库设计不一样:
因为他们的特点不一样
数据库是面向事务的设计,数据仓库是面向主题设计的。集成的、不可更新的
数据一般存储业务数据,数据仓库存储的一般是历史数据。
数据库设一是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名,密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计时有意引入冗余,依照分析需求,分析维度,分析指标进行设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

数据仓库设计步骤:
1.概念模型设计
2.技术准备工作
3.逻辑模型设计
4.物理模型设计
5.数据仓库生成
6.数据仓库运行与维护

为什么建立数据仓库:
某些业务数据由于安全或其他因素不能直接访问。
业务系统的版本变更很频繁,每次变更都需要重写分析系统并重新测试。
很难建立和维护汇总数据来源于多个业务系统版本的报表。
业务系统的列名通常是硬编码,有时仅仅是无意义的字符串,这让编写分析系统更加困难。
业务系统的数据格式,如日期、数字的格式不统一。
业务系统的表结构为事务处理性能而优化,有时并不适合查询与分析。
没有适当的方式将有价值的数据合并进特定应用的数据库。
没有适当的位置存储元数据。
用户需要看到的显示数据字段,有时在数据库中并不存在。
通常事务处理的优先级比分析系统高,所以如果分析系统和事务处理运行在同一硬件之上,分析系统往往性能很差。
有误用业务数据的风险。
极有可能影响业务系统的性能

使用数据仓库的好处:
将多个数据源集成到单一数据存储,因此可以使用单一数据查询引擎展示数据。
缓解在事务处理数据库上因执行大查询而产生的资源竞争问题。
维护历史数据。
通过对多个源系统的数据整合,使得在整个企业的角度存在统一的中心视图。
通过提供一致的编码和描述,减少或修正坏数据问题,提高数据质量。
一致性地表示组织信息。
提供所有数据的单一通用数据模型,而不用关心数据源。
重构数据,使数据对业务用户更有意义。
向复杂分析查询交付优秀的查询性能,同时不影响操作型系统。
开发决策型查询更简单。









路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条