数据仓库不是一次建成的,因为用户是在发现模式下,只有通过开发迭代,才能确定数据仓库应该包含什么,怎么处理数据。
数据仓库的特性
- 面向主题
- 数据集成,从操作型环境传输进来时对数据进行集成(统一编码,统一单位,统一关键字类型,多数据源等)
数据仓库设计决策的两个最重要方面
粒度:
- 低粒度带来大量数据,存储成本和计算都会受到影响;高粒度效率高,但会丢失很多细节数据;可以采用双重粒度设计。
分区:
- 分区在应用层而非系统层,数据分区是的数据可以在小的分开的离散单元中进行管理。
- 方便装载,建索引,查询,归档,删除,监控,存储等管理工作。
活样本数据库
活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集。”样本”指一部分数据,”活”指需要周期刷新,可以用作分析员开发的测试集。
数据仓库中的数据组织
- 简单堆积结构:简单的对每个周期对操作型环境中的数据进行汇总,形成轻度综合数据。
- 轮转综合数据存储:简单堆积结构的变种,基于上述结构形成的轻度综合数据,在更大的周期继续堆积汇总,并清空已汇总的综合数据。
- 简单直接文件:数据仅仅从操作型环境被拖入数据仓库环境,没有任何鸡肋,是操作性数据间隔一定时间的一个快照。
- 连续文件:根据多个简单直接文件合并成一个连续文件
数据审计
审计可以再数据仓库中进行,但却不应当在其中进行,应该放在操作型环境中进行。
数据清理的几种方式
- 数据加入到失去原有细节的一个轮转综合文件中
- 数据从高性能的介质转移到大容量介质上
- 数据从系统中被真正清除
- 数据从体系结构的一个层次转到另一个层次,比如从操作层转到数据仓库层
解决数据仓库中的错误数据方法(没有绝对优劣,视情况而定)
- 直接修改原错误细节数据
- 增补新细节数据对原错误数据进行抵消
- 修改结果数据