转换和集成的复杂性
在数据从操作型环境到数据仓库环境的转换和集成中需要完成的一些功能(ETL):
- 操作型数据库数据查询,数据仓库的数据写入
- 操作型数据库多表联合查询
- 加入时间成分
- 非关键字数据格式化
- 数据清理:取值范围检查、交叉记录验证、格式验证
- 多数据源合并
- 多数据源的关键字解析、排序
- 多个输出结果(因为产生不同的综合层次)
- 提供默认值
- …
数据仓库记录的触发
“事件——快照”交互
- 业务活动产生的事件(随机)
- 时间产生的事件(不随机)
快照的构成
- 时间(快照产生的时间):可以暗含于而不是直接附于快照中
- 关键字
- 非关键字的主要数据
- 二级数据(可选,也称关系的人工因素)
概要记录
概要记录(聚集记录)把操作型数据中许多不同的、详细的记录组合在一起形成一条记录;一条概要记录以聚集的形式代表了许多条操作型记录。
可以采取多种聚集形式,如:汇总、计数、最高值、平均值、最老、最新等等
管理大量数据
建立概要记录的不足之处是,可能会丢失细节数据。因此要在设计时保证丢失的细节数据对分析人员无关紧要,第一种方法是迭代式建立概要记录,逐步聚集数据。第二种是在建立概要记录时,备份细节数据,可以使用成本低、较慢的存储器上。
创建多个概要记录
根据相同的细节可以创建多个概要记录。如单个通话记录可以用来创建顾客概要记录、地区通信量概要记录、线路分析概要记录等等。
从数据仓库环境到操作型环境
也称数据的回流
数据仓库数据的直接操作型访问
有很多限制:响应时间长,数据传输量要求小,管理数据仓库的技术与管理操作型环境的技术一致。
数据仓库数据的间接访问
需要对历史数据进行实时数据分析时,将数据仓库的数据进行离线计算后准备好,存储回操作型环境,供在线使用。
数据仓库数据的间接使用
同上,但存在数据仓库中使用
星形连接
星形连接、事实表、维度表这种多维方法只适用于数据集市,而不适合数据仓库。
数据集市中的实体是不平等的,因为不同部门的关注点不一样,那么最重要的实体就是事实表,用外键指向维度表。
数据仓库中的数据是粒度化的,数据集市中的数据是紧凑和综合的。数据必须周期性地从数据仓库移到数据集市。
支持操作型数据存储
需求和Zachman框架
Zachman框架是用来聚集和组织企业需求的最好的办法之一。