数据仓库设计

2025年3月17日 | 阅读 3 分钟

数据仓库是一个单一的数据存储库,来自多个数据源的记录被集成,以进行在线商业分析处理 (OLAP)。 这意味着数据仓库需要满足整个组织内所有业务阶段的需求。 因此,数据仓库设计是一个非常复杂、漫长且容易出错的过程。 此外,业务分析功能会随着时间的推移而变化,这会导致系统需求的变化。 因此,数据仓库和 OLAP 系统是动态的,设计过程是持续的。

数据仓库设计采用与行业中视图物化不同的方法。 它将数据仓库视为具有特定需求的数据库系统,例如回答与管理相关的查询。 设计的目标是如何提取、转换和加载 (ETL) 来自多个数据源的记录,以便在数据库中组织为数据仓库。

有两种方法

  1. “自顶向下”方法
  2. “自下而上”方法

自顶向下设计方法

在“自顶向下”设计方法中,数据仓库被描述为一个面向主题的、时变的、非易失性和集成的企业数据存储库,来自不同来源的整个企业数据经过验证、重新格式化并以规范化(最高 3NF)的数据库形式保存为数据仓库。 数据仓库存储“原子”信息,即最低粒度级别的数据,可以从中通过选择特定业务主题或特定部门所需的数据来构建维度数据集市。 这种方法是一种数据驱动的方法,因为首先收集和集成信息,然后根据主题制定业务需求以构建数据集市。 这种方法的优点是它支持单一的集成数据源。 因此,从中构建的数据集市在重叠时将具有一致性。

自顶向下设计的优点

数据集市从数据仓库加载。

从数据仓库开发新的数据集市非常容易。

自顶向下设计的缺点

这种技术不灵活,无法适应不断变化的部门需求。

实施项目的成本很高。

Data Warehouse Design

自下而上设计方法

在“自下而上”方法中,数据仓库被描述为“为查询和分析而专门设计的事务数据的副本”,称为星型模式。 在这种方法中,首先创建数据集市,以便为特定业务流程(或主题)提供必要的报告和分析功能。 因此,与 Inmon 的数据驱动方法相比,它需要是一种业务驱动的方法。

数据集市包括最低粒度的数据,如果需要,也包括聚合数据。 为了满足数据仓库的数据交付要求,采用了非规范化的维度数据库,而不是数据仓库的规范化数据库。 使用此方法,要使用一组数据集市作为企业数据仓库,构建数据集市时应考虑一致性维度,定义普通对象在不同的数据集市中以相同的方式表示。 一致性维度连接数据集市以形成数据仓库,通常称为虚拟数据仓库。

“自下而上”设计方法的优点是它可以快速获得投资回报,因为开发一个数据集市(一个针对单一主题的数据仓库)比开发一个企业范围的数据仓库花费的时间和精力要少得多。 此外,失败的风险也更小。 这种方法本质上是增量的。 这种方法允许项目团队学习和成长。

Data Warehouse Design

自下而上设计的优点

可以快速生成文档。

可以扩展数据仓库以适应新的业务部门。

只需开发新的数据集市,然后与其他数据集市集成即可。

自下而上设计的缺点

在自下而上的方法设计中,数据仓库和数据集市的位置是相反的。

区分自顶向下设计方法和自下而上设计方法

自顶向下设计方法自下而上设计方法
将庞大的问题分解为更小的子问题。解决基本的基础层问题并将其集成到更高层次的问题中。
本质上是架构化的,而不是多个数据集市的联合。本质上是增量的; 可以首先安排基本的数据集市。
单一的、关于内容的集中存储。存储部门信息。
集中化的规则和控制。部门规则和控制。
它包含冗余信息。可以删除冗余。
如果通过重复实现,可能会看到快速结果。失败的风险较小,投资回报率有利,并且验证技术。

下一个主题数据仓库实施