数据仓库建模

17 Mar 2025 | 5 分钟阅读

数据仓库建模是设计数据仓库详细和汇总信息模式的过程。 数据仓库建模的目标是开发一个描述现实,或至少是数据仓库需要支持的部分事实的模式。

数据仓库建模是构建数据仓库的一个重要阶段,主要有两个原因。 首先,通过模式,数据仓库的客户端可以可视化仓库数据之间的关系,以便更容易地使用它们。 其次,一个设计良好的模式可以使有效的数据仓库结构显现出来,从而有助于降低实施仓库的成本并提高其使用效率。

数据仓库中的数据建模与操作数据库系统中的数据建模不同。 数据仓库的主要功能是支持 DSS 流程。 因此,数据仓库建模的目标是使数据仓库能够有效地支持对长期信息的复杂查询。

相反,操作数据库系统中的数据建模旨在有效地支持数据库中的简单事务,例如检索、插入、删除和更改数据。 此外,数据仓库是为对企业有一般信息知识的客户设计的,而操作数据库系统更倾向于由软件专家使用,用于创建不同的应用程序。

数据仓库模型在给定的图表中进行了说明。

Data Warehouse Modeling

特定仓库内的数据本身具有特定的架构,重点在于各种级别的汇总,如图所示

Data Warehouse Modeling

当前详细记录至关重要,因为它

  • 反映了当前发生的事情,这些通常是最具刺激性的。
  • 它是大量的,因为它保存在最细粒度的方法中。
  • 它几乎总是保存在磁盘存储中,磁盘存储访问速度快,但昂贵且难以管理。

较旧的详细数据以某种形式的大容量存储方式存储,并且很少被访问,并保持与当前详细数据一致的详细程度。

轻度汇总的数据是从当前详细级别的低级别提取的数据,通常存储在磁盘存储中。 在构建数据仓库时,必须记住进行汇总的时间单位以及汇总数据将包含的组件或属性。

高度汇总的数据是紧凑的,可直接使用,甚至可以在仓库之外找到。

元数据是数据仓库的最终元素,实际上是各种维度,与从操作数据中提取的文件不同,但它被用作:-

  • 一个目录,帮助 DSS 研究人员定位数据仓库的各个项目。
  • 数据从操作数据更改为数据仓库环境时记录映射的指南。
  • 当前准确数据与轻度汇总信息和高度汇总数据之间使用的汇总方法的指南等。

数据建模生命周期

在本节中,我们定义了数据建模生命周期。 这是一个将业务需求转化为满足在 IT 系统中存储、维护和访问数据的目标的直接过程。 结果是企业数据仓库的逻辑和物理数据模型。

数据建模生命周期的目标主要是为业务信息创建一个存储区域。 该区域来自逻辑和物理数据建模阶段,如图所示

Data Warehouse Modeling

概念数据模型

概念数据模型识别不同实体之间最高级别的关系。

概念数据模型的特征

  • 它包含必要的实体以及它们之间的关系。
  • 没有指定属性。
  • 没有指定主键。

我们可以看到,通过概念数据模型显示的唯一数据是定义数据的实体和这些实体之间的关系。 通过概念数据模型没有显示其他任何数据。

Data Warehouse Modeling

逻辑数据模型

逻辑数据模型定义了尽可能多的结构中的信息,而没有考虑它们将如何在数据库中物理实现。 逻辑数据建模的主要目标是通过单个视图(逻辑数据模型)记录业务数据结构、流程、规则和关系。

逻辑数据模型的特征

  • 它涉及所有实体以及它们之间的关系。
  • 指定了每个实体的所有属性。
  • 声明了每个实体的主键。
  • 指定了引用完整性(外键关系)。

设计逻辑数据模型的阶段如下

  • 为所有实体指定主键。
  • 列出不同实体之间的关系。
  • 列出每个实体的所有属性。
  • 规范化。
  • 未列出数据类型
Data Warehouse Modeling

物理数据模型

物理数据模型描述了模型在数据库中的呈现方式。 物理数据库模型演示了所有表结构、列名、数据类型、约束、主键、外键以及表之间的关系。 物理数据建模的目的是将逻辑数据模型映射到托管数据仓库的 RDBMS 系统的物理结构。 这包括定义物理 RDBMS 结构,例如在存储信息时要使用的表和数据类型。 它还可以包括定义用于增强查询性能的新数据结构。

物理数据模型的特征

  • 指定所有表格和列。
  • 外键用于识别表之间的关系。

物理数据模型设计的步骤如下

  • 将实体转换为表。
  • 将关系转换为外键。
  • 将属性转换为列。
Data Warehouse Modeling

数据仓库模型的类型

Types of Data Warehouse Models

企业仓库

企业仓库收集有关涵盖整个组织的主题的所有记录。 它支持企业范围内的数据集成,通常来自一个或多个运营系统或外部数据提供商,并且具有跨职能范围。 它通常包含详细信息以及汇总信息,其估计范围从几千兆字节到数百千兆字节、太字节或更多。

企业数据仓库可以在传统的大型机、UNIX 超级服务器或并行架构平台上实现。 它需要大量的业务建模,可能需要数年才能开发和构建。

数据市场

数据集市包含对特定用户集合有价值的企业范围内数据的子集。 范围仅限于特定的选定主题。 例如,营销数据集市可能会将其主题限制为客户、项目和销售。 数据集市中包含的数据往往是汇总的。

数据集市分为两部分

独立数据集市: 独立数据集市的数据来自从一个或多个运营系统或外部数据提供商捕获的数据,或者通常在不同部门或地理区域内本地化的数据。

相关数据集市: 相关数据集市的数据完全来自企业数据仓库。

虚拟仓库

虚拟数据仓库是操作数据库上的一组感知。 为了有效的查询处理,可能只有一些可能的汇总视觉被具体化。 虚拟仓库易于构建,但需要在操作数据库服务器上增加容量。


下一个主题数据仓库设计