三层数据仓库架构

17 Mar 2025 | 阅读 2 分钟

数据仓库通常具有三层(级)架构,其中包括

  1. 底层(数据仓库服务器)
  2. 中间层(OLAP 服务器)
  3. 顶层(前端工具)。

一个由**数据仓库服务器**组成的**底层**,它几乎总是 RDBMS。 它可能包括几个专门的数据集市和一个元数据存储库。

来自运营数据库和外部来源(例如外部顾问提供的用户配置文件数据)的数据是使用称为网关的应用程序编程接口提取的。 基础 DBMS 提供了网关,它允许客户程序生成 SQL 代码以在服务器上执行。

**网关的示例**包括**ODBC**(开放数据库连接)和**OLE-DB**(用于数据库的开放链接和嵌入),由**Microsoft**提供,以及**JDBC**(Java 数据库连接)。

Three-Tier Data Warehouse Architecture

一个由**OLAP 服务器**组成的**中间层**,用于快速查询数据仓库。

OLAP 服务器使用以下任一方法实现

**(1)**一个**关系 OLAP (ROLAP) 模型**,即一个扩展的关系 DBMS,它将多维数据上的函数映射到标准的关系操作。

**(2)**一个**多维 OLAP (MOLAP) 模型**,即一个直接实现多维信息和操作的特定用途的服务器。

一个包含**前端工具**的**顶层**,用于显示 OLAP 提供的结果,以及用于数据挖掘 OLAP 生成的数据的其他工具。

总的数据仓库架构如图所示

Three-Tier Data Warehouse Architecture

**元数据存储库**存储定义 DW 对象的信息。 它包括以下参数和中间层和顶层应用程序的信息

  1. DW 结构的描述,包括仓库模式、维度、层次结构、数据集市位置和内容等。
  2. 操作元数据,通常描述存储数据的货币水平,即活动的、存档的或清除的,以及仓库监控信息,即使用统计信息、错误报告、审计等。
  3. 系统性能数据,包括用于提高数据访问和检索性能的索引。
  4. 有关从运营数据库的映射的信息,它提供源**RDBMS**及其内容、清理和转换规则等。
  5. 汇总算法、预定义的查询和报告业务数据,包括业务术语和定义、所有权信息等。

数据仓库的原则

Three-Tier Data Warehouse Architecture

负载性能

数据仓库需要定期在狭窄的时间窗口内增加新数据的加载;加载过程的性能应以每小时数百万行和千兆字节来衡量,并且不得人为地限制业务数据的数量。

负载处理

必须采取许多阶段将新数据或更新数据加载到数据仓库中,包括数据转换、过滤、重新格式化、索引和元数据更新。

数据质量管理

基于事实的管理要求最高的数据质量。 仓库确保本地一致性、全局一致性和引用完整性,尽管存在“脏”源和海量数据库大小。

查询性能

基于事实的管理绝不能被数据仓库 RDBMS 的性能所减慢;大型、复杂的查询必须在几秒钟内完成,而不是几天。

太字节可扩展性

数据仓库的大小正在以惊人的速度增长。 今天,这些大小从几个千兆字节到数百千兆字节和太字节大小的数据仓库不等。


下一个主题运营数据存储