数据仓库的组成部分或构建块

17 Mar 2025 | 6 分钟阅读

架构是元素的正确排列。我们使用软件和硬件组件构建数据仓库。为了满足我们组织的各种需求,我们可以安排这些构建块,我们可能希望用额外的工具和服务来增强其他部分。所有这些都取决于我们的具体情况。

Data Warehouse Components

图显示了一个典型数据仓库的必备元素。左侧显示了源数据组件。数据暂存区域作为下一个构建块。中间部分是数据存储组件,负责管理数据仓库的数据。此组件不仅存储和管理数据;它还通过元数据存储库跟踪数据。右侧的信息传递组件包括所有将数据仓库中的信息提供给用户的方式。

源数据组件

进入数据仓库的源数据可分为四类:

生产数据:这类数据来自企业不同的操作系统。根据数据仓库中的数据需求,我们从各种操作模式中选择部分数据。

内部数据:每个组织都有客户保留的“私有”电子表格、报告、客户配置文件,有时甚至是部门数据库。这是内部数据,其中一部分可能对数据仓库有用。

存档数据:操作系统主要用于运行当前业务。在每个操作系统中,我们会定期将旧数据提取并存储在存档文件中。

外部数据:大多数高管使用的信息很大一部分依赖于外部信息来源。他们使用外部部门发布的与其行业相关的统计数据。

数据暂存组件

在从各种操作系统和外部来源提取数据后,我们需要准备文件以存储在数据仓库中。来自不同来源的提取数据需要进行更改、转换,并以一种适合保存以供查询和分析的格式准备就绪。

现在我们将讨论在暂存区域中发生的三个主要功能。

Data Warehouse Components

1) 数据提取:此过程需要处理大量数据源。我们必须为每个数据源采用适当的技术。

2) 数据转换:如我们所知,数据仓库的数据来自许多不同的来源。如果数据提取为数据仓库带来巨大挑战,那么数据转换将带来更大的挑战。我们在数据转换过程中执行许多单独的任务。

首先,我们清理从每个源提取的数据。清理可能是修正拼写错误,提供缺失数据元素的默认值,或在从各种源系统引入相同数据时消除重复项。

数据组件的标准化是数据转换的重要组成部分。数据转换包含多种形式,即将来自不同来源的数据片段合并。我们将来自单个源记录的数据或来自多个源记录的相关数据部分合并。

另一方面,数据转换还包括删除无用源数据,并将外部记录分离成新的组合。数据在数据暂存区域进行大规模排序和合并。当数据转换功能完成后,我们就有了一组已清理、标准化和汇总的集成数据。

3) 数据加载:两个不同的任务类别构成了数据加载功能。当我们完成数据仓库的结构和构建,并首次上线时,我们会将信息初始加载到数据仓库存储中。初始加载会移动大量数据,耗费大量时间。

数据存储组件

数据仓库的数据存储是一个分离的存储库。操作系统的数据存储库通常仅包含当前数据。此外,这些数据存储库以高度规范化的方式组织数据,以便快速高效地处理。

信息传递组件

信息传递组件用于启用订阅数据仓库文件并根据某些客户指定的调度算法将其传输到一个或多个目的地的过程。

Data Warehouse Components

元数据组件

数据仓库中的元数据相当于数据库管理系统中的数据字典或数据目录。在数据字典中,我们保存有关逻辑数据结构、记录和地址的数据、有关索引的信息等。

数据市场

它包括对特定用户群体有价值的公司级数据的子集。范围仅限于特定的选定主题。数据仓库中的数据应该是相当新的,但不一定是实时更新的,尽管数据仓库行业的发展使得标准和增量数据转储更加可行。数据市场比数据仓库小,通常包含组织。数据仓库的当前趋势是开发一个数据仓库,其中包含几个较小的相关数据市场,用于特定的查询和报告。

管理和控制组件

管理和控制组件协调数据仓库内的服务和功能。这些组件控制数据转换和数据传输到数据仓库存储。另一方面,它调节数据向客户的传递。它与数据库管理系统协同工作,并授权数据正确地保存在存储库中。它监控信息进入暂存方法以及从那里进入数据仓库存储本身。

为什么我们需要一个独立的数据仓库?

数据仓库查询很复杂,因为它们涉及对汇总级别的大量数据的计算。

可能需要基于多维视图使用独特的数据组织、访问和实现方法。

在操作数据库中执行 OLAP 查询会降低职能任务的性能。

数据仓库用于分析和决策,其中需要大量的数据库,包括历史数据,而操作数据库通常不维护这些数据。

操作数据库与数据仓库的分离基于这些系统中数据的不同结构和用途。

由于这两个系统提供不同的功能并且需要不同类型的数据,因此有必要维护独立数据库。

数据库与数据仓库的区别

Data Warehouse Components
数据库数据仓库
1. 它用于在线事务处理 (OLTP),但也可用于其他目标,如数据仓库。它记录客户数据以供历史记录。1. 它用于在线分析处理 (OLAP)。它读取客户的历史信息以进行业务决策。
2. 表和连接很复杂,因为它们为了 RDBMS 进行了规范化。这样做是为了减少冗余文件并节省存储空间。2. 表和连接易于访问,因为它们是反规范化的。这样做是为了最小化分析查询的响应时间。
3. 数据是动态的3. 数据大部分是静态的
4. 实体:关系建模过程用于 RDBMS 数据库设计。4. 数据:建模方法用于数据仓库设计。
针对写入操作进行了优化。针对读取操作进行了优化。
6. 分析查询性能较低。6. 分析查询性能高。
7. 数据库是数据的基准,并被管理以快速高效地访问。7. 数据仓库是处理应用程序数据以进行分析和报告的场所。