数据仓库的类型

2025年3月17日 | 阅读 8 分钟

数据仓库有不同的类型,如下所示

Types of Data Warehouses

基于主机的数据库仓库

基于主机的数据库仓库有两种实现方式

  • 基于主机的大型机数据库仓库,它驻留在高容量数据库中。支持健壮可靠的大容量结构,如 IBM system/390、UNISYS 和 Data General 顺序系统,以及 Sybase、Oracle、Informix 和 DB2 等数据库。
  • 基于主机的 LAN 数据仓库,其中数据交付可以集中处理,也可以从工作组环境中处理。数据库仓库的大小取决于平台。

数据提取和转换工具允许从生产系统中自动提取和清理数据。出于以下原因,无法启用查询工具直接访问这些类别的这些方法

  1. 大量复杂的仓库查询可能会对关键任务事务处理(TP)导向型应用程序产生过多的有害影响。
  2. 这些 TP 系统一直在为其数据库设计以获得事务吞吐量。在所有方法中,数据库都为最优查询或事务处理而设计。复杂的业务查询需要连接多个规范化表,因此性能通常较差,查询结构也相当复杂。
  3. 不能保证两个或多个生产系统中的数据是一致的。

基于主机的(MVS)数据仓库

使用驻留在 MVS 大容量数据库上的数据库仓库是基于主机类型的数据仓库。通常 DBMS 是 DB2,具有大量的原始数据源,包括 VSAM、DB2、平面文件和信息管理系统(IMS)。

Types of Data Warehouses

在着手设计、构建和实现这样的仓库之前,必须考虑更多因素,因为

  1. 此类数据库通常具有非常大的数据存储量。
  2. 此类仓库可能需要同时支持 MVS 和客户的报表和查询功能。
  3. 这些仓库拥有复杂的源系统。
  4. 此类系统需要持续维护,因为它们还必须用于关键任务目标。

为了成功构建此类数据仓库,通常遵循以下阶段

  1. 卸载阶段:它包含选择和清理操作数据。
  2. 转换阶段:用于将其转换为适当的格式,并描述访问和存储它的规则。
  3. 加载阶段:用于将记录直接移动到 DB2 表或特定文件,以便将其移动到另一个数据库或非 MVS 仓库。

集成的元数据存储库是任何数据仓库环境的核心。需要这样的设施来记录数据源、数据转换规则和用户区域到仓库。它在多个数据源数据库和条件数据仓库的 DB2 之间提供了动态网络。

元数据存储库对于设计、构建和维护数据仓库过程是必不可少的。它应该能够提供有关操作系统和数据仓库中存在的数据、数据位置的信息。操作数据到仓库字段的映射以及最终用户访问技术。查询、报告和维护是此类数据仓库的另一个不可或缺的方法。用于 DB2 的 MVS 查询和报告工具。

基于主机的(UNIX)数据仓库

Oracle 和 Informix RDBMS 支持此类数据仓库的功能。这两个数据库都可以从基于 MVS 的数据库以及大量其他基于 UNIX 的数据库中提取信息。这些类型的仓库遵循与基于主机的 MVS 数据仓库相同的阶段。此外,还可以创建来自不同网络服务器的数据。由于文件属性在网络之间通常是一致的。

基于 LAN 的工作组数据仓库

基于 LAN 的工作组仓库是一个集成的结构,用于在 LAN 环境中构建和维护数据仓库。在此仓库中,我们可以从各种源中提取信息并支持多个基于 LAN 的仓库,通常选择的仓库数据库包括 DB2 系列、Oracle、Sybase 和 Informix。其他数据库也可以包含,尽管不经常,如 IMS、VSAM、平面文件、MVS 和 VH。

Types of Data Warehouses

基于工作组环境设计的基于 LAN 的工作组仓库最适合任何希望构建数据仓库(通常称为数据市场)的业务组织。这种类型的数据仓库通常需要最少的初始投资和技术培训。

数据交付:使用基于 LAN 的工作组仓库,客户需要最少的技术知识来创建和维护一个为部门、业务部门或工作组级别定制的数据存储。基于 LAN 的工作组仓库通过提供对仓库中数据的传输访问来确保从企业资源交付信息。

基于主机的单阶段(LAN)数据仓库

在基于 LAN 的数据仓库中,数据交付可以集中处理,也可以从工作组环境中处理,因此业务部门可以处理他们所需的数据,而不会给集中的 IT 资源带来负担,享受其数据市场的自主性,同时不损害企业整体的数据完整性和安全性。

Types of Data Warehouses

局限性

DBMS 和硬件的可扩展性方法通常会限制基于 LAN 的仓库解决方案。

许多基于 LAN 的企业尚未实施充分的作业调度、恢复管理、有序维护和性能监控方法来提供健壮的仓库解决方案。

这些仓库通常依赖于其他平台作为源记录。构建一个具有数据完整性、可恢复性和安全性的环境需要仔细的设计、规划和实施。否则,从源到服务器的转换和加载的同步可能会导致无数问题。

一个基于 LAN 的仓库提供来自多个来源的数据,需要最少的初始投资和技术知识。基于 LAN 的仓库还可以使用复制工具来填充和更新数据仓库。这种类型的仓库可以包括业务视图、历史记录、聚合、版本以及异构源支持,例如

  • DB2 系列
  • IMS、VSAM、平面文件 [MVS 和 VM]

单个存储库通常驱动基于 LAN 的仓库,并提供现有的 DSS 应用程序,使业务用户能够在其数据仓库中找到数据。基于 LAN 的仓库可以为业务用户提供完整的数据到信息解决方案。基于 LAN 的仓库还可以与能够编目业务数据并使其对任何需要它的人可用的元数据共享。

多阶段数据仓库

它指的是在转换过程中对数据进行多个阶段的处理,以通过聚合进行分析。换句话说,在将数据加载到数据仓库进行加载操作之前,数据会被暂存多次,数据首先从源系统提取到暂存区域,然后进行更改后加载到数据仓库,最后加载到部门化的数据市场。

这种配置非常适合最终客户在各种情况下都需要访问最新汇总信息以进行即时战术决策以及汇总的、累积记录以进行长期战略决策的环境。操作数据存储(ODS)和数据仓库都可以驻留在基于主机的或基于 LAN 的数据库上,具体取决于数量和定制要求。这些包括 DB2、Oracle、Informix、IMS、平面文件和 Sybase。

通常,ODS 只存储最新的记录。数据仓库存储文件的历史计算。起初,两个数据库中的数据将非常相似。例如,新客户的记录将看起来相同。随着用户记录的更改,ODS 将被刷新以仅反映最新的数据,而数据仓库将同时包含历史数据和新信息。因此,随着时间的推移,数据仓库的数量要求将超过 ODS 的数量要求。在实践中,达到 4:1 的比例并不常见。

Types of Data Warehouses

静态数据仓库

在这种类型的数据仓库中,数据不会从源中更改,如图所示

Types of Data Warehouses

相反,客户被授予直接访问数据的权限。对于许多组织来说,不频繁的访问、数量问题或公司需求决定了这种方法。这种模式确实会给客户带来一些问题,例如

  • 确定信息对用户的位置
  • 为客户提供查询不同 DBMS 的能力,就好像它们都是具有单一 API 的单一 DBMS 一样。
  • 影响性能,因为客户将与生产数据存储竞争。

此类仓库将需要高度专业化和复杂的“中间件”,可能与客户端进行单一交互。这对于在报表生成前显示提取记录的功能也很重要。集成的元数据存储库在此环境变得绝对必要。

分布式数据仓库

分布式数据仓库的概念表明,有两种类型的分布式数据仓库及其修改,用于分布在整个企业的本地企业仓库和全局仓库,如图所示

Types of Data Warehouses

本地数据仓库的特点

  • 活动出现在本地级别
  • 大部分操作处理
  • 本地站点是自治的
  • 每个本地数据仓库都有其独特的架构和数据内容
  • 数据是唯一的,对该地点至关重要
  • 大多数记录是本地的,未复制
  • 本地数据仓库之间的任何数据交叉都是偶然的
  • 本地仓库服务于不同的技术社区
  • 本地数据仓库的范围仅限于本地站点
  • 本地仓库还包括历史数据,并且仅在本地站点内集成。

虚拟数据仓库

虚拟数据仓库的创建分以下几个阶段

  1. 安装一组数据访问、数据字典和流程管理工具。
  2. 培训最终用户。
  3. 监控 DW 功能的使用情况
  4. 根据实际使用情况,物理创建数据仓库以提供高频率的结果

这种策略定义了最终用户可以使用实现到数据访问网络中的任何工具直接访问操作数据库。这种方法提供了极大的灵活性,并且需要加载和维护的冗余信息最少。数据仓库是一个好主意,但它很难构建且需要投资。为什么不通过消除元数据存储库和其他数据库的转换阶段,使用一种廉价快速的方法呢?这种方法被称为“虚拟数据仓库”。

为了实现这一点,需要定义四种类型的数据

  1. 包含各种数据库定义的数据字典。
  2. 数据组件之间关系的描述。
  3. 描述用户将如何与系统交互的方法。
  4. 描述做什么以及如何做的算法和业务规则。

缺点

  1. 由于查询与生产记录事务竞争,性能可能会下降。
  2. 没有元数据、没有汇总记录、也没有单独的DSS(决策支持系统)集成或历史记录。所有查询都必须复制,给系统增加了额外的负担。
  3. 没有刷新过程,导致查询非常复杂。
Types of Data Warehouses
下一主题数据仓库建模