数据仓库的类型2025年3月17日 | 阅读 8 分钟 数据仓库有不同的类型,如下所示 ![]() 基于主机的数据库仓库基于主机的数据库仓库有两种实现方式
数据提取和转换工具允许从生产系统中自动提取和清理数据。出于以下原因,无法启用查询工具直接访问这些类别的这些方法
基于主机的(MVS)数据仓库使用驻留在 MVS 大容量数据库上的数据库仓库是基于主机类型的数据仓库。通常 DBMS 是 DB2,具有大量的原始数据源,包括 VSAM、DB2、平面文件和信息管理系统(IMS)。 ![]() 在着手设计、构建和实现这样的仓库之前,必须考虑更多因素,因为
为了成功构建此类数据仓库,通常遵循以下阶段
集成的元数据存储库是任何数据仓库环境的核心。需要这样的设施来记录数据源、数据转换规则和用户区域到仓库。它在多个数据源数据库和条件数据仓库的 DB2 之间提供了动态网络。 元数据存储库对于设计、构建和维护数据仓库过程是必不可少的。它应该能够提供有关操作系统和数据仓库中存在的数据、数据位置的信息。操作数据到仓库字段的映射以及最终用户访问技术。查询、报告和维护是此类数据仓库的另一个不可或缺的方法。用于 DB2 的 MVS 查询和报告工具。 基于主机的(UNIX)数据仓库Oracle 和 Informix RDBMS 支持此类数据仓库的功能。这两个数据库都可以从基于 MVS 的数据库以及大量其他基于 UNIX 的数据库中提取信息。这些类型的仓库遵循与基于主机的 MVS 数据仓库相同的阶段。此外,还可以创建来自不同网络服务器的数据。由于文件属性在网络之间通常是一致的。 基于 LAN 的工作组数据仓库基于 LAN 的工作组仓库是一个集成的结构,用于在 LAN 环境中构建和维护数据仓库。在此仓库中,我们可以从各种源中提取信息并支持多个基于 LAN 的仓库,通常选择的仓库数据库包括 DB2 系列、Oracle、Sybase 和 Informix。其他数据库也可以包含,尽管不经常,如 IMS、VSAM、平面文件、MVS 和 VH。 ![]() 基于工作组环境设计的基于 LAN 的工作组仓库最适合任何希望构建数据仓库(通常称为数据市场)的业务组织。这种类型的数据仓库通常需要最少的初始投资和技术培训。 数据交付:使用基于 LAN 的工作组仓库,客户需要最少的技术知识来创建和维护一个为部门、业务部门或工作组级别定制的数据存储。基于 LAN 的工作组仓库通过提供对仓库中数据的传输访问来确保从企业资源交付信息。 基于主机的单阶段(LAN)数据仓库在基于 LAN 的数据仓库中,数据交付可以集中处理,也可以从工作组环境中处理,因此业务部门可以处理他们所需的数据,而不会给集中的 IT 资源带来负担,享受其数据市场的自主性,同时不损害企业整体的数据完整性和安全性。 ![]() 局限性DBMS 和硬件的可扩展性方法通常会限制基于 LAN 的仓库解决方案。 许多基于 LAN 的企业尚未实施充分的作业调度、恢复管理、有序维护和性能监控方法来提供健壮的仓库解决方案。 这些仓库通常依赖于其他平台作为源记录。构建一个具有数据完整性、可恢复性和安全性的环境需要仔细的设计、规划和实施。否则,从源到服务器的转换和加载的同步可能会导致无数问题。 一个基于 LAN 的仓库提供来自多个来源的数据,需要最少的初始投资和技术知识。基于 LAN 的仓库还可以使用复制工具来填充和更新数据仓库。这种类型的仓库可以包括业务视图、历史记录、聚合、版本以及异构源支持,例如
单个存储库通常驱动基于 LAN 的仓库,并提供现有的 DSS 应用程序,使业务用户能够在其数据仓库中找到数据。基于 LAN 的仓库可以为业务用户提供完整的数据到信息解决方案。基于 LAN 的仓库还可以与能够编目业务数据并使其对任何需要它的人可用的元数据共享。 多阶段数据仓库它指的是在转换过程中对数据进行多个阶段的处理,以通过聚合进行分析。换句话说,在将数据加载到数据仓库进行加载操作之前,数据会被暂存多次,数据首先从源系统提取到暂存区域,然后进行更改后加载到数据仓库,最后加载到部门化的数据市场。 这种配置非常适合最终客户在各种情况下都需要访问最新汇总信息以进行即时战术决策以及汇总的、累积记录以进行长期战略决策的环境。操作数据存储(ODS)和数据仓库都可以驻留在基于主机的或基于 LAN 的数据库上,具体取决于数量和定制要求。这些包括 DB2、Oracle、Informix、IMS、平面文件和 Sybase。 通常,ODS 只存储最新的记录。数据仓库存储文件的历史计算。起初,两个数据库中的数据将非常相似。例如,新客户的记录将看起来相同。随着用户记录的更改,ODS 将被刷新以仅反映最新的数据,而数据仓库将同时包含历史数据和新信息。因此,随着时间的推移,数据仓库的数量要求将超过 ODS 的数量要求。在实践中,达到 4:1 的比例并不常见。 ![]() 静态数据仓库在这种类型的数据仓库中,数据不会从源中更改,如图所示 ![]() 相反,客户被授予直接访问数据的权限。对于许多组织来说,不频繁的访问、数量问题或公司需求决定了这种方法。这种模式确实会给客户带来一些问题,例如
此类仓库将需要高度专业化和复杂的“中间件”,可能与客户端进行单一交互。这对于在报表生成前显示提取记录的功能也很重要。集成的元数据存储库在此环境变得绝对必要。 分布式数据仓库分布式数据仓库的概念表明,有两种类型的分布式数据仓库及其修改,用于分布在整个企业的本地企业仓库和全局仓库,如图所示 ![]() 本地数据仓库的特点
虚拟数据仓库虚拟数据仓库的创建分以下几个阶段
这种策略定义了最终用户可以使用实现到数据访问网络中的任何工具直接访问操作数据库。这种方法提供了极大的灵活性,并且需要加载和维护的冗余信息最少。数据仓库是一个好主意,但它很难构建且需要投资。为什么不通过消除元数据存储库和其他数据库的转换阶段,使用一种廉价快速的方法呢?这种方法被称为“虚拟数据仓库”。 为了实现这一点,需要定义四种类型的数据
缺点
![]() 下一主题数据仓库建模 |
我们请求您订阅我们的新闻通讯以获取最新更新。