数据仓库教程:它是什么,定义,概念

2025年4月7日 | 阅读7分钟
Data Warehouse

数据仓库是关系数据库管理系统 (RDBMS) 的一个构造,用于满足事务处理系统的需求。它可以被宽泛地描述为任何可以为了业务利益而被查询的集中式数据存储库。它是一个存储面向满足决策请求信息的数据库。它是一组决策支持技术,旨在使知识工作者(高管、经理和分析师)能够做出更优越、更高质量的决策。因此,数据仓库支持业务高管系统地组织、理解和使用其信息来做出战略决策的架构和工具。

数据仓库环境包含一个提取、传输和加载 (ETL) 解决方案、一个联机分析处理 (OLAP) 引擎、客户分析工具以及处理信息收集并将其交付给业务用户的其他应用程序。

什么是数据仓库?

数据仓库 (DW) 是一个关系数据库,它被设计用于查询和分析,而不是事务处理。它包含从单个和多个来源的事务数据派生的历史数据。

数据仓库提供集成化的、企业范围内的、历史数据,并专注于为决策者提供数据建模和分析支持。

数据仓库是组织整体的特定数据组,而不仅仅是特定用户组。

它不用于日常操作和事务处理,而是用于做出决策。

数据仓库可以被视为具有以下属性的数据系统:

  • 它是一个用于调查任务的数据库,使用来自各种应用程序的数据。
  • 它支持相对较少的客户端,具有相对较长的交互时间。
  • 它包含当前和历史数据,以提供信息的历史视角。
  • 它的使用是读密集型的。
  • 它包含少数大型表。

"数据仓库是面向主题的、集成的、随时间变化的信息存储,以支持管理层的决策。"

数据仓库的特点

Data Warehouse

面向主题

数据仓库的目标是为决策者进行数据建模和分析。因此,数据仓库通常围绕特定主题(如客户、产品或销售)提供简洁明了的视图,而不是整个组织的持续运营。这是通过排除与主题无关的数据,并包含用户理解主题所需的所有数据来实现的。

Data Warehouse

整合

数据仓库集成了各种异构数据源,如 RDBMS、平面文件和联机事务记录。它要求在数据仓库过程中执行数据清理和集成,以确保不同数据源之间在命名约定、属性类型等方面的一致性。

Data Warehouse

随时间变化

历史信息保存在数据仓库中。例如,可以从数据仓库中检索 3 个月、6 个月、12 个月甚至更早的数据。这与事务系统不同,事务系统通常只保留最新的文件。

Data Warehouse

非易失性

数据仓库是物理上独立的数据存储,它从源操作 RDBMS 转换而来。数据仓库中的数据不会发生操作性更新,即不执行更新、插入和删除操作。它通常只需要两种数据访问过程:数据的初始加载和数据的访问。因此,DW 不需要事务处理、恢复和并发能力,这可以大大加快数据检索速度。非易失性定义了数据一旦进入仓库,就不应更改。

Data Warehouse

数据仓库的历史

数据仓库的概念出现在 20 世纪 80 年代末,当时 IBM 研究员 Barry Devlin 和 Paul Murphy 创立了“业务数据仓库”。

本质上,数据仓库的概念旨在支持信息从操作系统流向决策支持环境的架构模型。该概念试图解决与信息流相关的各种问题,特别是与其相关的高成本。

在没有数据仓库架构的情况下,需要大量的空间来支持多个决策支持环境。在大公司中,各种决策支持环境独立运行是很常见的。

数据仓库的目标

  • 协助报告和分析
  • 维护组织的历**史**信息
  • 成为决策的基础。

数据市场

数据市场(Datamart)是主数据仓库的一个子集,它被分割以满足业务需求,通常侧重于特定目的。

例如:如果我们假设一所荣誉学院是数据仓库,那么,

  1. 地理系
  2. 历史系。
  3. 英语系。
  4. 孟加拉语系。
  5. 计算机科学系。

这些都是部门。每个部门都是数据仓库的一个数据市场。

可能存在独立的财务、销售、生产或营销数据市场。部门包括与公司内特定部门相关的软件、硬件、程序和数据。

  • 尽管这些数据市场各自独特,但它们可能都经过协调。
  • 不同部门的数据市场相互不同。
  • 按部门规划的小型仓库称为数据市场。

数据仓库和数据市场之间的区别

数据仓库数据市场
它提供企业级的数据视图。它提供部门级的数据视图。
所有数据市场的并集数据仓库的子集或单个业务流程
实施耗时较长(数月至数年)实施耗时较短(数周至数月)
其大小超过 100 TB。其大小小于 10 TB。
响应较慢响应较快

元数据

您的数据仓库的内容列在一个名为元数据(Meta Data)的目录中。

元数据的形式

数据仓库中的元数据可以找到三种主要类型:

  1. 操作元数据
  2. 提取和转换元数据
  3. 最终用户元数据

1. 操作元数据

数据仓库的数据来自组织内的多个操作系统,因为操作元数据包含有关操作数据源的所有相关信息。

2. 元数据提取和转换

它包含有关曾经发生过的每次数据转换的详细信息。

3. 最终用户元数据(索引)

数据仓库的导航图是最终用户信息。它使最终用户能够找到数据仓库中的信息。

元数据的特殊意义

  • 最初,它充当数据仓库每个组件之间的链接或粘合剂。
  • 然后,它为开发人员提供有关结构内容的信息。
  • 最终,它使内容得以识别,并允许用户访问。
  • 对数据仓库中数据进行查询的答案包含在元数据中。

数据仓库架构

Data Warehouse

后端工具和实用程序

  • 它们用于将数据从操作数据库或其他外部源馈送到数据仓库(底层)。
  • 这些工具和实用程序除了数据提取、清理和转换(例如,将来自多个源的可比数据合并为统一格式)之外,还执行加载和刷新操作来更新数据仓库。

底层

  • 通常,关系数据库系统位于数据仓库数据库服务器上。
  • 数据仓库是通过连接多个数据市场创建的。
  • 此外,此层有一个元数据存储库,其中包含有关数据仓库内容的数据。
  • 此外,此层还有集成器和监视器,它们不断地组合数据。

中间层

  • OLAP 服务器是中间层。
  • 通常,使用 MOLAP 或 ROLAP 来实现它。
    1. ROLAP 是管理关系数据库的服务器名称。
    2. MOLAP 是一种特殊类型的服务器,专为多维数据和操作而设计。

顶层

这是一个前端客户端层,包括数据挖掘、分析以及查询和报告功能。

对数据仓库的需求

数据仓库之所以需要,原因如下:

History of Data Warehouse
  1. 业务用户:业务用户需要数据仓库来查看过去的汇总数据。由于这些人是非技术人员,数据可以以简单的形式呈现给他们。
  2. 存储历史数据:需要数据仓库来存储过去的时间变量数据。这些输入用于各种目的。
  3. 做出战略决策:一些策略可能依赖于数据仓库中的数据。因此,数据仓库有助于做出战略决策。
  4. 数据一致性和质量:将来自不同来源的数据汇集到一个公共场所,用户可以有效地确保数据的统一性和一致性。
  5. 高响应时间:数据仓库必须准备好应对一些不可预见的负载和查询类型,这需要高度的灵活性和快速的响应时间。

数据仓库的优势

  1. 了解业务趋势并做出更好的预测决策。
  2. 数据仓库旨在处理大量数据并表现良好。
  3. 数据仓库的结构更容易供最终用户导航、理解和查询。
  4. 在许多规范化数据库中可能复杂的查询,在数据仓库中可能更容易构建和维护。
  5. 数据仓库是管理大量用户大量信息需求的有效方法。
  6. 数据仓库提供了分析大量历史数据的能力。

前提条件

在学习数据仓库之前,您必须具备基本数据库概念(如模式、ER 模型、结构化查询语言等)的基础知识。

目标受众

本教程将帮助计算机科学专业的学生理解与数据仓库相关的基础到高级的概念。

问题

我们保证您在使用此数据仓库教程时不会遇到任何问题。但如果存在任何错误,请通过联系表单提交问题。

一些重要的选择题

1. OLAP 代表

  1. 联机分析处理
  2. 脱机分析过程
  3. 在线安卓手机
  4. 脱机类比过程
 

答案:a

解释:联机分析处理是 OLAP 的缩写。


2. OLTP 代表

  1. 在线交易电话
  2. 联机事务处理
  3. 脱机打字过程
  4. 在线打字过程
 

答案:b

解释:联机事务处理是 OLTP 的缩写。


3. 元数据是

  1. 关于任何事的数据
  2. 不同类型的数据库
  3. 关于数据的数据
  4. 原始数据
 

答案:c

解释:关于数据或信息的数据基本上是元数据。


4. 元数据的类型基本上是

  1. 2 种类型
  2. 1 种类型
  3. 4 种类型
  4. 3 种类型
 

答案:d

解释:数据仓库中有 3 种类型的元数据。


5. ROLAP 代表

  1. 关系联机分析处理
  2. 圆形联机分析处理
  3. 随机联机分析处理
  4. 关系脱机分析处理
 

答案:a

解释:关系联机分析处理是 ROLAP 的缩写。


下一主题数据仓库组件