什么是数据集市?

17 Mar 2025 | 4 分钟阅读

一个 数据集市 是一个指导性信息存储的子集,通常面向特定的目的或主要数据主题,它可以被分发以满足业务需求。数据集市是分析记录存储,旨在专注于组织内特定社区的特定业务功能。数据集市来源于数据仓库中的数据子集,尽管在自下而上的数据仓库设计方法中,数据仓库是由组织数据集市的联合创建的。

数据集市的基本用途是 商业智能 (BI) 应用程序。BI 用于收集、存储、访问和分析记录。 小型企业可以使用它来利用他们积累的数据,因为它比实施数据仓库便宜。

What is Data Mart?

创建数据集市的原因

  • 通过一组用户创建集体数据
  • 轻松访问经常需要的数据
  • 易于创建
  • 提高最终用户的响应时间
  • 比实施完整的数据仓库成本更低
  • 与全面的数据仓库相比,潜在客户的定义更明确
  • 它只包含重要的业务数据,并且不太混乱。

数据集市的类型

设计数据集市主要有两种方法。 这些方法是

  • 依赖数据集市
  • 独立数据集市

依赖数据集市

一个依赖数据集市是一个更高级别的数据仓库的物理子集的逻辑子集。 根据此技术,数据集市被视为数据仓库的子集。 在此技术中,首先创建一个数据仓库,然后可以从中创建更多各种数据集市。 这些数据集市依赖于数据仓库并从中提取必要的记录。 在此技术中,由于数据仓库创建了数据集市; 因此,不需要数据集市集成。 它也称为 自顶向下方法

What is Data Mart?

独立数据集市

第二种方法是独立数据集市 (IDM)。这里,首先创建独立的数据集市,然后使用这些独立的多个数据集市设计数据仓库。 在这种方法中,由于所有数据集市都是独立设计的; 因此,需要集成数据集市。 它也被称为 自下而上方法,因为数据集市被集成以开发数据仓库。

What is Data Mart?

除了这两个类别之外,还存在一种称为“混合数据集市”的类型。

混合数据集市

它允许我们结合来自数据仓库以外的来源的输入。 这对于许多情况都可能有用; 尤其是在需要临时集成时,例如在新组或产品添加到组织之后。

实施数据集市的步骤

实施数据集市的重要步骤是设计模式、构建物理存储、使用来自源系统的数据填充数据集市、访问它以做出明智的决策并在一段时间内对其进行管理。 所以,步骤是

设计

设计步骤是数据集市过程中的第一步。 此阶段涵盖了从启动数据集市请求到收集有关需求的数据并开发数据集市的逻辑和物理设计的所有功能。

它涉及以下任务

  1. 收集业务和技术要求
  2. 识别数据源
  3. 选择适当的数据子集
  4. 设计数据集市的逻辑和物理架构。

构建

此步骤包含创建物理数据库和与数据集市关联的逻辑结构,以提供对数据的快速高效访问。

它涉及以下任务

  1. 创建物理数据库和与数据集市关联的逻辑结构,例如表空间。
  2. 创建模式对象,例如设计步骤中描述的表和索引。
  3. 确定设置表和访问结构的最佳方法。

填充

此步骤包括与从源获取数据、清理数据、将其修改为正确的格式和详细程度以及将其移动到数据集市相关的所有任务。

它涉及以下任务

  1. 将数据源映射到目标数据源
  2. 提取数据
  3. 清理和转换信息。
  4. 将数据加载到数据集市中
  5. 创建和存储元数据

访问方式

此步骤包括使用数据:查询数据、分析数据、创建报告、图表和图形并发布它们。

它涉及以下任务

  1. 为前端工具设置和管理中间层(元层)以供使用。 该层将数据库操作和对象名称转换为业务条件,以便最终客户可以使用与业务功能相关的词语与数据集市进行交互。
  2. 设置和管理数据库架构,例如汇总表,这有助于通过前端工具执行的查询快速有效地达成一致。

管理

此步骤包含在其生命周期内管理数据集市。 在此步骤中,执行的管理功能如下

  1. 提供对数据的安全访问。
  2. 管理数据的增长。
  3. 优化系统以获得更好的性能。
  4. 即使在系统出现故障时也能确保数据的可用性。

数据仓库和数据集市之间的区别

What is Data Mart?
数据仓库数据市场
数据仓库是从公司内各个组织或部门收集的大量信息存储库。数据集市只是数据仓库的一个子类型。 它的架构是为了满足特定用户群体的需求。
它可以容纳多个主题领域。它只包含一个主题领域。 例如,财务或销售。
它包含非常详细的信息。它可以包含更多汇总的数据。
致力于整合所有数据源它专注于整合来自给定主题领域或一组源系统的数据。
在数据仓库中,使用事实星座。在数据集市中,使用星型模式和雪花模式。
它是一个集中式系统。它是一个分散式系统。
数据仓库以数据为导向。数据集市以项目为导向。