数据仓库交付流程

17 Mar 2025 | 4 分钟阅读

现在我们讨论数据仓库的交付流程。 数据仓库交付流程中使用的主要步骤如下:

Data Warehouse Delivery Process

IT 战略: DWH 项目必须包含用于采购和保留资金的 IT 战略。

商业案例分析: 在设计 IT 战略之后,下一步是商业案例。 必须了解可以证明的投资水平,并认识到应该从使用数据仓库中获得的预计业务收益。

教育与原型设计: 公司将试验数据分析的想法,并了解数据仓库的价值。 如果这是公司第一次接触 DS 记录的好处,那么这是有价值的,并且应该是必需的。 原型设计方法可以促进教育的发展。 它比工作模型更好。 原型设计需要业务需求、技术蓝图和结构。

业务需求: 它包含如下内容:

数据仓库中数据的逻辑模型。

提供此数据的源系统(映射规则)

应用于信息的业务规则。

当前需求的查询配置文件

技术蓝图: 它安排仓库的架构。 交付流程的技术蓝图制定了满足长期要求的架构计划。 它规划了服务器和数据集市架构以及数据库设计的必要组件。

构建愿景: 这是生成第一个生产交付成果的阶段。 此阶段可能会为提取和加载信息创建重要的基础设施元素,但将其限制为提取和加载信息源。

历史数据加载: 下一步是将剩余的所需历史数据加载到数据仓库中。 这意味着不会将新实体添加到数据仓库中,但可能会创建其他物理表以保存增加的记录量。

Ad-Hoc 查询: 在此步骤中,我们配置一个 Ad-Hoc 查询工具以针对数据仓库进行操作。

这些最终客户访问工具能够自动生成数据库查询,以回答用户提出的任何问题。

自动化: 自动化阶段是 DWH 中许多运营管理流程完全自动化的阶段。 这些将包括:

从各种源系统提取和加载数据

将信息转换为适合分析的形式

备份、恢复和存档数据

从数据仓库中预定义的定义生成聚合。

监控查询配置文件并确定适当的聚合以维持系统性能。

扩展范围: 在此阶段,DWH 的范围扩展到解决一组新的业务需求。 这涉及将其他数据源加载到 DWH 中,即引入新的数据集市。

需求演进: 这是数据仓库交付流程的最后一步。 众所周知,需求不是静态的,而是不断演变的。 随着业务需求的变化,它应该反映在系统中。

概念层次结构

概念层次结构是有向非循环图,其中唯一名称标识每个理论。

从概念 a 到 b 的弧表示前者是比后者更一般的概念。 我们可以用概念标记文本。

每个文本报告都标有一组与其内容相对应的概念。

用概念标记报告意味着隐式地用概念层次结构的所有祖先标记报告。 因此,希望用尽可能低的概念标记报告。

自动将报告标记到层次结构的方法是自顶向下的方法。 评估函数确定当前标记到节点的记录是否也可以标记到其任何子节点。

如果是这样,则标记会沿着层次结构向下移动,直到无法再进一步推送为止。

此步骤的结果是报告的层次结构,并且在每个节点上,都有一组与该节点相关的公共概念的报告。

标记步骤产生的报告层次结构对于许多文本挖掘过程很有用。

假设概念的层次结构被称为先验的。 我们甚至可以在没有概念层次结构的情况下拥有这样的文档层次结构,方法是使用任何分层聚类算法,这将导致这样的层次结构。

Data Warehouse Delivery Process
Data Warehouse Delivery Process

概念层次结构定义了从一组特定的低级概念到更一般的,更高级的概念的映射序列。

在数据仓库中,它通常用于表达维度表中某个属性的不同粒度级别。

概念层次结构对于制定有用的 OLAP 查询至关重要。 层次结构允许用户在各种级别上汇总数据。

例如,使用位置层次结构,用户可以检索汇总每个位置的销售额、给定州的所有区域甚至给定国家/地区的销售额的数据,而无需重新组织数据。


下一个主题什么是 OLAP?