数据仓库面试题

2025年4月17日 | 阅读7分钟

以下是经常被问到的数据仓库面试题及答案。

1) 什么是数据仓库?

数据仓库是组织内从广泛来源积累的海量数据存储,用于指导业务决策。

单击此处了解更多信息

2) 什么是维度表?

维度表包含存储在事实表中的度量值的文本属性。维度表是层次结构、类别和逻辑的集合,可供客户在层次结构节点中进行遍历。


3) 什么是事实表?

事实表包含业务流程的度量。事实表包含维度表的外键。

示例: 如果我们的业务是“纸张生产”,“一台设备正常生产纸张”或“每周生产纸张”将被视为业务流程的度量。


4) 加载维度表有哪些不同方法?

有两种不同的方法可以将数据加载到维度表中

  • 传统(慢): 在加载所有约束和键之前,它们都会被验证,并且此方法可以维护数据完整性。
  • 直接(快): 在加载所有约束和键之前,它们都会被禁用。一旦数据加载完成,就会根据所有约束和键进行验证。如果数据无效,则不包含在索引中,并且所有后续进程都将在该数据中跳过。

5) 描述事实表和维度表中的外键列?

维度表的外键是实体表的主键。

事实表的外键是维度表的主键。


6) 什么是数据挖掘?

数据挖掘是从不同角度分析数据并将其汇总为有用数据的阶段。


7) 什么是商业智能?

商业智能定义了用于收集、集成、分析和展示业务数据,有时也包括数据本身的技术、功能和系统。商业智能的目的是提供更好的业务决策。因此,BI 也被定义为决策支持系统 (DSS)。


8) 什么是 OLTP?

OLTP 是在线事务处理的缩写。该系统是一个函数,它在接收到数据时会修改数据,并且拥有大量并发用户。


9) 什么是 OLAP?

OLAP 是在线分析处理的缩写。该系统是一个函数,它收集、管理、处理和展示多维数据以进行分析和管理过程。


10) OLTP 和 OLAP 有什么区别?

基本功能OLTPOLAP
含义OLTP 代表在线事务处理。OLAP 代表在线分析处理。 
数据源操作数据是数据的初始数据源。汇总数据来自不同来源。 
处理目标对执行基本业务任务的业务流程进行快照用于规划和决策的业务事件的多维视图 
查询和处理脚本客户运行的简单快速查询。由方案运行的复杂长时间运行查询,用于更新汇总数据。 
数据库设计规范化小型数据库。由于数据库较小,速度不是问题,规范化也不会降低性能。它采用了实体关系 (ER) 模型和面向函数的数据库设计。反规范化大型数据库。由于数据库较大,速度是一个问题,反规范化将提高性能,因为在执行任务时需要扫描的表会更少。它采用了星型、雪花型或事实星座模式的主题导向数据库设计。 
备份和系统管理定期数据库备份和系统管理可以完成工作。重新加载 OLTP 数据被认为是一个很好的备份选项。 
单击此处了解更多信息

11) 什么是 ODS?

ODS 是操作数据存储的缩写。一种数据库体系结构,它是近乎实时操作记录的存储库,而不是长期趋势数据。ODS 可能会进一步成为企业共享的操作数据库,允许正在重新设计的操作功能使用 ODS 作为其操作数据库。

单击此处了解更多信息

12) 什么是 ETL?

ETL 是提取、转换和加载过程的缩写。ETL 是一种软件,它允许企业在将数据从一个地方移动到另一个地方时开发其不同的记录,而数据是以多种形式或格式存在都没有关系。数据可以来自任何来源。ETL 足以处理这种数据差异。

首先,提取功能从特定的源数据库读取数据并提取所需的数据子集。

其次,转换功能使用规则或查找表处理获取的记录,或与与其他记录组合以将其转换为所需状态。

最后,加载功能用于将生成的信息写入目标数据库。

单击此处了解更多信息

13) 什么是 VLDB?

VLDB 是超大型数据库的缩写。一个 1TB 的数据库通常被认为是一个 VLDB。通常,存在为大量用户提供服务的决策支持应用程序或事务处理应用程序。


14) 什么是实时数据仓库?

数据仓库捕获业务事件数据。实时数据仓库在业务事件发生时捕获它。一旦业务事件完成并且有相关数据,完成的事件数据就会流入数据仓库并立即可用。


15) 什么是规范化维度?

规范化维度在所有可能与之连接的事实表中定义了完全相同的事物。它们是立方体的基础。


16) 什么是不可加事实?

不可加事实是不能按事实表中存在的任何维度进行检查的事实。它们并不被视为无用。如果维度发生转换,相同的事实可能会有用。


17) 什么是星型模型?

星型模型是一种组织表的方式,这样我们就可以在数据仓库环境中立即从数据库中获取结果。

单击此处了解更多信息

18) 什么是雪花模型?

任何具有扩展维度的维度都称为雪花模型,该维度可能与其他表相互连接或具有一对多关系。这种模型是规范化的,会导致复杂的连接和非常复杂的查询以及较慢的结果。

单击此处了解更多信息

19) 什么是代理键?

代理键是主键的替代项。它只是一个唯一的标识符或每个行的统计信息,可用作表的主键。代理主键的唯一要求是它在表中的每一行都唯一。这很有用,因为主键可能会更改,这会使更新更加困难。代理键始终是整数或数字。


20) 什么是垃圾维度?

许多非常小的维度可以合并形成一个单一维度,垃圾维度是指属性不紧密相关的维度。将随机标志和文本属性分组到维度中并将它们更改为单独的子维度称为垃圾维度。


21) 什么是维度建模?

维度数据模型概念包含两种类型的表,它与第三范式不同。该概念使用事实表(包含业务度量)和维度表(包含维度上下文(计算的维度))。

单击此处了解更多信息

22) 什么是 BUS Schema?

BUS Schema 是从一组标准的规范化维度和一个标准化的事实描述中收集的。


23) 什么是活动数据仓库?

活动数据仓库提供数据,使组织内的决策者能够有效地主动管理客户关系。


24) 数据仓库和商业智能有什么区别?

数据仓库处理管理数据仓库或数据市场的发展、实施和应用程序的所有方法,包括元数据管理、数据获取、数据清理、数据转换、存储管理、数据分发、数据归档、操作文档、分析文档、安全管理、备份/恢复计划等。

商业智能是一组软件工具,允许组织分析其业务的可衡量方法,例如销售业绩、盈利能力、运营效率、营销活动的效果、特定用户群体的市场渗透率、成本趋势、异常和例外等。商业智能用于包含 OLAP、数据可视化、数据挖掘和查询文档工具。


25) 哪个更快,多维 OLAP 还是关系 OLAP?

多维 OLAP (MOLAP) 比关系 OLAP (ROLAP) 更快。

  • MOLAP: 在这里,数据存储在多维立方体中。存储不在关系数据库中,而是在专有格式中(一个例子是 PowerOLAP 的 .olp 文件)。MOLAP 产品兼容 Excel,这可以使数据交互易于学习。
  • ROLAP: ROLAP 产品通过使用 SQL(结构化查询语言)来访问关系数据库,SQL 是用于描述和操作 RDBMS 中数据的标准语言。后续处理可能发生在 RDBMS 或中间层服务器内,该服务器接受用户的请求,将其转换为 SQL 语句,然后传递给 RDBMS。