什么是元数据?

17 Mar 2025 | 5 分钟阅读

元数据是关于数据的数据,或者说是用户所需信息的文档。在数据仓库中,元数据是必不可少的一个方面。

元数据包括以下内容

  1. 仓库系统和组件的位置和描述。
  2. 数据仓库和最终用户视图的名称、定义、结构和内容。
  3. 权威数据源的标识。
  4. 用于填充数据的集成和转换规则。
  5. 用于将信息传递给最终用户分析工具的集成和转换规则。
  6. 用于向分析订阅者传递信息的信息订阅信息。
  7. 用于分析仓库使用情况和性能的指标。
  8. 安全授权、访问控制列表等。

元数据用于构建、维护、管理和使用数据仓库。元数据允许用户访问以帮助理解内容和查找数据。

元数据的几个例子是

  1. 图书馆目录可以被认为是元数据。目录元数据由几个表示资源特定属性的预定义组件组成,每个项目可以有一个或多个值。这些组件可以是作者的姓名、文档的名称、出版商的名称、出版日期以及它所属的方法。
  2. 书中的目录和索引可以被认为是该书的元数据。
  3. 假设我们说一个关于人的数据项是 80。这必须通过指出它是人的体重并且单位是公斤来定义。因此,(体重,公斤) 是关于数据 80 的元数据。
  4. 元数据的另一个例子是关于报告(如本书)中表格和图表的数据。一个表(一个记录)有一个名称(例如,表标题),并且有可以被视为元数据的表的列名。图表也有标题或名称。

为什么元数据在数据仓库中是必要的?

  • 首先,它充当连接数据仓库所有部分的粘合剂。
  • 其次,它为开发人员提供关于内容和结构的信息。
  • 最后,它向最终用户敞开了大门,并使内容以他们的术语被识别。

元数据就像一个神经中枢。数据仓库构建和管理过程中的各种过程都会生成数据仓库元数据的一部分。另一个使用一个过程生成的元数据部分。在数据仓库中,元数据占据关键地位,并实现各种方法之间的通信。它充当数据仓库中的神经中枢。

图显示了元数据在数据仓库中的位置。

What is Meta Data

元数据的类型

数据仓库中的元数据分为三个主要部分

  • 操作元数据
  • 提取和转换元数据
  • 最终用户元数据

操作元数据

我们知道,数据仓库的数据来自企业的各种运营系统。这些源系统包括不同的数据结构。为数据仓库选择的数据元素具有不同的字段长度和数据类型。

在从源系统为数据仓库选择信息时,我们划分记录,组合来自不同源文件的文档因子,并处理多种编码方案和字段长度。当我们向最终用户交付信息时,我们必须能够将其与源数据集联系起来。操作元数据包含有关操作数据源的所有这些信息。

提取和转换元数据

提取和转换元数据包括有关从源系统中删除数据的数据,即提取频率、提取方法以及数据提取的业务规则。此外,此类元数据包含有关在数据暂存区中发生的所有数据转换的信息。

最终用户元数据

最终用户元数据是数据仓库的导航图。它使最终用户能够从数据仓库中查找数据。最终用户元数据允许最终用户使用他们的业务术语并以他们通常考虑业务的方式查找信息。

元数据交换倡议

提出元数据交换倡议是为了将行业供应商和用户聚集在一起,以解决与交换、共享和管理元数据相关的一系列严重问题。元数据交换标准的目标是定义一种可扩展的机制,该机制将允许供应商交换标准元数据以及携带“专有”元数据。创始成员同意以下初始目标

  1. 为元数据创建独立于供应商、行业定义和维护的标准访问机制和应用程序编程接口 (API)。
  2. 使最终用户能够通过使用符合交换标准的工具来控制和管理其独特环境中元数据的访问和操作。
  3. 允许用户构建满足其需求的工具,并使他们能够相应地调整这些工具配置。
  4. 允许各个工具在其交换模型的内容中自由高效地满足其元数据要求。
  5. 描述一个简单、干净的实现基础设施,这将有助于合规性,并通过最大限度地减少修改量来加快采用速度。
  6. 不仅创建维护和建立交换标准规范的程序和流程,而且随时间推移更新和扩展它。

元数据交换标准框架

交换标准元数据模型实现假设元数据本身可以存储在任何类型的存储格式中:ASCII 文件、关系表、固定或自定义格式等。

它是一个基于框架的框架,该框架会将访问请求转换为标准交换索引。

元数据交换联盟提出了几种方法

  • 程序方法
  • ASCII 批处理方法
  • 混合方法

程序方法中,与 API 的通信被构建到工具中。它实现了最高程度的灵活性。

ASCII 批处理方法中,不是依赖于包含各种元数据项信息的 ASCII 文件格式,而是依赖于构成交换标准元数据模型的标准化访问要求。

混合方法中,它遵循数据驱动模型。

元数据交换标准框架的组件

1) 标准元数据模型:它指的是用于表示正在交换的元数据的 ASCII 文件格式。

What is Meta Data

2) 描述最小数量的 API 函数的标准访问框架

3) 由每个工具供应商提供的工具配置文件。

4) 用户配置是一个文件,解释了用户环境中元数据的合法交换路径。

元数据存储库

元数据本身存储在元数据存储库中并由其控制。元数据存储库管理软件可用于将源数据映射到目标数据库,集成和转换数据,为数据转换生成代码,以及将数据移动到仓库中。

元数据存储库的优势

  1. 它为企业范围内的元数据管理提供了一组工具。
  2. 它消除了并减少了不一致性、冗余和未充分利用。
  3. 它改善了组织控制,简化了信息资产的管理和核算。
  4. 它提高了信息资产的协调、理解、识别和利用率。
  5. 它通过共享和重用元数据来实施 CASE 开发标准。
  6. 它利用对旧系统的投资并利用现有应用程序。
  7. 它为异构 RDBMS 提供了共享信息的关联模型。
  8. 它提供了有用的数据管理工具,可以使用数据字典管理公司信息资产。
  9. 它提高了应用程序开发过程的可靠性、控制和灵活性。