Informatica IDQ

17 Mar 2025 | 6 分钟阅读

Informatica Data Quality 是一套应用程序和组件,我们可以将其与 Informatica PowerCenter 集成,以便在各种场景中提供企业级的数据质量功能。

IDQ 具有以下核心组件,例如

  • Data Quality Workbench
  • Data Quality Server

Data Quality Workbench:用于设计、测试和部署数据质量流程。 Workbench 允许根据需要测试和执行计划,从而实现快速的数据调查和数据质量方法的测试。

Data Quality Server:用于启用计划和文件共享以及在网络环境中运行程序。 Data Quality Server 通过服务域支持网络,并通过 TCP/IP 与 Workbench 通信。

Workbench 和 Server 都安装有 Data Quality 引擎和 Data Quality 存储库。 用户无法使用 Server 创建或编辑程序,尽管用户可以通过运行时命令或从 PowerCenter 独立于 Workbench 运行程序到任何 Data Quality 引擎。

用户可以在将数据质量项目运行到 Data Quality 引擎时应用参数文件,这些文件修改程序操作。 Informatica 还为 PowerCenter 提供了 Data Quality 集成插件。

在 Data Quality 中,一个项目是一组自包含的数据分析或数据增强流程。

一个项目由以下一种或多种类型的组件组成,例如

  • 数据源提供程序的输入数据。
  • 数据接收器收集程序输出的数据。
  • 操作组件对它们接收的数据执行数据分析或数据增强操作。

IDQ 一直是数据质量 (DQ) 工具市场的领跑者。 它将提供对这些工具提供的功能的概述。

IDQ 有两种类型,例如

  • Informatica Analyst
  • Informatica Developer

Informatica analyst:它是一个基于 Web 的工具,可供业务分析师和开发人员使用,用于在企业中分析、分析、清理、标准化和评分数据。

Informatica developer:它是一个基于客户端的工具,开发人员可以在其中创建映射以实现数据质量转换或服务。 此工具提供了一个编辑器,可以在其中构建具有各种数据质量转换的对象,例如解析器、标准化器、地址验证器、匹配合并等。

一次开发,随处部署:这两个工具都可用于创建 DQ 规则或映射,并可以实现为 Web 服务。 将 DQ 转换部署为服务后,它们可以在整个企业和平台上使用。

字典的作用

项目可以使用参考字典来识别、修复或删除不准确或重复的数据值。 Informatica Data Quality 项目可以使用三种类型的参考数据。

标准字典文件:这些文件随 Informatica Data Quality 一起安装,可供 Workbench 中各种类型的组件使用。 所有随 Data Quality 安装的字典都是文本字典。 这些是保存为 .DIC 文件格式的纯文本文件。 它们可以手动创建和编辑。

数据库字典: 具有数据库专业知识的 Informatica Data Quality 用户可以设计和指定链接到数据库表的字典,并且可以在基础数据更新时动态更新这些字典。

第三方参考数据: 这些数据文件由第三方提供,并由 Informatica 客户作为高级产品选项提供。 第三方供应商提供的参考数据通常采用数据库格式。

如何将 IDQ 与 MDM 集成

数据清洗和标准化是任何 MDM 项目的重要组成部分。 Informatica MDM 多域版本 (MDE) 提供了相当数量的开箱即用的清洗功能。 然而,当 OOTB 清洗功能不够用时,需要综合功能来实现数据清洗和标准化,例如地址验证、序列生成,存在要求。 Informatica Data Quality (IDQ) 提供了广泛的清洗和标准化选项。 IDQ 可以很容易地与 Informatica MDM 一起使用。

有三种方法可以将 IDQ 与 Informatica MDM 集成。

  1. Informatica 平台分期
  2. IDQ 清洗库
  3. Informatica MDM 作为目标

1. Informatica 平台分期

从 Informatica MDM 的多域版本 (MDE) 10.x 版本开始,Informatica 在 MDM 中引入了一个名为“Informatica 平台分期”的新功能,以与 IDQ(开发人员工具)集成。 此功能允许使用 IDQ 映射将数据直接暂存或清洗到 MDM 的阶段表中,从而绕过登录表。

Informatica IDQ

优点

  • 同步后,开发人员工具可以立即使用阶段表,无需手动创建物理数据对象。
  • 对同步结构的更改将自动反映在开发人员工具中。
  • 支持将数据加载到 Informatica MDM 的阶段表中,从而绕过登录表。

缺点

  • 为开发人员工具中的每个基本对象文件夹创建连接可能不方便维护。
  • 集线器阶段选项(如 Delta 检测、硬删除检测和审核跟踪)不可用。
  • 系统生成的列需要手动填充。
  • 被拒绝的记录不会在相应阶段表的 _REJ 表中捕获,而是被捕获在 .bad 文件中。
  • 无效的查找值在数据加载到阶段时不会被拒绝,这与 Hub 阶段流程不同。 具有无效值的记录被拒绝并被 Hub Load 流程捕获。

2. IDQ 清洗库

IDQ 允许我们将功能创建为操作映射,并将它们部署为 Web 服务,然后可以在 Informatica MDM Hub 实现中将其导入为一种新类型的清洗库,定义为 IDQ 清洗库。 此功能允许使用导入的 IDQ 清洗功能,就像任何其他开箱即用的清洗功能一样。 Informatica MDM Hub 充当使用 IDQ 的 Web 服务的 Web 服务客户端应用程序。

Informatica IDQ

优点

  • 在 IDQ 的 Informatica Developer 工具中快速构建转换,而不是创建复杂的 java 函数。
  • 与 Informatica 平台分期不同,Hub 阶段流程选项(如增量检测、硬删除检测、审核跟踪)可供使用。

缺点

  • 需要为每个阶段表手动创建物理数据对象,并且手动更新对表的任何更改。
  • IDQ 函数必须包含所有转换逻辑才能利用记录的批处理。 如果在 MDM 地图中另外定义了任何转换逻辑,则对 IDQ Web 服务的调用将是单条记录,从而导致性能问题。
  • Web 服务调用仅是同步的,这对于大量数据而言可能是一个问题。

3. Informatica MDM 作为目标

3.1 加载数据登录表

Informatica MDM 可用作将数据加载到 Informatica MDM 中的登录表的 [目标]。

Informatica IDQ

优点

  • 与使用 Informatica 平台分期创建多个连接相比,在开发人员工具中创建的单个连接不太麻烦。
  • 无需在 Hub 阶段流程中对数据进行标准化。
  • 与 Informatica 平台分期不同,可以使用 Hub 阶段流程选项 - 增量检测、硬删除检测、审核跟踪。

缺点

  • 需要为每个登录表手动创建物理数据对象,并且手动更新对表的任何更改。
  • 需要在两个级别(i)源到登录,(ii)登录到阶段(直接映射)开发映射。

3.2 加载数据阶段表(绕过登录表)

Informatica MDM 可用作将数据直接加载到 Informatica MDM 中的阶段表中,从而绕过登录表。

Informatica IDQ

优点

  • 与使用 Informatica 平台分期创建多个连接相比,在开发人员工具中创建的单个连接不太麻烦。
  • 它可用于较低版本的 Informatica MDM,其中 Informatica 平台分期选项不可用。

缺点

  • 需要为每个阶段表手动创建物理数据对象,并且手动更新对表的任何更改。
  • Hub 阶段增量检测、硬删除检测和审核跟踪选项不可用。
  • 系统生成的列需要手动填充。
  • 被拒绝的记录不会在相应阶段表的 _REJ 表中捕获,而是被捕获在 .bad 文件中。
  • 无效的查找值在数据加载到阶段时不会被拒绝,这与 Hub 阶段流程不同。 具有无效值的记录被拒绝并被 Hub Load 流程捕获。

下一主题Informatica 职业