Informatica ETL

17 Mar 2025 | 4 分钟阅读

Informatica ETL 用于数据提取,它基于数据仓库的概念,其中数据从多个不同的数据库中提取。

Informatica ETL

历史

Ab Initio 这家跨国软件公司发明了 ETL 工具。该公司位于马萨诸塞州列克星敦郊外。美国构建了基于 GUI 的并行处理软件,称为 ETL。

ETL 工具的实现

Informatica ETL

1. 提取 (Extract)

数据从不同的数据源提取。关系数据库、平面文件和 XML、信息管理系统 (IMS) 或其他数据结构都包含在标准数据源格式中。

即时数据验证用于确认从源提取的数据在给定域中是否具有正确的值。

2. 转换 (Transform)

为了准备并加载到目标数据源,我们对提取的数据应用了一组规则和逻辑函数。数据清理意味着将正确的数据传递到目标源。

根据业务需求,我们可以在数据中应用许多转换类型。一些转换类型是基于键的、基于列或行的、编码值和计算值、连接不同的数据源等等。

3. 加载 (Load)

在此阶段,我们将数据加载到目标数据源中。

所有三个阶段并不互相等待开始或结束。所有三个阶段都是并行执行的。

在实时业务中的应用

Informatica 公司为 ETL 提供数据集成产品,例如数据质量、数据屏蔽、数据虚拟化、主数据管理、数据复制等。Informatica ETL 是最常见的数据集成工具,用于连接和从不同的数据源获取数据。

为了使用此软件,下面给出了一些用例,例如

  1. 一个组织正在将新的数据库系统从现有的软件系统迁移。
  2. 为了在组织中建立数据仓库,需要将数据从生产环境移动到仓库。
  3. 它可以作为数据清洗工具,更正数据、检测或删除数据库中不准确的记录。

ETL 工具的特性

以下是 ETL 工具的一些基本特性,例如

1. 并行处理

ETL 是通过使用并行处理的概念来实现的。并行处理在同时运行的多个进程上执行。 ETL 在三种类型的并行性上工作,例如

  • 通过将单个文件拆分为更小的数据文件。
  • 管道允许在相同数据上同时运行多个组件。
  • 组件是可执行进程,它们同时在不同的数据上运行以完成相同的工作。

2. 数据重用、数据重新运行和数据恢复

每个数据行都提供一个 row_id,并且进程的一部分都提供一个 run_id,以便可以通过这些 id 跟踪数据。当我们创建检查点时,可以完成流程的某些阶段。 这些检查点告诉我们需要重新运行查询才能完成任务。

3. 可视化 ETL

PowerCenter 和 Metadata Messenger 是高级 ETL 工具。 这些工具可帮助根据业务需求更快地生成自动化且有影响力的结构化数据。

我们可以使用拖放机制创建数据库和元数据模块作为解决方案。 它可以自动配置、连接、提取、传输并将数据加载到目标系统。

ETL 工具的特点

ETL 工具的一些属性如下

  1. 它应该增加数据连接性和可扩展性。
  2. 它应该能够连接多个关系数据库。
  3. 它应该支持 CSV 扩展数据文件,这样最终用户可以轻松导入这些文件,而无需任何编码。
  4. 它应该具有用户友好的 GUI,以便最终用户可以使用可视化映射器轻松地集成数据。
  5. 它应该允许最终用户根据业务需求自定义数据模块。

为什么需要 ETL?

在创建数据仓库期间,将来自不同来源的数据汇集到一个地方是很常见的,这样就可以分析其模式和见解。 如果所有这些来源的数据从一开始就具有兼容的模式,那就没问题了,但这很少发生。

ETL 获取异构数据并使其同构。 如果没有 ETL,就不可能分析不同的数据并得出商业智能。

ETL 工具产品和服务

Informatica -ETL 产品和服务用于改进业务运营、减少大数据管理、提供高度的数据安全性、在不可预见的情况下进行数据恢复以及自动化开发和艺术化设计可视化数据的过程。 ETL 工具产品和服务分为以下几类

  1. ETL 与大数据
  2. ETL 与云
  3. ETL 与 SAS
  4. ETL 与 HADOOP
  5. ETL 与元数据
  6. ETL 作为自助服务访问
  7. 移动优化解决方案等等。

为什么 ETL 工具如此流行?

ETL 工具之所以如此流行的原因有以下几点,例如

  1. ETL 工具具有准确的自动化部署。
  2. 它最大限度地降低了采用新技术的风险。
  3. 它提供高度安全的数据。
  4. 它是自主拥有的。
  5. 它包括从数据灾难中恢复。
  6. 它提供数据监控和数据维护。
  7. 它具有吸引人的艺术化可视化数据交付。
  8. 它支持集中式和基于云的服务器。
  9. 它提供具体的数据固件保护。

ETL 工具的副作用

组织不断依赖数据集成工具。 它是一台机器,只有在收到编程输入后才能工作。

存在系统完全崩溃的风险,这说明数据恢复系统构建得有多好。 任何对简单数据的滥用都可能给组织造成巨大损失。


下一主题Informatica 转换