ETL 管道

2025年3月17日 | 阅读 3 分钟

ETL 管道指的是一系列流程,这些流程从输入源提取数据,转换数据并加载到输出目的地,例如数据集市、数据库和数据仓库,以进行分析、报告和数据同步。

ETL Pipeline

ETL 代表提取(Extract)、转换(Transform)和加载(Load)。

提取(Extract)

在此阶段,数据从各种异构源(如业务系统、营销工具、传感器数据、API 和事务数据库)中提取。

转换(Transform)

第二步是将数据转换为不同应用程序使用的格式。 在此阶段,我们将数据从数据存储的格式更改为不同应用程序中使用的格式。 成功提取数据后,我们将数据转换为用于标准化处理的形式。 ETL 过程中使用了各种工具,例如 Data Stage、Informatica 或 SQL Server Integration Services。

加载

这是 ETL 过程的最后阶段。 在这里,信息以一致的格式提供。 现在我们可以获得任何特定的数据片段,并将其与其他部分数据进行比较。

数据仓库可以自动更新或手动触发。

这些步骤在仓库之间根据需求执行。 作为过程的一部分,数据至少临时存储在一组暂存表中。

但是,当数据加载到数据库或数据仓库时,数据管道不会结束。 ETL 目前正在增长,以便它可以支持跨事务系统、操作数据存储、MDM 中心、云和 Hadoop 平台的集成。 由于非结构化数据的增长,数据转换过程变得更加复杂。 例如,现代数据过程包括实时数据,例如来自广泛的电子商务网站的 Web 分析数据。 Hadoop 是大数据的同义词。 开发了几种基于 Hadoop 的工具来处理 ETL 过程的不同方面。 我们可以使用的工具取决于数据的结构方式,是批处理还是处理数据流。

ETL 管道和数据管道之间的区别

虽然 ETL 管道和数据管道几乎执行相同的活动。 它们跨平台移动数据并以某种方式转换数据。 主要区别在于构建管道的应用程序。

ETL 管道

ETL 管道是为数据仓库应用程序构建的,包括企业数据仓库以及特定主题的数据集市。 当新应用程序替换传统应用程序时,ETL 管道也用于数据迁移解决方案。 ETL 管道通常使用擅长转换结构化数据的行业标准 ETL 工具构建。

ETL Pipeline

数据管道或商业智能工程师构建 ETL 管道。

数据管道

数据管道可以为任何使用数据来带来价值的应用程序构建。 它可以用于跨应用程序集成数据、构建数据驱动的 Web 产品、构建预测模型、创建实时数据流应用程序、执行数据挖掘活动、在数字产品中构建数据驱动的功能。 由于开放源代码大数据技术的可用性,数据管道的使用在过去十年中有所增加,该技术用于构建数据管道。 这些技术能够转换非结构化数据以及结构化数据。

数据工程师构建数据管道。

ETL 管道和数据管道之间的区别是

ETL 管道数据管道
ETL 管道定义为从一个系统提取数据、转换数据并将其加载到某些数据库或数据仓库的过程。数据管道是指将数据从一个系统移动到另一个系统并在过程中转换数据的所有处理元素的集合。
ETL 管道意味着该管道以批处理方式工作。 例如 - 管道每 12 小时运行一次。数据管道也可以作为流评估运行(即,每个事件都会在其发生时处理)。 数据管道的类型是 ELT 管道(将整个数据加载到数据仓库并在以后转换它)。

下一个主题ETL 文件