Azure 数据工厂2025年3月17日 | 阅读 3 分钟 Azure 数据工厂是一个基于云的数据集成服务,它允许我们在云中创建数据驱动的工作流,用于编排和自动化数据移动和数据转换。数据工厂是云上一个完美的 ETL 工具。数据工厂旨在在云中提供提取、转换和加载流程。ETL 流程通常涉及四个步骤  - 连接 & 收集: 我们可以使用数据管道中的复制活动从本地和云源数据存储中移动数据。
- 转换: 一旦数据存在于云中的集中式数据存储中,就可以使用计算服务(如 HDInsight Hadoop、Spark、Data Lake Analytics 和机器学习)来处理或转换收集的数据。
- 发布: 将原始数据优化为业务就绪的可消费形式后,它会将数据加载到 Azure 数据仓库、Azure SQL 数据库和 Azure Cosmos DB 等中。
- 监控: Azure 数据工厂通过 Azure Monitor、API、PowerShell、Log Analytics 和 Azure 门户上的运行状况面板提供对管道监控的内置支持。
数据工厂的组成部分数据工厂由四个关键要素组成。 所有这些组件协同工作,以提供一个平台,您可以在该平台上形成一个数据驱动的工作流,其中包含移动和转换数据的结构。 - 管道: 一个数据工厂可以有一个或多个管道。它是执行一个工作单元的活动的逻辑分组。管道中的活动共同执行任务。例如 - 一个管道可以包含一组活动,这些活动从 Azure blob 中摄取数据,然后在 HDInsight 群集上运行 Hive 查询以对数据进行分区。
- 活动: 它表示管道中的处理步骤。 例如 - 我们可以使用复制活动将数据从一个数据存储复制到另一个数据存储。
- 数据集: 它表示数据存储中的数据结构,这些数据结构指向或引用我们希望在活动中用作 I/O 的数据。
- 链接服务: 它类似于连接字符串,它定义了数据工厂连接到外部资源所需的连接信息。链接服务可以是数据存储和计算资源。链接服务可以是到数据存储或计算资源的链接。
- 触发器: 它表示确定何时需要禁用管道执行的处理单元。我们还可以安排这些活动在某个时间点执行,并且可以使用触发器来禁用活动。
- 控制流: 它是管道活动的编排,包括按顺序链接活动、分支、在管道级别定义参数以及在按需或从触发器调用管道时传递参数。我们可以使用控制流来对某些活动进行排序,还可以定义每个活动需要传递哪些参数。
使用 Azure 门户创建 Azure 数据工厂步骤 1: 单击创建资源并搜索数据工厂,然后单击创建。  步骤 2: 为您的数据工厂提供一个名称,选择资源组,然后选择您要部署数据工厂的位置和版本。  步骤 3: 填写所有详细信息后,单击创建。  Azure 数据工厂完全有一个不同的门户,如下图所示。 
|