Talend 数据集成 Job 设计

2024年11月14日 | 阅读7分钟

在本节中,我们准备在 Talend studio 中创建我们的第一个 Job。

业务模型的可运行层是 Job 设计。当一个或多个组件连接在一起时,它表示图形化设计,允许我们设置和运行数据流管理过程。

Job 设计有助于将业务需求转化为代码、例程和程序,基本上它用于实现我们的数据流。

我们设计的 Job 可以关联我们所需的所有各种源和目标,用于数据集成和任何其他相关过程。

在设计 Job 时,我们可以执行许多操作,例如:

  • 我们可以设置组件之间的连接和关系,以定义动作的顺序和性质。
  • 我们可以更改组件的默认设置,以及创建符合我们确切需求的新组件。
  • 要编辑组件,我们可以随时访问代码。
  • 我们可以设计并将项目添加到存储库中,以供重复使用和共享。

注意:我们需要安装 Oracle JVM 1.8(不支持 IBM JVM,以执行我们的 Job)。
请参阅以下链接下载 Oracle JVM:
https://www.oracle.com/technetwork/java/javase/downloads/index.html

请按照以下步骤在 Talend studio 中为数据集成平台设计 Job:

  • 创建新 Job
  • 添加组件
  • 连接组件
  • 配置组件
  • 执行 Job

创建新 Job

步骤 1

  • 打开 Talend Open Studio for Data Integration 平台。
  • 转到 **存储库面板**,右键单击 **Job 设计**,然后选择 **创建 Job**,如下图所示:
Talend Data integration Job Designing

步骤 2

  • 新 Job 窗口将打开,我们在其中填写 **名称**、**目的** 和 **描述** 等详细信息,然后单击 **完成** 按钮,如下图所示:
Talend Data integration Job Designing
  • Job 已在 **Job Designs** 部分下创建,如下图所示:
Talend Data integration Job Designing

添加组件

Job 设计的下一阶段是添加组件,我们将在此添加、连接和配置组件。

步骤 3

要 **添加 Job 的组件**,我们将直接转到 **Palette 面板**,其中有许多可用的组件。

或者,我们也可以使用搜索字段输入组件名称并选择它。

例如,我们将从 **File** 组件的 **Input** 中选择 **tFileInputExcel**。

Palette → File → Input → tFileInputExcel

Talend Data integration Job Designing

步骤 4

  • 由于我们正在将 Excel 文件作为输入,我们将从 Palette 面板中拖动 **tFileInputExcel** 组件,并将其放到 Design workspace 窗口中,如下图所示:
Talend Data integration Job Designing

步骤 5

  • 现在,在下一步中,我们将单击 Design workspace 窗口中的任意位置。
  • 将出现一个搜索框,然后键入 **tLogRow** 并从列表中选择它,所选组件将显示在 Design workspace 窗口中,如下图所示:
Talend Data integration Job Designing

注意
tLogRow 用于在运行的 Job 控制台中显示流程内容(行)。

步骤 6

  • 在下一步中,我们将最终从 **Palette 面板** 拖动 **tFileOutputExcel** 组件,并将其放到 Design workspace 窗口中,如下图所示:
Talend Data integration Job Designing

到目前为止,我们已经完成了 Job 组件的添加,并且我们的 Design workspace 将看起来像这样:

Talend Data integration Job Designing

连接组件

成功添加组件后,我们将连接组件。

要连接组件,请按照以下步骤操作:

步骤 7

  • 右键单击第一个组件 tFileInputExcel,然后使用行连接将它们连接起来,如下图所示:
    Row → Main
Talend Data integration Job Designing
  • **row1 (main)** 连接已建立,如下图所示:
Talend Data integration Job Designing

步骤8

  • 然后,右键单击 **tLogRow**,并使用行连接将其主线绘制到 **tFileOutputExcel** 组件,如下图所示:
Talend Data integration Job Designing

到目前为止,我们已成功连接了 Job 的组件。

配置组件

在添加和连接组件后,我们将进入下一阶段,即配置组件。

步骤 9

  • 要配置组件,请双击第一个组件 **tFileInputExcel**,并在 **File name/stream** 中输入我们的 **输入文件** 路径,如果 Excel 文件的第一行有列名,则在 **Header** 列中输入 1,如下图所示:
Talend Data integration Job Designing

步骤 10

  • 之后,单击 **Edit schema**,我们可以在其中根据输入 Excel 文件添加列及其类型。
  • 添加模式后,单击 **Ok** 按钮,如下图所示:
Talend Data integration Job Designing

步骤 11

  • 然后,单击 **Yes** 按钮以传播上述更改。
Talend Data integration Job Designing

Step12

现在,转到 **tLogRow_1** 组件,单击 **sync columns**,然后选择我们希望生成行的 **Mode**。

为此,我们将选择 **Mode** 为 basic,并将 "|" 作为字段分隔符,如下图所示:

Talend Data integration Job Designing

Step13

之后,转到 **tFileOutputExcel** 组件,并通过提供路径来存储它。

在 **Sheet Name** 字段中,将输出 Excel 文件的工作表名称提供为 **"Sheet1"**,然后单击 **Sync columns**。

Talend Data integration Job Designing

执行 Job

完成组件的添加、连接和配置后,我们将准备执行我们的第一个 Talend Job。

Step14

要执行 Job,请单击 **Run** 按钮,如下图所示:

Talend Data integration Job Designing

我们可以看到 **FirstJob** 的执行正在开始,如下图所示:

Talend Data integration Job Designing

我们还可以看到输出是以 basic Mode **"|"** 分隔的。

Talend Data integration Job Designing

我们的输出文件以 Excel 格式保存在给定的输出路径中,如下图所示:

Talend Data integration Job Designing

Talend 处理 Job 执行

在本节中,我们将学习如何处理 Job 执行。

  • 要控制 Job 执行的实现,我们将考虑上面的示例。
  • 在 **Repository 面板** 中右键单击 Job,然后选择 **Build Job** 选项卡,如下图所示:
Talend Data integration Job Designing
  • 之后,将打开 Build Job 窗口,我们可以在 **TO archive file** 字段中为 Job 提供路径,在 **Job Version** 部分更改 Job 的版本,我们还可以选择 **Build type** 中的构建类型。
  • 然后,单击 **Finish**。
Talend Data integration Job Designing

以正常模式运行 Job

要以正常模式运行 Job,请按照以下步骤操作:

从 **Run (Job FirstJob)** 中选择 **Basic run** 选项,然后单击 **Run 按钮** 开始执行,如下图所示:

Talend Data integration Job Designing

以调试模式运行 Job

为了识别 Job 执行中可能存在的 bug,我们将以调试模式运行 Job。

要在调试模式下运行 Job,Talend studio 中有两种可用选项:

  • Trace debug
  • Java debug

Trace debug

Trace 功能允许我们在 Talend studio for data integration 平台中运行 Job 时监控数据处理。

它为我们提供了组件行为的逐行视图,并在 Design workspace 窗口的行链接上显示动态结果。

要访问 Trace debug 模式,请按照以下步骤操作:

  • 单击 **Run view** 进行访问。
  • 单击 **Debug Run** 选项卡以访问调试执行模式,并选择 **Trace debug** 以在 trace 模式下执行 Job。
Talend Data integration Job Designing

调试 Job 后,我们的 Design workspace 窗口将看起来像这样:

Talend Data integration Job Designing

Java debug

在以 java Debug 模式运行 Job 之前,首要步骤是添加断点。

要 **为要调试的组件添加断点**,请按照以下步骤操作:

  • 在 Design workspace 中右键单击组件,然后在弹出菜单中选择 **add breakpoint**。

这将允许 Job 自动在每个断点处停止。

Talend Data integration Job Designing
  • 我们可以逐步运行 Job,并检查每个断点组件的预期行为及其变量值。
  • 并可以看到我们已将断点添加到 **tFileInputExcel** 和 **tLogRow**。
Talend Data integration Job Designing
  • 添加断点后,转到 **run panel** 的 **debug button** 并选择 **Java Debug**。
Talend Data integration Job Designing
  • 从下面的截图我们可以注意到,**FirstJob** 正在根据断点以调试模式执行。
Talend Data integration Job Designing

高级设置

**Run** 视图中的 **advance setting** 选项卡包含各种高级执行设置,可用于处理 Job 的执行。

高级设置包含 **statistics、exec time、save Job before execution、clear before run 和 JVM setting** 等功能。每个都有其功能,如下所示:

  • **Statistics:** Statistics 用于显示处理速率。
  • **Exec time:** 这些功能在执行结束时在控制台中显示执行时间。
  • **Save Job before Execution:** 它将在执行开始前自动保存 Job。
  • **Clear before run:** 此功能将在重新执行 Job 之前清除前一个执行的所有结果。
  • **JVM settings:** JVM 设置帮助我们配置 java 参数。
Talend Data integration Job Designing
下一主题管理 Job