Talend 数据集成 Job 设计2024年11月14日 | 阅读7分钟 在本节中,我们准备在 Talend studio 中创建我们的第一个 Job。 业务模型的可运行层是 Job 设计。当一个或多个组件连接在一起时,它表示图形化设计,允许我们设置和运行数据流管理过程。 Job 设计有助于将业务需求转化为代码、例程和程序,基本上它用于实现我们的数据流。 我们设计的 Job 可以关联我们所需的所有各种源和目标,用于数据集成和任何其他相关过程。 在设计 Job 时,我们可以执行许多操作,例如: - 我们可以设置组件之间的连接和关系,以定义动作的顺序和性质。
- 我们可以更改组件的默认设置,以及创建符合我们确切需求的新组件。
- 要编辑组件,我们可以随时访问代码。
- 我们可以设计并将项目添加到存储库中,以供重复使用和共享。
注意:我们需要安装 Oracle JVM 1.8(不支持 IBM JVM,以执行我们的 Job)。 请参阅以下链接下载 Oracle JVM: https://www.oracle.com/technetwork/java/javase/downloads/index.html请按照以下步骤在 Talend studio 中为数据集成平台设计 Job: - 创建新 Job
- 添加组件
- 连接组件
- 配置组件
- 执行 Job
创建新 Job步骤 1 - 打开 Talend Open Studio for Data Integration 平台。
- 转到 **存储库面板**,右键单击 **Job 设计**,然后选择 **创建 Job**,如下图所示:
 步骤 2 - 新 Job 窗口将打开,我们在其中填写 **名称**、**目的** 和 **描述** 等详细信息,然后单击 **完成** 按钮,如下图所示:
 - Job 已在 **Job Designs** 部分下创建,如下图所示:
 添加组件Job 设计的下一阶段是添加组件,我们将在此添加、连接和配置组件。 步骤 3 要 **添加 Job 的组件**,我们将直接转到 **Palette 面板**,其中有许多可用的组件。 或者,我们也可以使用搜索字段输入组件名称并选择它。 例如,我们将从 **File** 组件的 **Input** 中选择 **tFileInputExcel**。 Palette → File → Input → tFileInputExcel  步骤 4 - 由于我们正在将 Excel 文件作为输入,我们将从 Palette 面板中拖动 **tFileInputExcel** 组件,并将其放到 Design workspace 窗口中,如下图所示:
 步骤 5 - 现在,在下一步中,我们将单击 Design workspace 窗口中的任意位置。
- 将出现一个搜索框,然后键入 **tLogRow** 并从列表中选择它,所选组件将显示在 Design workspace 窗口中,如下图所示:
 注意 tLogRow 用于在运行的 Job 控制台中显示流程内容(行)。步骤 6 - 在下一步中,我们将最终从 **Palette 面板** 拖动 **tFileOutputExcel** 组件,并将其放到 Design workspace 窗口中,如下图所示:
 到目前为止,我们已经完成了 Job 组件的添加,并且我们的 Design workspace 将看起来像这样:  连接组件成功添加组件后,我们将连接组件。 要连接组件,请按照以下步骤操作: 步骤 7 - 右键单击第一个组件 tFileInputExcel,然后使用行连接将它们连接起来,如下图所示:
Row → Main
 - **row1 (main)** 连接已建立,如下图所示:
 步骤8 - 然后,右键单击 **tLogRow**,并使用行连接将其主线绘制到 **tFileOutputExcel** 组件,如下图所示:
 到目前为止,我们已成功连接了 Job 的组件。 配置组件在添加和连接组件后,我们将进入下一阶段,即配置组件。 步骤 9 - 要配置组件,请双击第一个组件 **tFileInputExcel**,并在 **File name/stream** 中输入我们的 **输入文件** 路径,如果 Excel 文件的第一行有列名,则在 **Header** 列中输入 1,如下图所示:
 步骤 10 - 之后,单击 **Edit schema**,我们可以在其中根据输入 Excel 文件添加列及其类型。
- 添加模式后,单击 **Ok** 按钮,如下图所示:
 步骤 11  Step12 现在,转到 **tLogRow_1** 组件,单击 **sync columns**,然后选择我们希望生成行的 **Mode**。 为此,我们将选择 **Mode** 为 basic,并将 "|" 作为字段分隔符,如下图所示:  Step13 之后,转到 **tFileOutputExcel** 组件,并通过提供路径来存储它。 在 **Sheet Name** 字段中,将输出 Excel 文件的工作表名称提供为 **"Sheet1"**,然后单击 **Sync columns**。  执行 Job完成组件的添加、连接和配置后,我们将准备执行我们的第一个 Talend Job。 Step14 要执行 Job,请单击 **Run** 按钮,如下图所示:  我们可以看到 **FirstJob** 的执行正在开始,如下图所示:  我们还可以看到输出是以 basic Mode **"|"** 分隔的。  我们的输出文件以 Excel 格式保存在给定的输出路径中,如下图所示:  Talend 处理 Job 执行在本节中,我们将学习如何处理 Job 执行。 - 要控制 Job 执行的实现,我们将考虑上面的示例。
- 在 **Repository 面板** 中右键单击 Job,然后选择 **Build Job** 选项卡,如下图所示:
 - 之后,将打开 Build Job 窗口,我们可以在 **TO archive file** 字段中为 Job 提供路径,在 **Job Version** 部分更改 Job 的版本,我们还可以选择 **Build type** 中的构建类型。
- 然后,单击 **Finish**。
 以正常模式运行 Job要以正常模式运行 Job,请按照以下步骤操作: 从 **Run (Job FirstJob)** 中选择 **Basic run** 选项,然后单击 **Run 按钮** 开始执行,如下图所示:  以调试模式运行 Job为了识别 Job 执行中可能存在的 bug,我们将以调试模式运行 Job。 要在调试模式下运行 Job,Talend studio 中有两种可用选项: Trace debugTrace 功能允许我们在 Talend studio for data integration 平台中运行 Job 时监控数据处理。 它为我们提供了组件行为的逐行视图,并在 Design workspace 窗口的行链接上显示动态结果。 要访问 Trace debug 模式,请按照以下步骤操作: - 单击 **Run view** 进行访问。
- 单击 **Debug Run** 选项卡以访问调试执行模式,并选择 **Trace debug** 以在 trace 模式下执行 Job。
 调试 Job 后,我们的 Design workspace 窗口将看起来像这样:  Java debug在以 java Debug 模式运行 Job 之前,首要步骤是添加断点。 要 **为要调试的组件添加断点**,请按照以下步骤操作: - 在 Design workspace 中右键单击组件,然后在弹出菜单中选择 **add breakpoint**。
这将允许 Job 自动在每个断点处停止。  - 我们可以逐步运行 Job,并检查每个断点组件的预期行为及其变量值。
- 并可以看到我们已将断点添加到 **tFileInputExcel** 和 **tLogRow**。
 - 添加断点后,转到 **run panel** 的 **debug button** 并选择 **Java Debug**。
 - 从下面的截图我们可以注意到,**FirstJob** 正在根据断点以调试模式执行。
 高级设置**Run** 视图中的 **advance setting** 选项卡包含各种高级执行设置,可用于处理 Job 的执行。 高级设置包含 **statistics、exec time、save Job before execution、clear before run 和 JVM setting** 等功能。每个都有其功能,如下所示: - **Statistics:** Statistics 用于显示处理速率。
- **Exec time:** 这些功能在执行结束时在控制台中显示执行时间。
- **Save Job before Execution:** 它将在执行开始前自动保存 Job。
- **Clear before run:** 此功能将在重新执行 Job 之前清除前一个执行的所有结果。
- **JVM settings:** JVM 设置帮助我们配置 java 参数。

|