集中管理文件分隔元数据

17 Mar 2025 | 4 分钟阅读

在本节中,我们将学习如何在 Talend Studio 中集中管理用于数据集成平台的 文件分隔元数据

在深入本章之前,我们首先了解为什么使用文件分隔。

它可以用于定义 tFileInputDelimitedtFileOutputDelimited 组件的属性,并从分隔文件中读取和写入数据。

我们必须在存储库中集中管理它们的元数据,并进行重用。

注意:所有类型的文件连接(如“分隔、正则表达式、XML、位置或 LDIF”)的文件模式创建都非常相似。

从头开始创建文件分隔连接

  • 转到存储库面板,然后移动到元数据。
  • 之后,展开“元数据”,右键单击“文件分隔”,然后选择“创建文件分隔”选项,如下面的图像所示

存储库 → 元数据 → 文件分隔

Centralizing File Delimited Metadata

注意:要在我们的作业中使用集中的文件分隔,请转到必要组件的基本设置视图,将其属性类型设置为内置,以打开“文件元数据设置”窗口。

将打开“新建分隔文件”窗口,其中文件连接和模式定义分四个步骤完成。

  • 定义常规属性
  • 定义文件路径和格式
  • 定义文件解析参数
  • 检查和自定义文件模式

步骤 1:定义常规属性

在第一步中,我们将填写所有必要的详细信息,例如名称(必填字段),以及“目的”和“描述”字段。

我们还可以在项目设置对话框中管理存储库项的版本状态字段。

单击“路径”字段旁边的“选择”按钮,以选择“文件分隔”节点下的一个文件夹来保存我们新创建的文件连接。

注意:如果我们正在编辑现有连接,则无法选择文件夹,但我们可以随时将其拖放到新文件夹中。

填写完常规属性的所有详细信息后,单击“下一步”按钮。

Centralizing File Delimited Metadata

步骤 2:定义文件路径和格式

在下一步中,我们将单击“浏览”按钮以从本地系统加载文件。

例如,我们将从我们的系统中选择 custmore.txt 文件。

  • 选择创建文件的格式。 为此,我们从给定的下拉列表中选择 Windows 平台。
  • 如果给定的下拉列表中没有合适的格式,请忽略它。
  • 我们有一个 文件查看器,它可以立即显示加载的文件,如下面的屏幕截图所示
Centralizing File Delimited Metadata
  • 单击“下一步”按钮继续。

步骤 3:定义文件解析参数

在此步骤中,我们可以根据需要更改设置。

  • 在这里,我们在“文件设置”窗格中将标头值设置为 1,我们在该窗格中将自定义 ANSI 字段更改为 "|"。
  • 并将 字段分隔符 设置为 自定义 ANSI,如下面的图像所示
Centralizing File Delimited Metadata
  • 之后,单击“下一步

文件设置区域 中,我们可以设置 编码类型字段行分隔符,如下面的屏幕截图所示

Centralizing File Delimited Metadata
  • 根据我们的文件类型,我们可以选择 CSV分隔
  • 如果我们将文件类型选择为 CSV,那么我们可以设置 转义字符文本限定符,或者像这里我们选择 分隔,这两个选项都不可用。

要跳过的行 部分中,我们可以指定给定的参数,例如“标头”和“页脚”。

  • 如果特定文件包含页脚信息,则设置要忽略的页脚行数。
  • 如果文件预览显示标头消息,则从解析中留下标头,并设置要跳过的标头数。
Centralizing File Delimited Metadata

我们可以选中“限制”复选框,并在“行数限制”部分中指定所需的行数,如上面的屏幕截图所示

要查看新设置的影响,请查看文件审查面板,并选中将处理行设置为列名称框,以将第一个解析的行转换为模式列的标签。

并且还看到要跳过的标头行数增加了 1。

Centralizing File Delimited Metadata

要在查看器上查看效果和结果视图,请单击“刷新预览”按钮。

之后,单击“下一步”按钮。

步骤 4:检查和自定义文件模式

在最后一步中,我们将检查和自定义文件模式。

  • 要自定义文件模式,请检查 类型 列中的数据类型是否正确。
  • 模式描述部分中,我们可以更改列名,就像我们在实际文件中提到的那样。
  • 如果分隔文件模式已更改,则 猜测 按钮用于再次生成模式,并确保如果我们自定义模式,则猜测功能无法保留更改。
  • 单击完成按钮,如下面的图像所示
Centralizing File Delimited Metadata

要在 Talend Studio 中查看新创建的元数据。

  • 转到存储库面板,然后移动到元数据
  • 之后,展开 文件分隔 节点,我们可以在下面的屏幕截图中注意到

存储库 → 元数据 → 文件分隔 → customer_Metadata

Centralizing File Delimited Metadata

要将元数据作为新组件或现有组件重复使用,只需从存储库的元数据节点拖动文件连接或模式,然后将其放到设计工作区窗口中。

要修改现有文件连接

  • 转到存储库元数据节点
  • 之后,展开 文件分隔,然后右键单击 customer_Metadata 模式,并选择 编辑文件分隔,如下面的屏幕截图所示
Centralizing File Delimited Metadata

要向现有文件连接添加新模式

  • 转到存储库面板,然后右键单击 文件分隔
  • 元数据中的弹出菜单中选择“检索模式”,如下图所示
Centralizing File Delimited Metadata