集中定位元数据

17 Mar 2025 | 5 分钟阅读

在本节中,我们将学习如何在 Talend Studio for 数据集成平台中集中文件定位元数据。

在深入本章之前,首先,我们将了解为什么使用定位文件。

要读取和写入定位文件的数据,我们需要集中元数据。

要描述 **tFileInputPositional, tFileOutputPositional,** 和 **tFileInputMSPositional** 组件的属性,我们必须使用文件定位元数据。

从头开始创建文件定位连接

  • 转到**存储库面板**,然后移动到**元数据**。
  • 之后,展开元数据并右键单击**文件定位**,然后在弹出菜单中选择**创建文件定位**选项,如我们在下图中看到的

存储库 → 元数据 → 文件定位

Centralizing Positional Metadata

注意:要在我们的作业中使用集中的文件分隔,请转到必要组件的基本设置视图,其属性类型设置为内置,用于打开文件元数据设置窗口。

然后将打开**新建定位文件**窗口,其中文件连接和模式定义都分四个步骤完成

  • 定义常规属性
  • 定义文件路径和格式
  • 定义文件解析参数
  • 检查和自定义文件模式

第 1 步:定义常规属性

在第一步中,我们将填写所有必要的详细信息,如**名称**,这是一个必填字段,以及目的和描述字段(如果我们希望更具体)。

我们还可以在**项目设置**对话框中管理存储库项目的**版本**和**状态**字段。

单击**路径**字段旁边的**选择**按钮,选择**文件定位**节点下的一个文件夹以保存我们新创建的文件连接。

注意:如果我们正在编辑现有连接,则无法选择文件夹,但我们可以随时将其拖放到新文件夹中。

填写完常规属性的所有详细信息后,单击“下一步”按钮。

Centralizing Positional Metadata

步骤 2:定义文件路径和格式

在下一步中,我们将单击“浏览”按钮,从本地系统找到我们的文件。

例如,我们将从我们的系统中选择**Employee info.txt** 文件。

  • 选择与我们的 **.txt** 相关的**编码**类型和**格式**
  • 为此,我们从给定的下拉列表中选择**Windows** 作为格式。
  • 如果给定的下拉列表中没有合适的格式,请忽略它。
Centralizing Positional Metadata
  • 我们有**文件查看器**,它给出了加载文件的即时图片,它允许我们放置我们的定位标记,如我们在下面的屏幕截图中看到的那样
Centralizing Positional Metadata

要定义文件列属性,请单击文件预览并在标尺上设置标记,橙色箭头可帮助我们更改位置。

如我们在上图中看到的,**字段分隔符**和**标记位置**字段会自动填充。

**字段分隔符:**为了显示加载文件的列的长度,使用字段分隔符,它还显示分隔符之间的字符数。

**[*]:** 星号符号表示行上的所有剩余字符,从先前的标记位置开始,我们还可以更改数字以正确标识列。 

**标记位置:**此字段用于显示标尺上每个标记的确切位置,我们还可以更改数字以准确标识位置。

要移动标记,请按住箭头并将其拖动到新位置。

要删除标记,请按住箭头并将其拖动到标尺,直到出现一个**(x)**图标。

  • 之后,单击“下一步”按钮以继续处理。

第 3 步:定义文件解析参数

在此步骤中,我们描述文件解析变量以正确恢复文件模式。

预览部分显示标记位置的文件列。

Centralizing Positional Metadata
  • 在**文件设置区域**中,我们可以设置**字段**和**行分隔符**,如我们在下面的屏幕截图中看到的那样
Centralizing Positional Metadata
  • 如果我们需要标识列的长度,我们可以修改**字段分隔符**中的数字
  • 如果我们的文件的**行分隔符**不是标准 EOL [行尾],我们可以从**行分隔符**下拉列表中选择**自定义字符串**,并在**对应字符**中写入字符串
  • 在**要跳过的行**部分中,我们可以更改给定的参数,如**标题**和**页脚**。
    • 如果我们的文件包含任何标题行,需要从数据内容中排除,请在“要跳过的行”部分选择**标题**复选框,并在相应字段中定义要忽略的行数。
    • 如果特定文件具有页脚信息,则设置要忽略的页脚行数,在**页脚**复选框中。
Centralizing Positional Metadata
  • 为了限制已解析文件的范围,我们将在**行数限制**部分中选择**限制**复选框,并指定所需的行数,如您在上面的屏幕截图中看到的那样
Centralizing Positional Metadata

要查看新设置的影响,请查看文件审查面板,并选中将处理行设置为列名称框,以将第一个解析的行转换为模式列的标签。

并且,请注意标题**要跳过的行数**增加了 1。

Centralizing Positional Metadata

要在查看器上查看效果和结果视图,请单击**刷新预览**按钮。

之后,单击“下一步”按钮。

第 4 步:检查和自定义文件模式

在最后一步,我们将检查并自定义文件模式

  • 要自定义文件模式,请检查**类型**列中的数据类型是否正确,在**模式描述**部分中,我们可以修改列名,就像我们在实际文件中提到的那样。
  • **推断**按钮用于在定位文件模式更改时再次生成模式,并确保在自定义模式时,推断功能无法保留更改。
  • 之后,单击**完成**按钮,如我们在下图中看到的
Centralizing Positional Metadata

要在 Talend studio 中查看新创建的元数据

  • 转到存储库面板,然后转到元数据。
  • 之后,展开文件定位节点,如我们在下面的屏幕截图中看到的

存储库 → 元数据 → 文件定位 → 员工

Centralizing Positional Metadata

要将元数据重新用作新组件或现有组件,只需从存储库的元数据节点拖动文件连接或模式,然后将其拖放到设计工作区窗口即可。

要修改现有文件连接

  • 转到存储库面板,然后转到元数据节点
  • 之后,展开**文件定位**,右键单击模式,然后选择**编辑文件定位**,如我们在下面的图像中看到的
Centralizing Positional Metadata

要向现有文件连接添加新模式

  • 转到**存储库面板**,右键单击**文件定位**。
  • 元数据中的弹出菜单中选择“检索模式”,如下图所示
Centralizing Positional Metadata