集中管理文件 Regex 元数据

17 Mar 2025 | 4 分钟阅读

在本节中,我们将学习如何在 Talend Studio for Data Integration 平台中集中管理 Regex 文件元数据。

在本章深入探讨之前,我们首先了解为什么要使用 Regex 文件。

Regex 文件模式使用正则表达式构成的文件。

例如:日志文件

如果我们要连接到 Regex 文件,我们将集中管理存储库中的连接和模式信息,以便重复使用。

从头开始创建 Regex 文件连接

  • 转到存储库面板。
  • 然后展开元数据,右键单击文件 Regex,然后在弹出菜单中选择创建文件 Regex选项,如下图所示

存储库 → 元数据 → 文件 Regex → 创建文件 Regex

Centralizing File Regex Metadata

注意:要在作业中使用集中式文件 Regex,请转到必要组件的基本设置视图,并将其属性类型设置为内置,以打开文件元数据设置窗口。

然后将打开新建 RegEx 文件窗口,其中文件连接和模式定义分四个步骤完成

  • 定义常规属性
  • 定义文件路径和格式
  • 定义文件解析参数
  • 检查和自定义文件模式

步骤 1:定义常规属性

在第一步中,我们将填写所有必要的详细信息,例如名称(必填字段)以及目标和描述字段(如果我们想要更具体的信息)。

我们还可以在项目设置对话框中管理存储库项的版本状态字段。

单击“路径”字段旁边的“选择”按钮,以选择“文件 Regex”节点下的文件夹来保存我们新建的文件连接。

注意:如果我们正在编辑现有连接,则无法选择文件夹,但我们可以随时将其拖放到新文件夹中。

填写完常规属性的所有详细信息后,单击“下一步”按钮。

Centralizing File Regex Metadata

步骤 2:定义文件路径和格式

在下一步中,我们将单击“浏览”按钮,从本地系统找到我们的文件。

例如,我们将从系统中选择 customer_regex.txt 文件。

  • 选择与我们的 .txt 相关的格式
  • 为此,我们从给定的下拉列表中选择格式为Windows
  • 如果给定的下拉列表中没有合适的格式,请忽略它。
  • 我们有文件查看器,它可以立即显示加载的文件图片,如下图所示
Centralizing File Regex Metadata
  • 之后,单击“下一步”按钮以继续处理。

步骤 3:定义文件解析参数

在此步骤中,我们描述文件解析变量以正确恢复文件模式。

  • 我们可以在文件设置中设置字段分隔符
  • 如果文件的行分隔符不是标准 EOL [行尾],我们可以从行分隔符下拉列表中选择自定义字符串,并在相应字符中写入字符串
  • 要输入正则表达式,我们将转到正则表达式设置以分隔文件。

注意:正则表达式:用于搜索特定的文本模式;我们可以为任何文本模式创建正则表达式。

正如我们在下面的屏幕截图中看到的那样

Centralizing File Regex Metadata

注意:Regex 代码将用单引号或双引号编写。

我们的文本文件的正则表达式是:"custname=(.+)city=(.+)"

此处,

[.] 它是一个特殊字符,用于匹配任何单个字符。

[+] 它用于匹配前面元素一次或多次。

  • 要查看新设置的影响,请查看文件审查面板,并选中将处理行设置为列名称框,以将第一个解析的行转换为模式列的标签。

要在查看器上查看效果和结果,请单击“刷新预览”按钮。

Centralizing File Regex Metadata

之后,单击“下一步”按钮。

步骤 4:检查和自定义文件模式

在最后一步中,我们将检查和自定义文件模式

  • 要自定义文件模式,请检查“类型”列中的数据类型是否正确,并且在“模式描述”部分中,我们可以按照实际文件中提到的那样修改列名。
  • 猜测”按钮用于更新和恢复 Regex 文件模式。
  • 之后,单击“完成”按钮,如下图所示
Centralizing File Regex Metadata

要在 Talend studio 中查看新创建的元数据

  • 转到存储库面板,然后转到元数据。
  • 之后,展开文件 Regex 节点,如下图所示

存储库 → 元数据 → 文件 Regex → customer_regex

Centralizing File Regex Metadata

要将元数据作为新组件或现有组件重复使用,只需从存储库的元数据节点拖动文件连接或模式,然后将其放到设计工作区窗口中。

要修改现有文件连接

  • 转到存储库面板,然后转到元数据节点
  • 之后,展开文件 Regex,右键单击该模式,然后选择“编辑文件 Regex”,如下图所示
Centralizing File Regex Metadata

要向现有文件连接添加新模式

  • 转到存储库面板,然后右键单击“文件 Regex”。
  • 元数据中的弹出菜单中选择“检索模式”,如下图所示
Centralizing File Regex Metadata
下一个主题集中式 FTP 连接