集中化 Excel 文件元数据

17 Mar 2025 | 5 分钟阅读

在本节中,我们将学习如何在 Talend Studio 中集中化 Excel 文件元数据,以用于数据集成平台。

在本章深入探讨之前,首先我们将了解为什么使用 Excel 文件。

如果我们要连接到 Excel 文件,我们将集中化 Repository 中的连接和模式信息,以便重复使用。

要从头开始创建 Excel 文件连接

  • 转到存储库面板。
  • 然后展开元数据,右键单击文件 Excel,然后在弹出菜单中选择创建文件 Excel选项,如下图所示

Repository → 元数据 → 文件 Excel → 创建文件 Excel

Centralizing Excel File Metadata

注意:要在我们的作业中使用集中的 Excel 文件,请转到必要组件的基本设置视图,并将其属性类型设置为 build-in,以打开文件元数据设置窗口。

然后,将打开新建 Excel 文件窗口,其中文件连接和模式定义都将在四个步骤中完成

  • 定义常规属性
  • 定义文件路径和格式
  • 定义文件解析参数
  • 检查和自定义文件模式

步骤 1:定义常规属性

在第一步中,我们将填写所有必要的详细信息,例如名称、用途和描述

我们还可以在项目设置对话框中管理 Repository 项目的版本状态字段。

单击“路径”字段旁边的“选择”按钮,以选择“文件 Excel”节点下的文件夹,以保存我们新创建的文件连接。

注意:如果我们正在编辑现有连接,则无法选择文件夹,但我们可以随时将其拖放到新文件夹中。

填写完常规属性的所有详细信息后,单击“下一步”按钮。

Centralizing Excel File Metadata

步骤 2:定义文件路径和格式

在下一步中,我们将单击“浏览”按钮,从本地系统找到我们的文件。

注意:如果我们要保存组件中定义的 Excel 文件连接,则文件路径将自动在“文件”字段中。

例如,我们将从我们的系统中选择 New_Excel.xlsx 文件。

  • 确保如果上传的文件是 Excel 2007 文件,则选中“读取 excel2007 文件格式 (xlsx)”复选框。
  • 如果上传的 xlsx 文件非常大,则从“生成模式”列表中选择“减少大型 excel 的内存消耗(事件模式)”以停止内存溢出错误;否则,默认情况下会选择“内存消耗(用户模式)”。
  • 我们有文件查看器和工作表设置区域,我们可以在其中看到文件内容和一个或多个工作表。
  • 我们可以从请选择工作表下拉列表中选择我们要查看的工作表,并且预览表显示所选工作表的内容。

注意:默认情况下,文件预览表显示文件的第一个工作表。

  • 我们还可以从“设置工作表参数”中选择一个或多个我们要上传的工作表
  • 如果我们选择多个工作表,则结果模式将代表所有选定工作表的结构的组合。
Centralizing Excel File Metadata
  • 之后,单击“下一步”按钮以继续处理。

步骤 3:文件解析参数

在这一步中,我们将描述文件解析的多个设置,以正确恢复文件模式。

  • 文件设置区域中,我们可以根据上传的文件设置编码类型。
  • 在“要跳过的行”部分中,如果 Excel 文件具有标题或页脚,我们可以跳过该行,如下图所示
Centralizing Excel File Metadata
  • 元数据列设置区域表示必须在文件中读取的列,方法是在“第一列”和“最后一列”字段中填写整数。
    例如:如果我们要跳过第一列,因为它可能没有要处理的正确数据,请在“第一列”中输入 2,并将文件的第二列设置为模式的第一列。
    但在我们的例子中,我们在第一列中输入 1,如下图所示
Centralizing Excel File Metadata
  • 我们不需要解析文件的所有行,特别是在检索 Excel 文件的模式时,我们上传了一个大文件。 我们可以通过在“限制行数”部分中选择“限制”复选框来设置所需的行数。
Centralizing Excel File Metadata
  • 如果我们的 excel 文件有标题行,请选择“将处理行设置为列名”复选框以考虑标题名称。
  • 要在查看器上查看效果和结果视图,请单击“刷新预览”按钮,如下图所示
Centralizing Excel File Metadata

然后,单击“下一步”按钮。

步骤 4:检查和自定义文件模式

在最后一步中,我们将检查和自定义文件模式。

  • 要自定义文件模式,请检查“类型”列中的数据类型是否正确。
  • 猜测”按钮用于更新和恢复 Excel 文件模式。

注意:如果我们自定义了模式,则“猜测”功能不会保留这些更改。

  • 之后,单击“完成”按钮完成该过程,如下图所示
Centralizing Excel File Metadata

要在 Talend studio 中查看新创建的元数据

  • 转到 **存储库面板**,然后转到元数据。
  • 之后,展开“文件 Excel”节点,然后选择“New_excel”元数据,如下图所示

Repository → 元数据 → 文件 Excel → New_excel

Centralizing Excel File Metadata

要将元数据作为新组件或现有组件重复使用,只需从存储库的元数据节点拖动文件连接或模式,然后将其放到设计工作区窗口中。

要修改现有文件连接

  • 转到存储库面板,然后转到元数据节点
  • 之后,展开“文件 Excel”,右键单击该模式并选择“编辑文件 Excel”,如下图所示
Centralizing Excel File Metadata

要向现有文件连接添加新模式

  • 转到“Repository 面板”,然后右键单击“文件 Excel”。
  • 元数据中的弹出菜单中选择“检索模式”,如下图所示
Centralizing Excel File Metadata