管理元数据

17 Mar 2025 | 4 分钟阅读

在本节中,我们将了解如何在 Talend Studio 中为数据集成平台管理元数据。

元数据文件夹用于存储有关文件、数据库或系统的可重用信息,这些信息是在数据集成 Talend Studio 中创建作业所必需的。

本节包括在存储库面板中创建和管理多个元数据项的过程,这些元数据项可以在我们所有的作业设计中使用。

转到存储库面板,然后单击元数据,如下图所示

Managing Metadata

在元数据中,我们可以在数据集成 Talend Studio 中设置以下连接

  • DB 连接
    • MySQL DB 连接
    • JDBC DB 连接
  • 文件 schema
    • 文件分隔符
    • 文件定位
    • 文件 Regex
    • 文件 XML
    • 文件 Excel
    • 文件 ldif
    • 文件 JSON
  • LDAP
  • Azure 存储
  • Google Drive
  • Marketo
  • Salesforce
  • Snowflake
  • 通用 schemas
  • Talend MDM
  • 规则管理
  • Web 服务
  • FTP

我们将学习最常用的元数据连接和 schemas,以便您完全了解如何在 Talend Studio 中为数据集成平台管理元数据。

Db 连接

我们必须借助数据库来读取和写入数据,或者两者兼而有之。 Talend Studio 提供了数据库组件来完成这些任务。

在 Talend Studio 的元数据部分,我们可以连接各种类型的数据库,例如 MySQL、JDBC、SAS、Oracle、SAP Hana、Hive、Teradata、Redshift、Amazon Aurora、Microsoft SQL Server 等。

文件 Schemas

为了将数据读取和写入到分隔的文件中,我们有不同的文件 schemas,例如 文件分隔符、Excel、XML、定位、Regex、LDIF 和 JSON,它们在存储库的元数据中具有不同的组件,我们可以在 Talend Studio 中创建作业时使用它们。

文件 Schemas描述
文件分隔符它是一个文本文件,用于存储数据,其中每行都包含用分隔符分隔的字段。
Excel为了将数据读取和写入到可靠的 Excel 电子表格文件中,我们将集中连接到该文件及其数据结构。
XML它是一种可扩展的标记语言,用于存储和传输数据。在集中 XML 输入和输出文件的元数据之后,我们可以直接在我们的作业中使用该元数据。
定位它是一个具有固定最大长度和记录的文件。
文件定位元数据用于定义不同组件的属性,如 tFileInputPositional、tFileOutputPositional 和 tFileInputMSPositional 组件。
Regex这种文件 schemas 由正则表达式组成,例如日志文件。
LDIFLDIF 文件是由属性表示的目录文件。
JSON它被称为 JavaScript 对象表示法,用于序列化和通过网络连接传输结构化数据。它还在服务器和 Web 应用程序之间传输数据。

LDAP

LDAP 代表轻量级目录访问协议,用于访问和管理目录信息,还可以通过 IP 网络读取和编辑目录。

Azure 存储

Azure 存储是一种服务,允许我们在磁盘存储中为我们的虚拟机创建一个磁盘。该磁盘只能从一台虚拟机访问。

Marketo

它是一种基于 SaaS 的营销自动化软件。它的目的是帮助公司自动化和衡量营销互动、任务和工作流程。

我们还可以在 Talend Studio 的存储库元数据中连接多个数据源,并且可以探索我们的数据源的许多特征。

Talend 允许我们在我们的作业中使用这些数据源,方法是将对象从存储库面板拖到设计工作区窗口。

Snowflake

Snowflake 用于借助基于云的硬件和软件来存储和分析数据。它是唯一为云构建的数据平台,我们可以在其中存储所有数据。

通用 schemas

如果没有任何特定的元数据符合我们的需求,或者如果我们没有任何源文件可以采用 schema 形式,我们可以在 Talend Studio 中创建一个通用 schema。

它用于我们不想限制 schemas 的使用,这些 schemas 与任何文件类型或数据库相关。

Talend MDM

Talend MDM 用于将实时数据、应用程序和集成流程与嵌入式数据质量相结合,以便在本地、云和移动应用程序中共享。

Web 服务

数据集成的 Talend Studio 允许许多组件调用多种类型的 Web 服务,例如 tWebServiceInput、 tWebservice [基于 tWebServiceInput 的高级组件]、tSOAP [用于 SOAP Web 服务] 和 tREST [用于 REST Web 服务]。

FTP

FTP 代表 文件传输协议,用于在计算机网络上的客户端和服务器之间传输计算机文件。


下一主题DB 连接