资源描述框架 (RDF)

2025 年 1 月 28 日 | 阅读 12 分钟

引言

资源描述框架 (RDF) 是网络上互连数据的通用模式。 它支持元数据的建模和共享,从而允许基于关系进行标准化数据共享。

该框架是确定如何组合来自不同来源的数据的关键。例如,它可用于将制造商的在线目录列表与不同平台上的评论匹配,并将它们连接到销售这些产品的商家。语义网络依靠 RDF 以意义的形式组织信息。

RDF 语句定义了资源之间的关系,从文档和实物到个人和抽象概念,例如在任何类型的对象中发现的颜色或味道。相关 RDF 语句的集成形成了一个有向图,描绘了实体之间的连接。

Resource Description Framework (RDF)

RDF 标准由万维网联盟 (W3C) 管理,其中包括不同格式的基本原则、语义和规范。RDF 最初基于 XML,现在使用其他语法,包括简洁 RDF 三元组语言 Turtle、用于链接数据 JSON-LD 的 JavaScript 对象表示法和 N-Triples。

RDF 概述

万维网提供了前所未有的全球信息访问级别,这种元数据的使用巩固了信息的可用性和易于发现。不同应用程序之间的良好互操作性需要对语义、语法和结构有共同的理解。元数据的语义是根据不同资源描述社区的个体需求定义的。语法通过系统地组织数据元素以供机器处理来简化不同应用程序之间的元数据共享。结构提供了语法的正式限制,使语义得到一致的表示。

由万维网联盟 (W3C) 创建的资源描述框架 (RDF) 是一个为编码、共享和重用结构化元数据提供结构的框架。RDF 通过包含使语义、语法和结构通用指南的功能来增强元数据互操作性。RDF 并没有强制为每个社区规定语义,而是允许社区定义所需的元数据组件。RDF 使用 XML(可扩展标记语言)作为元数据中数据交换的语法标准。XML 是 SGML(标准通用标记语言)的子集,旨在用于具有供应商独立性、用户可扩展性验证、人类可读性以及表示复杂结构特征的网络。RDF 利用 XML 功能提供结构以实现明确的语义表达,从而确保编码和随后的交换以及机器处理的标准化。

RDF 通过推广单独的元数据元素集的约定来促进模块化互操作性。这些约定还包括一个简单而强大的语义数据模型,其基础是表示机制。RDF 进一步支持发布一组由资源描述社区定义、可由人类阅读和使用的属性或元数据元素。标准化词汇声明促进了各种信息社区中意义的重用和扩展。

例如,以简单资源描述为搜索核心的都柏林核心计划已经采用了 RDF。此外,Educom 的 IMS 教学元数据系统正在使用都柏林核心作为标准,并通过特定领域的语义对其进行了扩展,以方便访问教育相关材料。RDF 设计通过限制分布式属性注册来避免中央注册表,从而实现了语义模块化。这使得社区能够定义可重用、可扩展和精炼的词汇表,以响应特定的描述需求。

RDF 如何运作?

RDF 作为声明资源的标准方法。每个 RDF 语句由三个元素组成,形成一个三元组:宾语、主语和谓词。

RDF 中存在三种节点类型

  • 统一资源标识符 (URI)(主要): 定义为统一资源定位符 (URL) 的资源的标准化标识符,并克服了关于命名空间国际化资源标识符的异议
  • 字面量: 以 URI/IRI 格式表示唯一的独立数据点,例如字符串、日期或数字。
  • 空白节点标识符: 也称为匿名词汇表或 bnode,人们对其主题知之甚少,并通过不寻常的类型进行识别。

RDF 的利用

RDF 语句可以嵌入到 HTML 网页中,也可以独立存储但连接到网站内容。RDF 最初与 XML 关联,但现在使用 Turtle、JSON-LD 和 N-Triples 等语法。

存在 RDF 查询语言,以 SPARQL 为代表;它们有助于数据的检索和处理。

RDF 的优点

  • 一致的框架: 促进互联网资源元数据的共享。
  • 标准化语法: 对于使用元数据的软件,促进更顺畅的交互。
  • 查询能力: 它允许信息顺畅通信并提高搜索结果的准确性。

RDF 的局限性

  • 词汇标准化: 资源描述的 RDF 词汇标准化问题。
  • 语法选择: 难以选择最适合某些实现的语法格式。
  • 查询语言选择: RDF 查询语言的选择基于其特性和应用程序的特定需求。

历史

RDF 的口号雄心勃勃,提供了巨大的机会。本介绍部分详细介绍了 RDF 倡议的背景,将其与其他元数据工作联系起来,描述了语法层面的功能和模型表示建模考虑。

从 1995 年开始,W3C 参与元数据历史体现在其 PICS 的开发。PICS 是一项服务,服务器可以通过该服务向客户端传达网页评级,并提供有关内容的信息,例如某个网页是否包含特定元素,例如经过同行评审的研究、由认可作者撰写或具有露骨内容。PICS 没有建立一套严格的标准,而是开发了一个灵活的框架来构建各种评级系统。不同的团体可以根据其信仰创建内容评级,以便用户,特别是担忧的父母,可以通过他们喜欢的参数阻止网页。认识到互联网内容在美国和许多其他地区可能会受到某种限制,导致了 PICS 的开发。

在与数字图书馆社区打交道时,PICS 规范中出现了限制。然而,W3C 成立了一个新的工作组 PICS-NG 下一代,以解决比仅仅添加与用作架构基本元素的互联网资源相关的描述性信息更广泛的问题 [PICSNG]。

PICS-NG 工作组成立后,很明显,为其他几个应用程序设计的早期版本中的基础设施可以使用。因此,W3C 将这些应用程序合并到 W3C 的资源描述框架工作组中。RDF 作为一个协作倡议而成立,旨在帮助不同的元数据社区开发一个能够支持基于网络的元数据架构。

虽然 RDF 作为网络通用元数据框架和简单知识表示机制的开发深受 PICS 规范 [PICSSPEC] 的启发,但值得注意的是 RDF 并非由个人或组织生产。它是不同 W3C 成员公司贡献智力资源集体设计工作的产物。该设计包含了来自 XML [XML] 的功能以及微软和网景等提供的提交。此外,DC 和 WF 等其他元数据项目也为 RDF 的设计做出了重大贡献。

RDF 数据模型

RDF 数据模型提供了一个用于对象描述的参考结构,其中资源可以具有属性或品质。在 RDF 中,资源是通过其统一资源标识符 (URI) 可识别的对象。对于与资源链接的属性,属性类型区分它们,并且这些类型与特定值对应。属性类型定义了与资源关联的值之间的相关性。在 RDF 中,值要么是原子值,例如字符串或数字;即它们可以是具有自己属性集的其他资源。描述相同资源的这些属性的集合称为描述。RDF 的核心是一个语法中立的数据模型,用于表示资源及其拥有的描述 [SPEC]。

Resource Description Framework (RDF)

RDF 数据模型提供了基于真实生活实例的实际应用。让我们研究以下陈述

  • 文档 1 的作者是约翰·史密斯。
  • 约翰·史密斯是文档 1 的作者。

尽管这些句子对人类来说含义相同(约翰·史密斯是某个文档的作者),但从机器的角度来看,它们代表不同的字符串。相比之下,机器在从各种句法结构中提取意义方面落后于人类。RDF 使用包含资源、属性类型和关联值的三元组框架,以机器可读的形式准确地记录语义。RDF 引入了一种将属性与资源连接起来的方法。

RDF 引入了一种将属性与资源连接起来的方法。因此,在对文档 1 发表任何评论之前,数据模型要求它具有由该文档表示的资源。因此,句子“文档 1 的作者是约翰·史密斯”的数据模型只包含一个资源——文档 1,一个作者身份属性类型和一个与之对应的值——约翰·史密斯。资源、属性类型和值之间的关系通过根据 SPEC 开发的 RDF 模型在有向标记图中直观地描绘出来。此可视化包括三个元素:标记为资源的节点、表示属性类型的有向标记弧以及包含在引号中的字符串值。

Resource Description Framework (RDF)

要添加有关作者的更多描述性信息,例如电子邮件地址和隶属关系,需要对前面的示例进行调整。在这种情况下,旨在获取有关约翰·史密斯描述的信息。如前所述,在描述其描述性属性之前,必须有一个唯一的资源来引用约翰·史密斯。

Resource Description Framework (RDF)

在这种情况下,字符串“John Smith”被替换为一个明确标识的资源 Author_001,并附带属性类型名称、电子邮件和隶属关系。对资源实施唯一标识符消除了与属性关联相关的歧义,这在 John Smith 可能是一个具有不同类型的值的情况下至关重要。例如,文档 1 的作者可能是 John Smith,他作为其同时代人的一部分也与一家公司相关联。资源的明确标识能够实现显式描述信息的重用。

前面的例子为作者创建了一个可单独识别的资源,但也需要在他的姓名、电子邮件地址和隶属关系的情况下建立。RDF 模型提供了在多个级别创建资源的机会。例如,在表示个人姓名时,代表作者姓名的资源可能已使用“名字”、“中间名”和“姓氏”等属性类型在不同级别进一步描述,从而导致实用性和逻辑方面的问题。

要回答这个问题,答案取决于领域要求,并且没有通用的方法。这些问题应由每个资源描述社区根据其经验和领域知识自行解决和决定。基本上,数据模型中注册和重现的差异是由特定领域的特征驱动的。

RDF 语法

另一方面,RDF 数据模型描述了对描述的描述。例如,评估“国会图书馆声明约翰·史密斯是文档 1 的作者”这类陈述的有效性变得相关。该陈述根据国会图书馆对其可信度的声称,概述了约翰·史密斯作为文档 1 作者的可信度。类似的构造使我们能够描述资源集合,例如“约翰·史密斯是文档 1、2 和 3 的作者”。尽管此类陈述更复杂,但它们也适用于一个共同的数据模型。有关这些主题的更多详细信息可以在 RDF 模型和语法规范中找到。

RDF 语法的目的是建模一个基本但功能强大的资源定义模型。RDF 使用 XML 作为其语法,将此模型的实例存储到机器可读文件中,并简化应用程序之间的通信。RDF 规范化 XML 以提供稳定的语义形式。

尽管 RDF 能够在资源描述社区之间定义语义,但这些语义应在不同社区之间消除歧义。例如,属性类型“作者”的性质可能因社区的不同需求而异。然而,当多个城镇使用一个属性类型来表示明显不同的含义时,情况会变得复杂。为了解决这个问题,RDF 使用基于 XML 命名空间技术的属性类型特定 ID 机制。XML 命名空间提供了一种唯一标识确定属性类型中使用的语义和约定的管理机构的方法;它标识了管理机构或词汇表。

例如,“作者”属性类型由都柏林核心计划定义为“负责创建资源知识内容的个人或组织”,并在都柏林核心 CREATOR 元素中指定。都柏林核心词汇表的模式由一个 XML 命名空间指向,该命名空间明确标识它以指示相应语义的默认资源。

Resource Description Framework (RDF)

显式声明的目的是提供一个明确的语义属性类型“创建者”的定义,该定义属于参考、文档 1 和使用都柏林核心词汇表 (DC) 的上下文。约翰·史密斯是此类型属性的值。

使用 XML 命名空间标识都柏林核心模式的相应语法表示如下

在这种情况下,RDF 和都柏林核心模式分别定义为“RDF”和“DC”。RDF 模式被指定为定义开发数据模型所需词汇表的引导机制。都柏林核心模式被声明为使用都柏林核心社区指定的词汇表。命名空间声明中的 URI 将模式链接到相应的命名空间。

元素表示 XML 文档中的一个分界点,其中内容专门用于映射到基于 RDF 数据模型的实例。,它表示或实例化一个 URI 为 http://uri-of-Document-1 的资源,被使用。在 ` 上下文中,强调了各种属性类型 ,并且对于值行为,John Smith 的这种构造的描述性表示应该相应地反映数据模型。

在一个更复杂的例子中,需要关于作者的更多描述性细节,就会应用这样的句法结构。当然,希望使用都柏林核心“创建者”属性类型来表示知识内容的创建者,但它可能需要额外的属性,包括姓名、电子邮件和隶属关系。如果这些元素的语义在都柏林核心中不存在,则可以使用另一个资源描述标准,例如具有类似 vCard 规范的 RDF 模式来描述文档的作者。

Resource Description Framework (RDF)

在更高级的示例中,需要有关作者的更多描述性信息,语法表示可以如下所示

在这种情况下,RDF、都柏林核心和“名片”模式分别缩写为“RDF”、“DC”和“CARD”。与属性类型“DC:创建者”关联的值现在是一个资源,它具有内部标识符“# Creator_001”。代替这个,也可以使用外部 URI,例如,使用受控的名称权威。

其次,此示例中都柏林核心“CREATOR”元素的语义已通过属于名为 CARD 的模式的语义定义得到改进。此结构与 Warwick 框架 [WF] 非常吻合,该框架识别包含用于资源描述的部分信息的可单独维护和可替换的包。RDF 结构限制有助于支持可重用标准化元数据编码和交换,从而实现由各种资源描述社区定义的单个元数据包的可互换性。

RDF 模式

RDF 模式在声明代表特定社区定义的语义属性类型的词汇表中起着非常重要的作用。它们定义了在特定 RDF 描述中允许哪些属性,以及可能与某些属性类型的值相关的任何特征或限制。XML 命名空间机制用于识别 rdf 方案。

解引用模式 URI 能够检索 RDF 模式的人类和机器可处理描述。但是,程序可能会获取与机器可处理模式中命名的属性类型相关联的一些语义。了解特定的 RDF 模式等同于理解该描述中每个属性的语义。RDF 模式根据 RDF 的数据模型进行组织。因此,可以进行传输传输和描述理解,即使应用程序不理解用于可以将描述解析为属性类型和值的特定模式,这将有助于保存描述(例如,到缓存或其他应用程序)。

RDF 模式的细节目前正在 W3C 的 RDF 模式工作组中进行讨论。然而,机器无关和计算机可处理词汇形式化的日益增长的灵活性可能会促进不同信息社会之间的元数据方案互换性。为了提供这种形式化,正在创建 RDF 模式。

结论

总之,万维网提供了无与伦比的分布式信息访问。元数据促进了此信息的应用,RDF 是 W3C 提出的官方标准,用于指定支持网络元数据的合适架构。作为 XML 的应用,RDF 施加了语法约束,以实现记录语义的精确机制,从而促进元数据的一致编码、交换和机器处理。事实上,RDF 提供了一种发布人类可读和计算机化词汇表的方法,有助于促进各种信息社区之间元数据语义的共享和利用。


下一个主题天使数字 111