数据网格 - 重思企业数据架构

2025年03月17日 | 阅读 9 分钟

在这个时代,自助式商业智能正在统治领域,每个企业都试图将自己打造成一个信息驱动型企业。许多企业都意识到通过利用信息来做出明智决策所带来的众多好处。提供给客户更优越、高度个性化的服务,同时还能降低成本和资本,这是最具吸引力之处。

Data Mesh - Rethinking Enterprise Data Architecture

然而,企业在转型为数据驱动型战略并充分发挥其潜力方面,仍然面临各种挑战。尽管迁移遗留系统、避免遗留文化以及优先管理不断变化的业务需求中的数据都是合理的挑战,但数据平台本身的架构也是一个主要障碍。

孤立的数据仓库和数据湖架构在支持实时数据流方面能力有限。反过来,它们又削弱了组织的可扩展性和民主化目标。然而,Data Mesh——一个引起轰动的革命性新架构范式——或许能为你的数据相关目标注入新的活力。

让我们更深入地了解 Data Mesh 的细节,以及它如何改变我们对大数据管理的看法。

什么是 Data Mesh?

Data Mesh 本质上是指将孤岛和数据湖分解成更小、更分散的部分。这类似于软件开发中从单体软件向微服务架构的转变。Data Mesh 可以被描述为一种以数据为中心的微服务形式。

Data Mesh - Rethinking Enterprise Data Architecture

该术语最初由 ThoughtWorks 顾问 Zhamak Dehghani 在 20 世纪 90 年代末定义,作为一种数据平台结构,旨在利用企业数据的全覆盖性质,通过采用自助服务、面向域的结构。

作为一种创新的架构和组织理念,Data Mesh 挑战了人们普遍认为大规模数据需要集中管理才能最大化其分析潜力的观念。如果所有数据都没有存储在一个地方并集中管理以最大化其全部价值。与这种老式的观念截然不同,Data Mesh 声称,只有当大数据被分发给领域所有者,然后他们将数据作为产品提供时,大数据才能成为新技术发展的催化剂。

为了实现这一点,需要通过自动化流程采用一种新的联合治理版本,以促进面向域的产品之间的互操作性。信息使用的民主化是 Data Mesh 理念发展的主要基础。Data Mesh 建立在民主化之上,而没有去中心化、互操作性和优先考虑用户体验,这是无法实现的。

作为一种架构概念,Data Mesh 在实现大规模分析方面具有巨大潜力,它能够提供对日益增长且快速发展的多样化领域集合的访问。特别是在机器学习、分析或数据密集型应用程序的开发和部署等消费需求不断增加的情况下。

其本质上,Data Mesh 旨在解决传统平台带来的弱点,这些弱点导致了中心化数据湖或数据仓库的出现。与限制数据消耗、存储和处理的单体数据处理基础设施不同,Data Mesh 支持数据分发到特定领域。数据即产品的方法允许不同领域的人员自行管理各自领域的数据处理管道。

连接这些领域以及与之相关的数据资产的组织结构,提供了一个互操作性层,确保了数据的一致格式和标准。各种数据集合通过网格连接和加入。因此,得名“Mesh”。

Data Mesh 旨在解决的问题

Data Mesh - Rethinking Enterprise Data Architecture

如前所述,传统数据结构的局限性已成为企业充分利用可用数据以在改善业务实践和流程方面取得实质性进展的重要障碍。主要挑战是将海量数据转化为明智且可操作的信息。

Data Mesh 通过解决传统大数据管理方法中的以下明显缺陷来应对这些担忧:

  • 单体平台无法跟上
    像数据湖和数据仓库这样的单体数据平台通常缺乏提取海量数据重要见解所需的数据源范围和特定领域结构。最终,特定于某个领域的重要信息在集中式系统中丢失。这阻碍了数据分析师建立数据点之间的实时关联并产生反映运营现实的精确分析的能力。
  • 数据管道造成瓶颈
    在当前的模式下,由于数据处理、转换和交付过程的分离,数据管道会造成拥塞。不同的部门处理各种数据功能,但没有任何协作。数据在一个部门之间传递,没有有意义的集成或转换的可能性。
  • 数据专家之间目标不一致
    高度专业化的数据工程师、数据消费者和源数据所有者通常以共生关系工作,但他们从完全不同的角度出发。这通常成为生产力低下的温床。这种低效的主要原因是无法将分析映射到能够与业务基本面建立关联的方式。

Data Mesh 的三个关键组成部分

Data Mesh 需要不同的元素无缝协作——数据基础设施、数据源和面向域的管道。这些组件中的每一个对于确保互操作性、可观察性、管理以及确保数据网格设计中面向域的中性标准至关重要。

以下要素在帮助 Data Mesh 满足这些标准方面起着重要作用:

  • 面向领域的数据所有者和管道
    Data Mesh 将数据所有权在不同的领域所有者之间进行划分,这些所有者负责将他们拥有的数据作为服务出售,并促进数据传播的各个位置之间的通信。虽然每个领域都负责拥有和管理其提取-转换-加载 (ETL) 管道,但会为不同领域应用一组功能,以促进原始数据的存储、编目和访问。领域所有者在数据被传递到特定领域并经过转换后,可以利用这些数据来满足其运营或分析需求。
  • 自助服务功能
    与面向领域的数据管理方法相关的一个主要问题是,在每个领域维护管道和基础设施所涉及的重复工作。为了解决这个问题,Data Mesh 从一个中心化的、面向域的中立数据基础设施中提取和收集功能,从中可以处理数据管道的基础设施。此外,每个领域都利用所需的元素来管理 ETL 管道,从而提供必要的自主性和支持。这种自助服务功能允许领域所有者专注于特定数据用例。
  • 互操作性和通信标准化
    每个领域都由一套适用于所有领域的通用数据标准支持,这些标准有助于在任何情况下提供协作途径。这一点至关重要,因为同一组原始和转换后的数据很可能会为许多不同的领域提供价值。数据属性(如治理、可发现性和格式)的标准化。元数据规范允许跨领域协作。

Data Mesh 的四个核心原则和逻辑架构

Data Mesh 是一种基于四项核心原则的范式。其中每一项都经过精心设计,旨在解决传统集中式大数据管理和数据分析方法带来的众多挑战。以下是对这些基本原则的概述:

1. 面向域的去中心化数据所有权和架构

该项目的核心是,Data Mesh 寻求将数据分发的责任去中心化给与数据紧密合作的人员,以期实现可扩展性和任何修改的持续执行。通过重塑包括元数据、分析数据和底层计算在内的数据生态系统来实现数据的分解和去中心化。由于当今大多数公司都根据其工作领域进行去中心化,因此数据的分解也在此基础上进行。这是一种将变化和演变的结果局限于特定领域有限上下文中的方法。这就是为什么创建最佳的数据所有权分发系统很重要。

2. 数据即产品

单体数据结构最大的问题之一是识别、信任、解释高质量数据的使用重要性所带来的巨大成本和困难。如果这个问题从一开始就没有得到解决,随着数据域数量的增加,Data Mesh 可能会加剧这个问题。数据即产品的原则被视为解决旧数据孤岛及其数据质量问题的可行解决方案。在此模型中,分析数据被视为产品,而使用这些数据的人被视为客户。利用可访问性、可理解性、安全性、可信度等功能对于使用数据作为产品至关重要。因此,它是 Data Mesh 实现的关键要素。

3. 自助服务数据基础设施即平台

作为产品建立、部署、监控、访问和管理数据需要一个庞大的基础设施和提供这些基础设施的正确技能。为 Data Mesh 方法创建的每个领域复制这些资源是不可行的。此外,多个领域可能可以访问相同的数据集合。为了防止重复工作和资源,需要一个高层次的基础设施抽象。这就是自助服务数据基础设施即平台变得相关的方面。它是当前运行和监控各种服务所需的交付平台的延伸。自助服务数据平台包含能够支持领域开发人员在了解和专业知识有限的情况下进行工作流的工具。但是,它必须能够降低创建数据产品的成本。

4. 联合计算治理

Data Mesh 包含一个由独立专家团队设计和开发的、自成一体的分布式系统。要从这种架构中获得最大利益,不同产品之间的互操作性至关重要。联合计算治理模型正是提供了这一点。一个由数据域和平台产品所有者组成的联合体,在遵循一套全局定义的规则的同时,拥有做出决策的权力。这会产生一个健康的互操作性生态系统。

为什么使用 Data Mesh?

到目前为止,大多数公司都受益于作为更大数据基础设施一部分的单一数据湖或数据仓库,以满足其商业智能需求。这些解决方案由一小群专家实现、管理和维护,他们通常必须处理大量的技术债务。这导致数据团队难以跟上业务日益增长的需求,数据生产者和数据用户之间存在差距,以及数据用户的不满情绪日益加剧。

像 Data Mesh 这样的去中心化结构融合了两全其美——集中式数据库和去中心化数据域,以及独立的管道,提供了一种高效且可持续的替代方案。

Data Mesh 能够通过促进数据管理的更大自由度和独立性来消除数据湖的所有缺陷。这为数据实验和创新开辟了更多机会,因为数据管理的负担从少数专家手中转移了出来。

同样,自助服务平台为数据标准化、共享和收集提供了一种更通用、更自动化的方法。

最终,Data Mesh 的优势带来了与传统数据结构相比无可争议的竞争优势。

选择 Mesh 还是不选择 Mesh - 哪种选择适合我们?

鉴于这些众多好处,组织应该考虑利用 Data Mesh 进行大数据管理。然而,这对你来说是最佳选择吗?

一种简单的方法是通过数据质量、数据域数量、数据团队数量、规模以及数据工程和治理方法中的瓶颈来确定 Data Mesh 分数。

分数越高,意味着你的数据基础设施越复杂,因此对 Data Mesh 的需求就越大。

结论

技术兼容性是任何公司在尝试采用和实施基于 Data Mesh 的数据管理方法时需要考虑的最重要方面之一。要有效全面地拥抱 Data Mesh 架构,公司必须重组数据平台,重新思考领域所有者的角色,并彻底改革其结构,以实现数据产品的可拥有性,并过渡到将数据分析视为一种产品。