Snowflake 数据共享经济

2025年8月2日 | 阅读 9 分钟

Snowflake 数据共享:这是什么?

简单来说,数据共享允许您与只读账户(稍后会详细介绍)或其他 Snowflake 账户共享某些对象。数据在账户之间不被复制或移动,这是数据共享的主要优势之一。

这为什么能为组织带来如此巨大的优势?在创建数据管道和数据产品时,通常需要跨数据库和不同系统移动数据以进行合并。

过去,企业会将外部数据集成到他们的数据湖中,将数据导出到其中,然后使用 Apache Spark 等工具进行一些分析。如果您将数据转移到 Snowflake,而该外部数据源可以在无需加载的情况下与您的公司交换数据,会怎么样?通过这样做,消除了在多个数据副本之间保持同步的维护负担,节省了维护、计算和存储的成本。

Snowflake Data Sharing Economy

有哪些类型的数据共享?

您可以通过几种不同的方式与 Snowflake 共享数据。您可能希望让所有客户都能访问您的数据,或者专门与某个特定公司共享。直接共享用于账户到账户的共享,是最基本的数据共享类型。数据交换和 Snowflake 数据市场旨在更广泛地访问您的数据。

虽然非 VPS 区域的所有 Snowflake 账户都可以访问 Snowflake 数据市场,但数据交换是您与受邀成员安全交互的中心位置。

在决定将数据货币化或与组织共享之后,您必须决定如何共享该数据,具体来说:

  • 谁将承担计算资源的费用?
  • 您希望如何实施安全性?
  • 您希望在多大程度上共享您的数据?
  • 共享数据时,您可以选择与只读账户共享,也可以选择与其他 Snowflake 账户共享。

如果最终客户没有 Snowflake 账户,可以创建一个只读账户。这将利用数据供应商账户中的计算对象。客户可以从此类对象读取数据,而无法查看产生可消费数据的底层 SQL。

Snowflake Data Sharing Economy

什么是 Snowflake 数据市场?

当选择在 Snowflake 数据市场中列出数据时,有两种选项:标准列表和个性化列表。另一方面,客户可以通过个性化数据列表向生产者请求数据集。为了增加利润,数据生产者提供基本的标准数据列表,并允许数据消费者根据需要请求更个性化的数据可能是有益的。

如何实践 Snowflake 数据共享?

在此示例中,我们有一个用例,我们希望将一些营销和客户数据合并起来,作为数据共享提供给客户。为了将该信息提供给客户,我们将需要:

  • 一个包含销售和营销表和模式的数据库
  • 一个包含我们共享的数据库
Snowflake Data Sharing Economy

直接分享

正如前面提到的,通过直接共享可以最轻松地为客户提供对您共享数据的访问权限。这将取决于数据源是否能够访问客户账户的账户 ID。第一个命令将输出您账户中的所有共享。

您可以将 OUTBOUND 过滤出来,从而查看您正在提供的数据共享。如果客户已经形成了对您 OUTBOUND 共享的 INBOUND 共享,第二个命令将产生一个输出。如果想确定哪些账户在使用您的共享以及它们是否正在被使用,这一点至关重要。

消费者如何建立数据共享?

换句话说,消费账户必须在其账户中创建一个共享资源;生产账户不能强制在另一个账户中创建对象。

1.将信息传输到只读账户

如果您希望与没有 Snowflake 账户的客户共享数据,则必须使用只读账户。

2.共享数据的最佳方法

在共享和接收数据时,应遵循一些推荐的做法。这些做法包括根据需要添加或删除共享中的对象、审核对数据共享的访问以及验证数据共享。

Snowflake Data Sharing Economy

如何审核数据共享访问?

当与多个账户共享数据时,建议验证这些账户是否已配置为共享和消费数据。如果您当前有任何未在使用配置的数据共享且不打算使用的账户,您应该减少您的安全占用空间并从您的共享中删除这些账户。

如何验证数据共享?

在将安全 [物化] 视图添加到您的共享之前,请确保您的数据访问符合您的预期。您可以更改您的共享以添加客户账户,一旦您确认客户只能查看相关数据。

为什么将数据提供给 Snowflake?

当您使用 Snowflake 作为提供商时,您可以控制谁可以访问您的数据,并避免在不同个人和组织之间维护数据同步的问题。由于数据保留在 Snowflake 中,您作为数据消费者,可以最大程度地减少需要执行的数据转换。这使得您可以轻松地将您自己的数据与已与您共享的数据集进行合并。

如果您使用列表发布数据,您可以包含元数据,包括标题和描述,以及使用示例,以帮助他人快速访问您的数据。

Snowflake Data Sharing Economy

共享选项

列表消除了手动复制工作的需要,并允许您跨云与任何 Snowflake 区域中的人员共享数据。如果您使用列表,您可以查看客户数据使用情况,向您共享的数据添加更多元数据,对于在 Snowflake 数据市场公开提供的列表,您可以确定客户对您的列表有多感兴趣。

上市

列表可以公开提供在 Snowflake 数据市场,也可以私下提供给指定的账户。有关更多信息,请参阅“关于 Snowflake 数据市场”。

如果您同意提供商和消费者设定的条款,您就可以开始共享和消费通过列表与您共享的数据。

信息共享

如果您无法创建私下提供给账户的列表,则可以使用数据交换与您邀请的指定账户组共享数据。在请求设置并提供数据交换后,您可以邀请参与者并指明他们是否有权提供、消费或两者兼有。

在安全环境中与共享数据协作

当您使用列表、直接共享和数据交换与第三方共享数据时,第三方可以直接访问数据。如果您希望与他人共享数据,但仍然可以控制谁可以访问它,您可以选择在 Snowflake 数据洁净室中进行协作。由于供应商在洁净室中共享数据时会指定对共享数据可以执行哪些分析,因此消费者可以从数据中获得见解,而不会完全访问数据。

Snowflake Data Sharing Economy

Snowflake 数据共享是 Snowflake 平台的一个组成部分,它使组织能够在不移动或复制数据的情况下,在账户之间安全地实时共享数据。这使得多个团队、部门或外部合作伙伴能够轻松协作。

为了在保持数据集中的同时允许其他个人或组织实时访问数据,Snowflake 的数据共享功能授予对共享数据的只读访问权限。通过这样做,消除了重复数据,降低了存储成本,并且所有各方都使用最新版本的数据。此外,Snowflake 通过允许 Snowflake 账户之间(跨账户共享)以及同一 Snowflake 账户内部(账户内共享)的数据共享,增强了协作的灵活性。

对于数据共享用例,数据目录有什么用?

通过将我们的目录使用分析与 Snowflake 等高级数据共享工具集成,Alation 的平台使您能够更深入地了解人们如何使用您公司的数据资产。

  • 从人工数据目录活动(如策划、访问、更改等)获得的分析信息称为目录使用分析。(查看完整列表。)
  • 目标/消费者: 数据提供商账户数据顺利传输到的 Snowflake 目标账户。
    监控目录使用指标的一个功能是 Alation 指标。它协助企业跟踪他们的数据成熟度并评估他们的数据项目的成功程度。
  • 跟踪指标: Alation Analytics 使跟踪目录活动指标(如总资产、活跃用户的热门资产、热门搜索词和热门查询)变得更加容易。
  • 监控策划: 根据您的需求跟踪数据资产的策划情况。

数据共享和目录使用分析的关键用例:增强跨部门分析

  • 将目录使用分析与其他业务领域(如 IT 基础架构或财务)结合起来,扩展您的目录使用分析,提供完整的运营视图。
Snowflake Data Sharing Economy

数据工作流自动化应用包括:

  • 数据资产所有者可以通过设置流程自动收到完成策划任务的提醒。这将确保数据得到及时更新并保持良好状态。
  • 自定义数据资产指标报告: 创建并向利益相关者分发关于关键指标的报告,包括搜索流量、资产受欢迎程度和策划完成情况。与 Snowflake 配合良好的热门 BI 解决方案(如 Tableau、Superset 和 Power BI)可以用来交付这些报告。
  • BI 工具仪表板更新: 使用自动化软件根据所做的操作自动更新第三方 BI 应用程序中的仪表板,以确保您的报告始终与最新的策划活动保持同步。

自动化任务的有用建议

  • 首先,将原始目录使用分析模式加载到您喜欢的商业智能应用程序中。
  • 创建显示谁查看了哪些数据资产的报告,使用单独的表或连接多个表(例如视图和用户)。
  • 为方便将来访问,直接将报告视图保存在 BI 工具中。
  • 为了确保报告顺利更新,请确保您的 BI 工具和 Snowflake 共享具有可靠的身份验证系统。
Snowflake Data Sharing Economy

如何通过 Snowflake 数据共享启用 Alation 的目录消耗指标

  • 使用您的 Snowflake 基础架构为繁重的工作负载优化性能。
  • 尽管 Alation 的 Snowflake 共享旨在实现高性能,但处理大型或复杂的报告有时需要更多的处理资源。
  • 这正是 Snowflake 数据共享和目录使用分析发挥其全部潜力的地方。
  • 通过使用您自己更大的 Snowflake 实例并利用 Snowflake 的数据共享功能,您可以更快地分析这些庞大的报告。这将带来更快的见解和更高效的流程。

使用您自己的 Snowflake 实例处理大型工作负载的主要优点包括:

  • 更快地获得复杂报告的见解: 大型、复杂的报告可能需要很长时间才能运行,但如果您使用拥有更多资源的自己的 Snowflake 实例,它们会运行得更快。
  • 这使您能够更快地获得所需的见解,而不会出现通常因资源限制而导致的延迟。
  • Snowflake 数据共享消除了对传统耗时的 ETL 方法的需求。
  • 数据的直接共享确保了顺畅的访问,而没有处理大量数据通常带来的困难。

优化您个人 Snowflake 实例性能的有用建议

  • 确保您的目标 Snowflake 数据库具有足够的资源:您的 Snowflake 实例的 CPU 和内存容量应足以处理查询的复杂性和数据量。
  • 留意过多的查询超时:在处理 XL 工作负载时,请留意超时。
  • 如果您经常遇到超时,请考虑更改您的设置以避免中断。
  • 根据需要扩展:如果大型报告超时或花费的时间比预期长,扩展您的 Snowflake 数据仓库可以帮助提高性能并确保更快的处理时间。

结论

总之,我们可以得出结论,Snowflake 数据共享是最重要的。将 Snowflake 数据共享与 Alation 的目录使用分析相结合,可以实现更具可定制性的报告、增强的安全性以及更快的见解。无论您是优化性能、处理繁重的工作负载还是简化跨团队访问,这种强大的连接都能确保您的数据目录提供最大的价值。


下一主题