Snowflake 跨云协作

2025年8月2日 | 阅读 12 分钟

持续拓展全球业务:Snowgrid 的全新跨云功能

如今,许多企业都在国际化运营,但这可能会带来诸多挑战。为了实现数据协作,构建和维护数据管道是必要的,然而,在能够访问数据之前,可能需要漫长的等待时间。在多个云和地理位置强制执行统一的数据治理变得更加困难。此外,您还必须确保在发生故障或中断的情况下,能够正常运行。

"这意味着它可以在超过 35 个云区域以及三大主要云提供商:AWSAzureGoogle Cloud 上以相同的方式运行。" 这也意味着您将获得相同的平台和产品体验,包括相同的安全和治理功能。Snowflake 在今年的 Snowday 上发布了新的 Snowgrid 功能,这些功能解决了跨云业务连续性、跨云数据治理和跨云协作的问题。

Snowflake Cross-Cloud Co-operation

跨云协作

过去,用户必须在不同环境之间传输数据才能进行协作。他们可以通过从 FTP 服务器收集文件、抓取 API、使用 ETL 工具或设置各种数据仓库来实现这一点,以便团队访问数据。构建和维护这些数据管道既昂贵又耗时。它们也不安全,因为用户在数据移动后无法控制数据。

通过利用 Snowflake 的 Snowgrid 技术,组织可以跨云和地理位置共享实时、可查询的数据、数据服务和应用程序,而无需 ETL。实际上,这意味着无论客户身在何处或使用何种云,当数据提供商将其共享给全球商业生态系统时,客户都可以自动访问和处理数据。

Snowflake Cross-Cloud Co-operation

Avanes 解释道:“Snowgrid,即 Snowflake 协作底层技术,正在彻底改变跨不同区域和云共享和安全访问数据的方式。”“因此,涉及的数据集将受到所有必需的安全控制,包括用于对敏感数据进行分类和保护的数据访问策略或用户定义的标签。”

Snowflake 为 Snowgrid 的跨云协作宣布的新功能为用户在交换列表时提供了更多选择,例如:

  • 尽管用户可以通过使用和查询示例以及分类获得对列表的可见性,但提供商可以个性化列表并提供基于用量的定价。
  • 无论客户身在何处或使用何种云,Cross-Cloud Auto-Fulfillment(目前处于公共预览阶段)都能让提供商在无需手动干预的情况下,即时为客户提供数据并保持数据最新。随着需求的增加,提供商可以自动选择他们希望服务的区域。
  • Provider Studio Analytics 目前处于公共预览阶段,它为提供商提供了强大的编程和可视化洞察,以更好地了解数据列表的访问和使用情况。然后,这些信息可用于改进产品和客户体验。

跨云数据治理

为了实现对组织整个数据资产的治理,客户必须能够理解、保护和连接他们的数据生态系统。Snowflake 的跨云数据治理能够更轻松地实现大规模治理,同时确保企业在其生态系统内拥有一致的可见性并遵守全球要求。得益于最近宣布的跨云治理功能,客户将能够更有效地利用 Snowflake 的原生治理功能和平台优化来保护其全球数据。

Snowflake Cross-Cloud Co-operation

使用行访问策略和屏蔽来加速数据搜索,为了最大化 Snowflake 的效率,同时保持隐私和合规性,Search Optimisation Service 现在支持带有屏蔽和行访问控件的表,目前处于私有预览阶段。(在此处阅读有关 Snowflake 的 Search Optimisation Service 性能改进的更多信息。)

Avanes 表示:“无论您使用何种云、区域或工作负载,您都可以获得始终如一地执行的策略和数据保护。”此外,Snowflake 的 Data Governance Accelerated 项目提供深度连接器,让您无需额外的设置或基于脚本的变通方法即可更有效地连接和管理所有数据。所有这些共同确保了即使是敏感数据也能为您的公司和团队带来益处。这些数据可以开辟新的协作途径。

  • 客户可以通过 Snowflake Database Replication 在不同位置和不同云提供商的多个账户之间复制数据库并保持同步。
  • 通过将更新同步到备份区域或云提供商,客户始终可以确保数据的可用性和持久性。
  • 为了在发生重大中断导致特定区域或特定云提供商的服务中断时,能够继续业务运营,Snowflake Database Failover 使客户能够将数据库故障转移到可用区域或云提供商。

选择 Snowflake 云和区域以实现业务连续性

在决定将哪些云区域用作主要和次要数据源时,选择支持您的业务连续性计划的云区域至关重要。在选择两个区域用于主要和次要存储时,请考虑以下因素:

  • 单一云与多云:如果某个云提供商在多个区域发生故障,多云方法有助于确保可用性和弹性。如果需要退出策略,它还可以确保数据可移植性。如果您只选择一种云,请考虑使用 Azure Regional Pairs 等功能。
  • 成本:考虑您如何将使用量在云提供商之间转移到更便宜的区域。如果您的数据策略包含更高的数据可移植性,则可以更轻松地迁移生产系统并受益于底层云提供商费率的差异。
  • 性能:利用区域足迹,根据各地的云提供商的服务、存在和本地团队容量来选择最佳的云提供商。通过使用次要区域,该区域的客户可以受益于性能的提升。

控制跨云自动交付的成本。

作为供应商,您可以激活列表的跨云自动交付,从而将您的数据产品自动提供到其他 Snowflake 区域。当您为列表设置跨云自动交付时,它无需数据复制。为了帮助您的列表购买者,您仍然需要为您的数据产品在其他 Snowflake 区域的传输和存储付费。

Snowflake Cross-Cloud Co-operation

与传统的自动手动数据库复制不同,跨云自动交付无需在您服务的每个位置拥有单独的账户。相反,Snowflake 会将账单费用与区域相关联,并为组织创建单个、安全的共享区域来管理到该区域的自动交付。因此,与手动数据库复制相比,跨云自动交付的成本分配方式不同。

关于跨云自动交付

无需手动复制数据,跨云自动交付可让您在任何支持的 Snowflake 区域中提供数据产品,具体取决于您为列表选择的可用性和访问选项。请了解跨云自动交付的成本。

跨云自动交付的使用费用类似于正常 Snowflake 使用产生的费用。

  • 计算资源
    数据会被复制,并通过安全的共享区域在其他区域管理其状态,自动交付活动会使用计算资源。
    使用 VPS 费率,Snowflake Marketplace 会确定与列表自动交付到 VPS 区域相关的费用。有关 VPS 费率的信息,请参阅 Snowflake 服务消耗表。
  • 存储资源
    将数据库移动到其他位置的安全共享位置时,会产生存储费用。
  • 数据传输资源
    数据在区域之间传输通过首次数据库自动交付和后续同步操作进行。云提供商会为区域内或另一个云区域之间的网络内数据传输收费。
Snowflake Cross-Cloud Co-operation

源帐户的位置(即,包含主数据库的帐户)以及目标区域和云决定了数据传输速率。有关数据传输成本的信息,请参阅定价指南(可在 Snowflake 网站上找到)。

对于您拥有活跃列表购买者的每个区域,当您使用跨云自动交付时,这些使用费用会分配到一个由 Snowflake 管理的单个安全共享区域(有关归因费用的信息,请参阅查看实际成本)。有关 Snowflake 成本组成部分的更多详细信息,请参阅了解总体成本。

计算和管理费用。

当您将列表设置为自动交付到其他位置时,以下变量可能会影响您列表的交付成本:

  • 确定资源因素
    Snowflake 的查询用于完成您的列表,这些查询会消耗计算资源。这些查询的执行频率取决于您提供的刷新频率。
  • 存储资源方面
    自动填充和存储的数据量,包括初始和持续存储,取决于数据库的大小、数据添加和更新的速度以及数据库更改的速率。
  • 数据传输资源因素
    数据传输成本取决于列表自动填充到的云区域以及该区域的云提供商。由于数据传输成本随着客户寻求您的列表的地点数量而增加,因此交付这些列表的成本会更高。有关数据传输成本的信息,请参阅定价指南(可在 Snowflake 网站上找到)。

要降低自动交付成本,请检查您的列表使用情况,并详细了解如何准备数据以进行自动交付。

即插即用的故障转移和复制数据管道

对于数据工程工作负载,Snowflake 提供最佳体验。为了确保用户和应用程序能够访问最新、准确的数据,数千名客户使用外部阶段、内部阶段、Snowpipes 和存储连接器来创建摄取管道。

这些过程不仅增加了复杂性,还增加了在发生中断时发生人为错误的风险,导致漫长的恢复时间,这对于关键任务工作负载来说并不理想。现在,您可以轻松地重新播放您的管道,因为 Snowflake 将确保您获得幂等的加载。

Snowflake Cross-Cloud Co-operation

当由于中断故障转移到备份区域时,客户可以实现零数据丢失,因为您数据管道将恢复并继续摄取数据,同时确保幂等加载。消除复杂的专有工具和变通方法极大地简化了 Snowflake 业务连续性体验,并使用户能够满足更低的恢复点目标 (RPO) 和恢复时间目标 (RTO)。

  • 设想一个场景,其中主“帐户 A”位于美国西部。
  • 在正常运行期间,已设置复制以定期将管道项目从帐户 A 复制到帐户 B(次要帐户位于美国东部)。自动摄取管道将在故障转移后自动开始加载。
  • Snowflake 的目标是使跨区域和跨云复制更加容易。
  • 通过 Snowflake 的最新功能,客户现在可以更轻松地设计和操作大规模复制,这将帮助您保护关键工作负载免受中断。
Snowflake Cross-Cloud Co-operation

部署跨云自动交付

如果您希望自动交付与您的列表相关联的数据产品到其他 Snowflake 区域,请设置跨云自动交付。启用列表的自动交付后,Snowflake 会自动将您的数据产品交付给客户区域。列表附带的共享或应用程序包称为数据产品。

通过使用自动交付,客户可以更快地获取您的列表,这消除了手动复制您的数据产品和批准您的列表请求的需要。

注意:只有 Microsoft Azure 和 Amazon Web Services (AWS) 允许在 Snowflake Native App 中使用 Snowpark Container Services 进行跨云自动交付。有关更多详细信息,请参阅使用容器的应用程序的已知限制。

关于跨云自动交付

无需手动复制数据,跨云自动交付可让您在任何支持的 Snowflake 区域中提供数据产品,具体取决于您为列表选择的可用性和访问选项。可以为草稿和已发布的列表设置和激活自动交付。当列表启用了自动交付后,Snowflake 将自动将产品发送到适当的区域。

Snowflake Cross-Cloud Co-operation

您的数据产品以及客户查看您列表的方式将决定您如何在其他区域中提供它。

  • 如果您的数据产品是应用程序包,请使用自动交付来扩展您的数据产品在其他国家/地区的可用性。
  • 对于 Snowflake Marketplace 上的免费或有限试用列表,您可以手动复制数据或使用跨云自动交付。
  • 对于付费列表,您使用自动交付。

Snowsight 会自动确定目标帐户是否在其他区域,并为共享给特定客户帐户的所有列表激活自动交付。私有列表不能手动复制到其他区域。

跨云自动交付的操作

当您为列表启用跨云自动交付时,Snowflake 会处理安全共享区域 (SSA) 的部署以及您的数据产品到远程区域的自动交付。SSA 由 Snowflake 负责。如果远程区域中的客户已可获得您的数据产品,则他们可以立即获得。

数据产品,例如应用程序包或共享,与您的列表相关联。数据产品包含应用程序包的应用程序逻辑以及来自一个或多个数据库的对象。

Snowflake Cross-Cloud Co-operation

您提供列表的方式决定了您的数据产品自动交付到远程区域的确切时间。

  • 一旦指定客户收到您的私有列表,它就会被自动填充。
  • 您的数据产品在首次自动交付到新区域的 SSA 时会被传输到其中。自动交付不像复制那样保持持续同步的副本。您可以使用 FULL_DATABASE 或 SUBDB 设置来配置自动交付。

请注意,像 VPS 这样的高安全性设置与 Business Critical Edition (BCE) 对共享数据的处理方式不同。尽管 BCE 不强制为每个区域创建单独的 SSA,但它通过 Tri-Secret Secure 加密等功能强制执行严格的数据安全和合规性。

每个部署都有其安全共享区域 (SSA),包括政府特定的 Snowflake 环境和 Virtual Private Snowflake (VPS)。这确保了自动交付将继续遵守特定于这些设置的严格安全和数据隔离规范。

Snowflake Cross-Cloud Co-operation

在您的数据产品首次自动交付到区域中的 SSA 后,您的数据产品中的更改将根据所选的刷新频率从您的帐户进行同步。

  • 当您为列表设置跨云自动交付时,如果您的数据产品是共享,您将指定一个刷新频率。与列表关联的数据库将受到刷新频率的影响。
  • 第一次自动交付的日期和时间取决于该区域的第一个客户请求数据产品的时间。
  • 如果您提供的数据产品是应用程序包,您将在帐户级别设置一个适用于您帐户提供的每个应用程序包的刷新频率。

深入了解自动交付注意事项

当您为列表使用自动交付时,请考虑以下事项:

  • 您只能在注册 Snowflake 的云中使用 AWS Marketplace、GCP Marketplace 或 Azure Marketplace 创建帐户和 SSA。
  • 交付到您当前云服务区域以外位置的列表将不会成功。
  • 根据其大小,用户可能需要一段时间才能访问您的数据产品。您的数据产品的大小也可能影响自动交付的成本。有关更多信息,请参阅管理跨云自动交付费用。
Snowflake Cross-Cloud Co-operation

跨云 Snowflake 复制

这确保了多云数据访问、灾难恢复和业务连续性的最小停机时间。

1. 跨云复制用例

  • 业务连续性与灾难恢复
  • 万一发生故障,请确保您的数据备份副本在不同的云或位置可用。
  • 实现快速恢复,减少停机时间。
  • 多云方法
  • 将您的数据分布在 AWS、Azure 和 GCP 中,以避免供应商锁定。

提供选择最适合特定工作负载的云提供商的自由。

  • 合规性与数据主权
  • 在必要的位置保留数据副本,这有助于遵守数据驻留规定。
  • 确保符合 SOC、HIPAA 和 GDPR
  • 低延迟与性能优化
  • 将数据复制到更靠近最终用户的位置,以提高查询性能。
  • 降低全球分布的团队的网络延迟。
Snowflake Cross-Cloud Co-operation

2. 财务方面

  • 存储费用:复制的数据存储在次要 Snowflake 帐户中,这会导致额外的存储费用。
  • 计算费用:在次要帐户上查询或修改数据可能会产生计算费用。
  • 数据传输费用:根据云提供商,在云之间或区域之间移动数据可能会产生费用。

3. 跨云复制最佳实践

  • 采用增量复制:只复制新添加或修改的数据,有助于避免不必要的费用。
  • 优化故障转移就绪状态:定期测试故障转移过程,以确保无缝切换。
  • 充分利用复制组:为保持一致性,将相似的对象保留在同一个复制组中。
  • 验证数据完整性:复制后,确认元数据和行数在各个帐户之间是一致的。

4. 实际示例

  • 情况:一家国际电子商务公司在美国使用 AWS 运营,但需要在欧洲(Azure)和亚洲(GCP)扩展。它们需要:
  • 高可用性:确保客户信息和订单始终可用。
  • 合规性:出于 GDPR 的考虑,将欧盟客户数据存储在 Azure(欧洲)。
  • 优化性能:复制数据

对于重视高可用性和数据完整性的公司来说,在发生中断时能够快速故障转移并平稳地重新启动数据管道至关重要。到目前为止,客户被迫要么创建自定义脚本,要么承担手动生成这些重要对象的繁琐任务。客户必须确保在应用程序层进行数据去重,并重放其数据管道以实现零数据丢失。

结论

总而言之,我们可以得出结论,企业可以通过利用自动同步、故障转移组和增量复制来最大化跨多个云位置的成本、性能和业务连续性。通过实践最佳实践,例如跟踪复制状态、最大化故障转移准备就绪状态以及降低出口成本,可以确保有效且可靠的多云方法。


下一主题