Snowflake 中的并发扩缩容

2025年1月29日 | 阅读 7 分钟

引言

Snowflake 是一种基于云的数据仓库服务，由于其创新的架构和强大的性能能力，已获得大量关注。Snowflake 与传统数据仓库的区别在于其能够无缝扩展以处理各种工作负载。在其扩展功能中，并发扩展 (Concurrency Scaling) 作为一种强大的工具脱颖而出，旨在管理高需求并确保一致的性能。

理解并发扩展

并发扩展是 Snowflake 中一项旨在通过自动配置额外的计算资源来处理并发查询活动爆发的功能。这些资源被称为“并发扩展集群”。当主要计算资源（虚拟仓库）无法满足需求时，Snowflake 会自动启动这些集群来管理负载，从而保持性能并最小化查询延迟。

并发扩展的工作原理

并发扩展采用按需付费模式，并根据系统的需求自动触发。

以下是其功能的分步概述：

监控工作负载： Snowflake 会持续监控虚拟仓库的工作负载。当并发查询数量超过主仓库的处理能力时，它会识别出对额外资源的需求。
配置集群： 检测到需求激增后，Snowflake 会自动配置并发扩展集群。这些集群可在数秒内启动，提供必要的计算能力来处理增加的工作负载。
路由查询： 查询会被动态路由到并发扩展集群。这确保了没有单个集群成为瓶颈，并且系统可以有效地处理大量并发查询。
缩减规模： 一旦需求减退，Snowflake 会通过关闭并发扩展集群来自动缩减规模。这种自动扩展可确保资源得到最佳利用并最大限度地降低成本。

多集群共享数据架构

Snowflake 的架构利用了多集群共享数据方法，将存储与计算分离，从而允许它们各自独立扩展。这种设计对于高效的并发管理至关重要，并确保计算资源可以根据需要进行扩展，而不会影响数据存储。

计算层： 该层由多个虚拟仓库和并发扩展集群组成。每个虚拟仓库都是一个计算资源集群，负责执行数据处理任务，例如执行查询和转换。
存储层： 存储层是一个集中式存储库，用于存储所有数据，包括结构化和半结构化数据。Snowflake 的存储层构建在云对象存储服务（例如 AWS S3、Azure Blob Storage 和 Google Cloud Storage）之上，提供几乎无限的存储容量。
服务层： 该层协调和管理计算层和存储层之间的交互。这包括查询优化、事务管理、元数据管理和安全等服务。

存储与计算的分离

Snowflake 的核心架构原则之一是存储与计算的完全分离。这种分离使 Snowflake 能够根据工作负载要求独立扩展每个层。

独立扩展： 计算资源可以独立于存储层进行扩展。这意味着，当需要更多处理能力时（例如，在查询高峰时段），可以在不影响底层数据存储的情况下配置额外的虚拟仓库或并发扩展集群。
弹性： 分离允许计算资源的弹性扩展。Snowflake 可以自动添加或删除计算集群以匹配工作负载需求，从而确保高效的资源利用率和成本效益。
资源隔离： 不同的工作负载可以在单独的虚拟仓库中运行，从而防止资源争用。例如，ETL 作业可以在一个虚拟仓库中运行，而临时查询可以在另一个虚拟仓库中运行，从而确保一个工作负载不会影响另一个工作负载的性能。

虚拟仓库和并发扩展集群

虚拟仓库是 Snowflake 中的主要计算资源，负责执行查询和执行数据转换。并发扩展集群是动态配置的额外计算资源，用于处理并发查询活动的爆发。

虚拟仓库

专用计算： 每个虚拟仓库独立运行，为特定工作负载提供专用计算资源。
大小调整和扩展： 可以根据工作负载需求手动或自动调整虚拟仓库的大小（向上或向下扩展）。此调整会更改仓库中的计算节点数量。
工作负载隔离： 虚拟仓库可在不同工作负载之间提供隔离，确保繁重的数据处理任务不会影响交互式查询。

并发扩展集群

自动配置： 当系统检测到并发查询激增且超出主虚拟仓库的处理能力时，会自动配置并发扩展集群。
动态扩展： 这些集群会快速且透明地启动，将额外的查询负载分配到多个计算资源。
成本效益： 并发扩展采用按秒计费模式，确保组织仅在需要额外计算资源时付费。

集中式数据存储和访问

Snowflake 的架构确保所有计算资源都可以访问单个、集中的数据存储层。这种集中式存储模型提供了多种优势：

单一事实来源： 所有数据都存储在集中式存储库中，确保一致性并消除数据复制的需求。这种集中化确保所有计算资源都能使用最新的数据。
数据共享： Snowflake 的架构支持不同 Snowflake 帐户之间的安全数据共享，而无需复制或移动数据。这种功能通过集中式存储层实现，该存储层允许多个帐户无缝访问共享数据。

监控和管理并发扩展

尽管并发扩展会自动运行，但监控其使用情况和性能对于优化成本和确保高效运行至关重要。Snowflake 提供多种工具和指标来帮助实现这一目标：

查询历史： Snowflake Web 界面中的“查询历史”页面显示所有查询的详细信息，包括在并发扩展集群上执行的查询。这有助于了解查询模式和资源利用率。
仓库使用情况： “仓库使用情况”页面提供了对虚拟仓库性能和活动的洞察，包括并发扩展集群的激活。这有助于识别趋势和潜在的优化领域。
系统使用情况： Snowflake 还提供系统使用情况视图和函数，可以对其进行查询以检索有关资源利用率的详细信息，包括并发扩展活动。

并发挑战

资源争用： 当多个查询争用相同的计算资源时，会发生资源争用。
数据一致性： 在多个查询同时访问和可能修改同一数据集时，确保数据一致性至关重要。
负载均衡： 需要有效的负载均衡才能将工作负载均匀地分配到可用的计算资源上。
可扩展性： 随着数据量的增加和并发用户数量的增加，系统必须高效扩展以处理不断增长的负载。
延迟和性能： 保持低延迟和高性能对于用户满意度至关重要，尤其是在实时分析和交互式查询工作负载方面。

并发挑战的解决方案

自动资源配置： Snowflake 通过自动配置并发扩展集群来解决资源争用问题。
多集群架构： Snowflake 的多集群架构将计算和存储分离，允许多个计算集群同时访问相同的数据而不会发生争用。
高效负载均衡： 并发扩展包含高效负载均衡机制，将查询均匀分配到可用的计算集群。
弹性可扩展性： Snowflake 的架构专为弹性可扩展性而设计，使其能够高效地处理不断增长的工作负载。
最小化延迟： 快速配置并发扩展集群有助于减少延迟。
透明操作： 并发扩展以透明方式运行，无需手动干预或复杂配置。
按需付费模式： 并发扩展的按需付费模式通过仅在需要时收取额外计算资源的费用来确保成本效益。

缓解并发挑战

要充分利用 Snowflake 的功能并缓解并发挑战，请考虑以下最佳实践：

1. 优化查询

定期审查和优化查询，以减少其资源消耗和执行时间。高效的查询对系统的负载较小，从而减少了对额外计算资源的需求。

2. 合适的仓库大小

为主要虚拟仓库设置合适的大小以处理典型工作负载。大小合适的仓库可减少并发扩展集群激活的频率，从而优化成本和性能。

3. 监控和分析工作负载模式

使用 Snowflake 的监控工具来分析工作负载模式并识别使用高峰时段。了解这些模式有助于配置系统以实现最佳性能和资源利用率。

4. 利用物化视图和缓存

利用物化视图和缓存来减少计算资源的负载。预计算结果可以显著提高查询性能，并减少对额外计算集群的需求。

5. 设置警报

配置警报以监控仓库使用情况和资源消耗。警报可以帮助管理员主动采取措施来管理工作负载和优化性能。

6. 教育用户

教育用户编写高效的查询并了解其工作负载对系统的影响。了解情况的用户可以帮助减少不必要的负载并提高整体系统性能。

成本管理

使用并发扩展进行有效的成本管理至关重要。虽然按需付费模式有助于最大限度地减少不必要的支出，但还有其他策略可以进一步优化成本：

查询优化： 优化查询以更高效地运行可以减少虚拟仓库的负载，从而减少对并发扩展集群的需求。
仓库大小： 正确调整主要虚拟仓库的大小以匹配典型工作负载，可以减少并发扩展激活的频率。过大的仓库可能导致不必要的成本，而过小的仓库可能增加对扩展集群的依赖。
监控和警报： 设置仓库使用情况的监控和警报可以帮助主动管理成本。Snowflake 允许配置自定义警报，以便在达到某些阈值时通知管理员。
当多个进程或线程尝试同时访问共享资源时，会产生并发挑战，可能导致性能瓶颈、数据不一致等问题。
在 Snowflake 的并发扩展的上下文中，需要解决这些挑战以确保平稳高效的运行。
本节探讨了主要的并发挑战以及 Snowflake 如何应对这些挑战。

总结

Snowflake 中的并发扩展是一项强大的功能，旨在通过自动配置额外的计算资源来处理高需求场景。其无缝集成、成本效益和性能优势使其成为依赖 Snowflake 进行数据仓库需求的组织的宝贵工具。

下一主题Snowflake 中的连续数据保护

Snowflake 中的并发扩缩容

引言

理解并发扩展