影响 Snowflake 的新兴技术

2025年7月31日 | 阅读 12 分钟

在传统的负载方面,整体性能得到了提升,尤其是在企业数据湖方面,Snowflake 推出了通过 Python 和 Scala 实现动态文件处理的 Snowpark,以及管理半结构化数据的通用可用性功能。

该模块的核心是面向 Snowflake 生态系统的 SNOWFLAKE HORIZON 数据治理框架。这个包罗万象的解决方案涵盖了合规性、安全、隐私、互操作性和访问等重要主题。Horizon 专注于赋予企业对 Snowflake 生态系统中所有平台和地理区域的数据的完全控制权,确保公司遵守国家和国际法律。

Emerging Technologies Impacting Snowflake

随着正在开发的差异化隐私策略的推出,隐私也扮演着核心角色。这些策略通过向数据添加“噪声”层,旨在通过减少标识信息的数量来促进数据隐私,随着粒度的增加,数据隐私将得到增强。

SNOWFLAKE COPILOT(处于私有预览阶段)通过 LLM 引入类似 ChatGPT 的自然语言交互功能的能力引起了我的兴趣。这将通过使从自然语言请求中构建 SQL 查询更加容易,为 Snowflake 的图形用户界面中的交互开辟新的可能性。

Emerging Technologies Impacting Snowflake

管理成本:改进财务监督

随着成本管理界面的推出,管理员现在拥有了更多工具来进行改进的财务控制。在评估扩展或考虑多集群以增加容量时,通过显示每个仓库的工作负载指标的图表和仪表板可以获得可见性。成本-每查询图表可用于查找可能需要重新设计的查询以及其他信息。

致力于优化,他们通过成本洞察部分专注于优化,提供了我们账户中的实际用例,其中已确定了改进领域。它提供了如何使用它的指南,以及对该情况下最相关最佳实践的解释。对于许多账户管理员来说,这是一个救命稻草,也非常有趣。

最后,他们审查了预算视图(可在 AWS 公共预览版中使用),该视图允许用户随时间推移检查和比较计划支出和实际支出。当超过特定的不合规级别时,可以设置电子邮件或消息通知来自动跟踪此预算。可以为每个资源(按数据库、模式、表或仓库)分别配置预算。

改进 Snowflake 环境中的人工智能

随着 ML MODELLING API 即将通用可用,Snowflake 正式启动其在 Snowflake 生态系统中的机器学习 (ML) 计划。为了使习惯于使用 Notebooks 进行训练和样本的数据科学家和分析师更容易过渡,Snowflake 将推出 SNOWFLAKE NOTEBOOKS(目前处于私有预览阶段)。

Snowflake 建议将 SNOWPARK CONTAINER SERVICE(即将推出公共预览版)用于需要比 API 所能提供的更多功能或能力的更复杂的机器学习应用。借助此服务,整个 Snowpark 应用程序可以部署在容器中并在 Snowflake 生态系统内运行,利用针对灵活和实用计算进行了优化的功能,就像 Kubernetes 一样。

Emerging Technologies Impacting Snowflake

SNOWFLAKE CORTEX:改善人工智能的可访问性

CORTEX 引擎是 Snowflake 致力于将其人工智能 (AI) 集成到客户工作负载中的不懈努力的结果,即“人人皆可 AI”。它包含大量 Snowflake(无服务器)服务功能,可提供对市场上最先进的 LLM 和 AI 模型进行快速简便的访问,从而实现其使用的民主化。

此外,还开发了通用功能,其中包含了 LLAMA2 等流行 LLM 标准的预置功能。通过展示这些功能,Snowflake 证明了它在使 CORTEX 脱颖而出方面付出了多少努力。

扩展应用程序:原生集成演进

针对 SUMMIT 上关于 Snowflake 原生应用程序集成发布的公告,他们已发布了更多信息:此功能(由于 SUMMIT 上引入了与 GitHub 的集成)将允许脚本直接针对我们账户中的 Git 存储库运行。

在活动期间,还披露了 NATIVE APP FRAMEWORK 的另一个方面,该框架目前处于私有预览阶段,并将很快在 AWS 上通用可用。

Emerging Technologies Impacting Snowflake

利用 Snowflake 生态系统的技术为您的业务面向未来

Snowflake 毫无疑问地生产了强大的功能,我们热切期待在年终合作伙伴活动中发布更多公告。这些进步巩固了 Snowflake 作为云数据平台领域先驱的地位。虽然某些方面已广泛可用,但大部分仍处于开发和预览阶段。这些功能包括允许用户创建聊天机器人来查询其数据并轻松创建生成式 AI 应用程序的工具。

Emerging Technologies Impacting Snowflake

Snowflake 采用生成式 AI 的时间比其主要竞争对手 Databricks 以及 Google 和 Microsoft 等科技巨头要晚一些。然而,自 2 月份 Sridhar Ramaswamy 接替 Frank Slootman 担任 CEO 以来,该供应商一直更加活跃,宣布了一系列与 AI 相关的功能,例如与 Mistral AI 的集成以及发布其大型语言模型 (LLM)。

Snowflake 是一家数据云提供商,总部位于蒙大拿州博兹曼,但没有中央办事处。其平台允许用户在一个平台上存储、查询和分析数据。此外,该供应商目前正在构建一个 AI 开发环境,用户可以在其中使用来自其组织的数据来设计、训练和实现模型和应用程序。

专注于 GenAI

请注意,GenAI 可能彻底改变数据管理和分析。复杂的决策一直是实现数据驱动型决策的障碍。任何组织中能够处理数据的工人数量都受到编写代码以管理数据的要求的限制。同样,需要数据素养培训才能解释和分析数据的要求也限制了这一数量。

通过实现与数据的实际自然语言交互,生成式 AI 降低了这种复杂性,使非技术人员更容易与数据进行交互,同时还提高了熟练专业人员的生产力。在公司公布了其生成式 AI 开发的早期目标后的一个月,Snowflake 于 11 月份发布了更多生成式 AI 功能。然而,直到 Ramaswamy 被任命为 CEO 之后,Snowflake 的生成式 AI 开发速度才赶上其主要竞争对手。

Emerging Technologies Impacting Snowflake

Snowflake 将广泛提供 Document AI 和 Snowflake Copilot,以及即将推出的公共预览版聊天机器人开发 API。Snowflake Copilot 是一个文本到 SQL 助手,旨在通过允许用户使用普通语言而不是 SQL 代码来执行任务来提高用户生产力。使用一种称为 Document AI 的技术,用户可以从文档中提取文本,并用自然语言进行查询和分析。

除了其对话技能外,Snowflake 最近还披露了其生成式 AI 功能,其中包括:

  • 为确保用于训练模型的数据安全且可用,Snowflake Cortex Guard 是一款基于 LLM 的安全工具,可扫描数据集和数据产品中的有害内容(如暴力和仇恨),并向用户发出此类内容的警报。
  • 机器学习操作 (MLOps) 功能包括 ML Lineage,允许用户在其生命周期中跟踪模型及其信息来源;Snowflake Model Registry,用于控制对 AI 模型的访问;以及 Snowflake Feature Store,用于存储和管理用于模型训练的机器学习特征。
  • 根据 Aslett 的说法,允许 Snowflake 用户构建和管理 AI 应用程序的新 AI 相关功能也是支持创建统一开发和分析环境的重要改进,尽管 Cortex Analyst 和 Cortex Search 可能是其中影响最大的。
  • 他表示:“Cortex Analyst 和 Cortex Search 将更好地使 Snowflake 用户能够开发支持企业决策的应用程序……而 Snowflake AI & ML Studio 旨在加速 AI 应用程序的开发,并辅以新的 MLOps 功能。”

其他新功能

在会议期间,Snowflake 不仅展示了大量新的 AI 相关功能,还披露了其传统数据管理平台的新功能,例如增强的治理工具。一个名为 Snowflake Horizon 的治理层于 11 月份首次推出。它将访问控制、安全、隐私、合规性和互操作性集成到一个统一的环境中。

该供应商目前正在为 Horizon 提供更多功能。

内部市场(仍处于私有预览阶段)是一个用户可以发布数据产品(如仪表板、报告和模型)的地方,以便组织内的其他人可以找到并使用它们来指导他们的工作。此外,Marketplace 具有访问限制,确保只有拥有适当授权的员工才能访问其公司的数据产品,以及安全功能,可防止与外部系统意外共享。

除了 Marketplace,Horizon 的新协作功能还允许您共享 AI 模型(即将推出私有预览版),以及 Apache Iceberg 和动态表。为了进一步促进数据查找,Universal Search(允许用户查找来自其他提供商的数据存储设施,以及 Iceberg 存储和 Snowflake)现已广泛可用。

Kleinerman 表示:“Snowflake 架构的关键方面之一……是让客户更容易利用技术并从他们的数据中获得最大价值。“我们的目标是消除客户需要知道去哪里找什么的需求,并提供一个单一的、中心化的体验来展示一组数据产品,以帮助他们完成手头的任务。”

以下是 Snowflake Summit 上发布的其他新的数据云功能:

  • Snowflake Trail 是一系列数据可观察性功能,允许用户查看数据在其通过管道和驱动应用程序时的运行情况。
  • Snowflake Performance Index 是一个帮助用户减少云计算成本的工具,它衡量 Snowflake 平台在加速查询和其他工作负载方面的性能。
  • Snowflake Notebooks 是一个模型和应用程序开发环境,目前处于公共预览阶段,它结合了 Snowpark ML 和 Snowflake Cortex AI,并为 Python、SQL 和 Markdown 编程语言提供了接口。
  • 与 Git 的公共预览集成,有助于用户在开发阶段更好地协作。
  • 根据 Aslett 的说法,像 Snowflake Trail 和 Polaris Catalogue 这样的治理功能是该供应商的重要改进,就像 Snowflake 最近对 AI 的关注将增加该供应商与其竞争对手的竞争力一样。
Emerging Technologies Impacting Snowflake

与此同时,Petrie 指出了 Snowflake 避免随意添加新功能的重要性。为了提供开发复杂应用程序(包括生成式和经典 AI)的基础,它正在引入互补和增强的开发人员功能。

Petrie 表示:“Snowflake 专注于帮助开发人员构建 AI 应用程序是正确的。最终,功能而不是独立的解决方案是 GenAI、预测 ML 和其他模型的关键。为了创造商业价值,它们必须是集成用户体验的一部分。”

“Databricks 和 Snowflake 不断发生冲突。尽管 Snowflake 之前发布的许多产品尚未广泛上市,但它们表明了该公司对 AI 和 GenAI 市场的坚定承诺。”

展望未来

Aslett 表示,既然 Snowflake 已经展示了明确专注于 AI 的功能,那么下一步关键是使这些功能广泛可用。Snowflake 在其用户大会上公布的大部分内容不仅尚未公开,甚至还没有进入公共预览阶段。Snowflake 需要将其工具从开发阶段推进,以便能够与 Databricks 和其他 IT 公司竞争。

Emerging Technologies Impacting Snowflake

虽然降低编码要求并提供 AI 助手是使更多员工能够协作处理数据和 AI 的关键步骤,但 Snowflake 的开发环境还必须优先考虑数据安全和模型正确性。

Petrie 特别提到了确保由专家创建 AI 应用程序的重要性。这是一个大胆而危险的想法。错误的 AI 模型输出,特别是 GenAI,可能导致业务中断。必须由 AI 专业人员领导这些部署,以最大限度地降低风险。一系列前沿技术正在影响 Snowflake,一个知名的云数据平台,改变其功能并改进企业处理、存储和分析数据的方式。以下重要技术正在影响 Snowflake 的未来:

1. 边缘计算

  • 数据收集和处理:随着越来越多的数据在边缘(例如,来自物联网设备和移动应用程序)生成,需要实时收集、存储和分析数据。通过在边缘收集和处理数据后集中数据,Snowflake 的架构可以通过在分散的站点之间提供统一的视图来支持边缘计算。
  • 数据同步:随着越来越多的设备和应用程序在边缘生成数据,Snowflake 聚合这些数据流到云中的能力至关重要。虽然边缘计算通过允许本地处理数据来降低延迟,但将这些数据集中到 Snowflake 的云中可确保全球运营的可扩展性、安全性和一致性。
  • 低延迟分析:Snowflake 对流式数据摄入(如 Snowpipe)的支持使得对从边缘收集的数据进行实时分析成为可能。这对于需要根据海量数据集立即做出决策的行业至关重要,包括无人驾驶汽车、智慧城市和工业物联网。

2.混合和多云计算基础设施

  • 多云互操作性:随着企业实施多云战略,跨云平台有效协作至关重要。由于 Snowflake 的云无关架构以及与 AWS、Azure 和 Google Cloud 的全面交互,用户可以在这些平台之间移动工作负载。
  • 混合云部署:随着混合云(结合了本地和云基础设施)的日益普及,Snowflake 必须不断调整其产品以适应各种上下文和数据源。根据混合系统中的数据需求,其弹性扩展功能可帮助组织优化性能和成本。
  • Snowgrid:跨越地理边界和云提供商,Snowflake 的 Snowgrid 技术促进了无缝的数据协作。Snowflake 的全球数据复制和治理功能确保公司能够有效地在多云环境中运行。

3.数据编织和数据网格

  • 去中心化数据管理:数据网格和数据编织架构支持去中心化的数据所有权和管理,促使 Snowflake 提供更大的灵活性来共享和协作数据。Snowflake 通过 Snowgrid 等功能实现了分布式数据环境,可以轻松地跨云平台和地理位置共享数据。
  • 自助服务数据平台:随着组织向数据网格过渡,Snowflake 正在为多个业务领域改进自助服务功能,使团队能够独立地查找、处理和分析数据。
  • 去中心化数据所有权:数据网格的概念正在改变大型企业处理其数据的方式。Snowflake 的设计使得创建数据产品成为可能,这些数据产品可以在保留中央治理的同时,由不同的团队或部门拥有和控制。这促进了数据民主化并有助于避免数据孤岛。
  • 自动化数据发现:随着企业过渡到数据编织或数据网格架构,Snowflake 的集成元数据管理和数据目录功能促进了数据发现和协作,使团队能够更轻松地有效地查找、使用和共享数据。
Emerging Technologies Impacting Snowflake

4.去中心化技术和区块链

  • 数据安全和完整性:区块链正在影响可追溯性和数据完整性。尽管 Snowflake 没有直接集成区块链,但由于其保证不变审计跟踪和安全数据共享协议的能力,该平台可以支持类似区块链的用例。
  • 可以使用区块链的创新合同功能来自动化和保护各方之间的数据共享协议。通过 Snowflake 实现此类功能,可能会形成一个更去中心化的数据经济,企业可以在其中安全地交换数据,并遵循开放的治理指南。
  • 无服务器架构:Snowflake 的无服务器架构使客户无需管理基础设施即可专注于创建应用程序。无服务器技术的出现与 Snowflake 的弹性计算相符,该计算独立扩展存储和计算,以满足现代数据工作负载的需求。
  • 计算优化:企业可以根据工作负载需求即时扩展或缩减规模,这得益于 Snowflake 的无服务器架构。通过确保资源的有效利用,我们的弹性计算功能在不影响性能的情况下降低了成本。随着无服务器计算的扩展,Snowflake 将继续改进其自动缩放功能,以处理日益庞大和多样化的数据需求。
Emerging Technologies Impacting Snowflake

5.事件驱动工作负载

事件驱动架构和无服务器方法可以很好地互补。无需人工干预,Snowflake 可以在事件发生时立即摄取和处理数据,从而实现实时分析。诸如供应链优化、个性化建议和欺诈检测之类的应用程序依赖于此。

6. 人工智能

  • 通过与 Databricks 等 AI 平台合作,Snowflake 使企业能够开发和训练大型语言模型 (LLM),并实现生成式 AI 工具,用于诸如聊天机器人、自动业务建议和内容创建等复杂用例。
  • AI 驱动的数据工程 Snowflake 的内部运营,包括查询优化、模式设计和数据管道管理,也可以通过生成式 AI 进行优化。
  • 通过使用 AI 自动化这些流程,数据操作可以变得更具可扩展性和效率。

结论

总而言之,由于这些技术,Snowflake 成为了数据云生态系统中的重要参与者,它使企业能够快速、经济高效且安全地处理海量数据。随着新兴技术不断改变数据格局,Snowflake 已准备好进行调整并为现代数据挑战提供改进的解决方案。在一个以人工智能 (AI)、实时数据处理、边缘计算和多云战略为特征的世界里,Snowflake 正在快速转型以保持竞争力。通过保持在这些技术的前沿,Snowflake 处于有利地位,可以继续提供满足现代企业需求的前沿数据解决方案。