Snowflake 的研发

31 2025 年 7 月 | 阅读 8 分钟

Snowflake (NYSE: SNOW) 的旗舰产品 Data Cloud 帮助企业打破数据孤岛,从而从其运营收集到的信息中获得更大的价值。由于数据对于创建最强大的模型至关重要,Snowflake 处于提供人工智能 (AI) 市场产品的有利地位。

2023 年,该公司推出了 Cortex AI 平台,该平台通过将其数据与预先构建的大型语言模型(如 Meta Platforms 的 Llama 3)相结合,使公司能够开发 AI 软件应用程序。此外,Cortex 还包含预构建的 AI 工具,如 Document AI,允许开发人员快速从非结构化源(如账单和合同)中提取关键信息。由于其在研发等扩张活动上的巨额投资(这是其主要支出),Snowflake 会出现季度亏损。

Research and development at Snowflake

现在,您是否适合投资 Snowflake 1,000 美元?

在购买 Snowflake 股票之前,请考虑以下几点: Snowflake 并非 Motley Fool Stock Advisor 分析团队最近评选出的十只最适合投资者购买的股票之一。在未来几年内,这十只被削减的股票可能会带来巨额利润。

以下是 Snowflake 研发活动的一些总结:

Research and development at Snowflake

1. 云原生架构

Snowflake 的研发团队开发了一种独立的云和多集群系统的共享数据架构。

其架构将计算与存储分离,这是一个重大进步,有助于企业最大化效率和成本。

2. 数据治理与安全

数据安全在 Snowflake 的研发中被置于首位,对传输中和静态数据都使用加密。网络策略、多因素身份验证、基于角色的访问管理、Snowflake 虚拟专用实例和其他安全功能正在不断得到增强。他们对遵守 CCPA 和 GDPR 等法规的关注,表明了他们对全球数据治理标准的承诺。

3. 多云支持

Snowflake 与不同云平台之间的无缝集成是公司研发工作的重点。由于其跨云功能,使用 Snowflake 的客户可以在多个云提供商上同时运行该平台,这使得使用不同云的组织更容易协作和共享数据。

4. 数据共享功能

Snowflake 的 Data Marketplace 和 Secure Data Sharing 功能是其研发在数据共享领域取得领先的体现。得益于这些发展,组织现在可以在不转移或复制现有数据的情况下,在 Snowflake 账户之间进行受控的实时数据通信。这是他们创建“数据云”生态系统的更广泛计划的一部分,该生态系统促进数据的简便交换和商业化。

Research and development at Snowflake

5. 数据工程与 AI/ML 的集成

Snowflake 在研发方面投入巨资,以支持数据工程、机器学习 (ML) 和人工智能 (AI) 的用例。这包括:

Python 用户定义函数 (UDF):研发团队正在努力增强对 Python 的原生支持,Python 是一种广泛用于 ML 和数据研究的语言。这使得 Snowflake 在与竞争性 ML/AI 解决方案的竞争中更具优势。

外部函数:借助外部函数,用户可以将 Snowflake 与 AWS SageMaker 和 Google AI 等 AI/ML 平台结合起来,并调用外部服务。

6. 性能提升

Snowflake 的研发团队通过缓存、分区和自动聚类等优化措施,不断努力提高性能。“查询加速服务”是他们的一项创新,可以动态调整资源以优化查询性能。

Research and development at Snowflake

7. 对非结构化数据的支持

他们开发了允许在 Snowflake 平台内本地存储、处理和查询非结构化数据的工具。

8. Snowflake 的集成

数据科学库和工具是数据科学研发创新的主要焦点。Snowflake 平台支持 TensorFlow、PyTorch 和 sci-kit-learn 等流行框架,使其成为企业开发大规模数据集 AI 模型的重要资源。

9. 可观察性和治理

Snowflake 的研发团队正在努力开发数据沿袭、审计和监控等功能,以提高平台的可观察性,响应对全面数据治理日益增长的需求。这使公司能够监控数据在其系统中的流动,并确保其符合监管标准。

10. 协作和生态系统开发

Snowflake 正在与各种应用程序制造商、数据提供商和云服务提供商进行合作。

为了促进在更大的数据生态系统中无缝协作,其研发团队创建了连接和接口。他们与 Salesforce、Microsoft、Amazon 和 Google 等公司的合作使他们能够扩展 Snowflake 的功能并培养一个不断增长的网络。

11. 使用原生应用程序进行创新(应用程序开发)

Snowflake 最新发布的 Native Application Framework 使程序员能够在 Snowflake 平台上创建和共享应用程序。该框架增加了 Snowflake 环境的用例,同时也为外部开发人员创造了新的机会。

12. 绿色计算和可持续性

通过提高资源效率,Snowflake 的研发也在通过最大化处理能力和能源使用来关注可持续性。

Research and development at Snowflake

公司允许客户灵活选择符合其环境目标的云区域,这得益于其多云战略。

1. Snowflake Elastic Data Warehouse 的研发基础

由于它们的独立性,这两种资源都可以独立扩展,这是 Snowflake 研发的一个重点领域,因为它不断提高云原生性能。

多集群仓库:为确保查询处理过程中的最低延迟,Snowflake 的仓库会根据工作负载自动向上或向下扩展。当前 R&D 项目旨在为这种可伸缩性添加自动暂停和自动恢复功能,使其对企业更具成本效益。

2. AI 和 ML 的改进

与 AI/ML 服务集成:Snowflake 一直在为机器学习工作负载开发原生支持,并一直在与 AWS、Azure 和 GCP 等多个云的 AI/ML 服务进行集成。数据科学家可以使用 Snowpark(Snowflake 的开发平台)在 Snowflake 中执行复杂的过程,而无需将数据从其他环境中提取出来。这通过减少数据传输和提高性能来简化整个管道。

原生机器学习算法:Snowflake 的研发团队的目标是提供更多集成到平台本身中的创新机器学习模型。这些预训练模型可用于日常商业用例,如推荐系统、欺诈检测和预测分析。

3. 外部数据集成和联合数据访问

跨云和跨地域数据共享:跨云和跨地域数据的联合访问是 Snowflake 研发的重点。Snowgrid 技术实现了实时数据共享,并符合区域数据驻留法规。这种跨云数据共享已成为全球数据移动的关键研究和开发领域,对于国际运营至关重要。

数据湖集成:为了让用户能够有效地利用数据仓库和数据湖设计,Snowflake 的研发目标是改进与数据湖的集成。借助这种连接性,企业不再需要将数据传输到 Snowflake 即可查询存储在 AWS S3、Azure Data Lake Storage 和 Google Cloud Storage 等外部源中的数据。

Research and development at Snowflake

4. 优化数据管道

数据工程改进:Snowflake 的研发团队专注于使这些管道更具灵活性,并且该公司的平台支持完整的 ETL/ELT 工作流。Snowflake 通过提供 Snowpipe 的持续数据摄取,实现了近乎实时数据处理。研发工作旨在增强数据管道的自动化和编排,通过改进的调度和监控功能来提高其速度和效率。

5. 数据一致性和事务支持

Snowflake 通过完全符合 ACID 标准来保证事务处理的一致性和可靠性。Time Travel 和 Zero-Copy Cloning 是近期研发工作的重点,因为它们允许用户查询之前的数据、进行假设分析以及构建测试环境而无需复制数据。这对于金融服务和其他数据一致性和审计至关重要的行业非常有帮助。

6. 生态系统扩展和第三方集成

扩展 marketplace:Snowflake 的研发团队致力于扩展其 marketplace,它允许企业购买和销售数据。研发活动通过提供第三方数据集来增强数据集的可发现性、安全性和用户体验。由于它消除了复杂的 ETL 过程的需要,这个 marketplace 通过允许组织访问外部数据来促进创新。

Research and development at Snowflake

7. 成本优化和性能增强

自动资源管理:计算和存储资源优化是 Snowflake 在自动资源管理方面研发工作的重点。借助自动扩展、自动暂停和多集群仓库等功能,用户只需为他们使用的资源付费。正在进行持续的研发工作以进一步优化成本。

查询优化:改进 SQL 查询编译、执行计划和缓存是近期旨在提高查询优化性能的研发项目。

8. 非结构化数据创新

Snowflake 主要关注结构化和半结构化数据,但其研发团队正在大力投资于非结构化数据支持。通过存储、处理和查询大量不同类型的数据(包括文本、图像和音频文件)的能力,这种扩展为媒体分析、文档处理和医疗保健(医学成像)等领域带来了新的用例。

9. 企业级安全

他们还开发了客户管理加密密钥 (CMEK),以提供对加密密钥的更多控制,并确保即使 Snowflake 本身也无法未经授权访问敏感数据。

高级威胁检测:Snowflake 的研发集中在基于机器学习的异常和威胁检测系统,这些系统会通知用户其数据平台上发生的异常活动。这是由于组织对数据泄露的担忧日益加剧。

10. 可持续性和能源效率

绿色数据倡议:可持续性是 Snowflake 的主要研发领域之一。公司的主要目标是优化其基础设施以减少能源消耗。这包括有效利用云资源、改进数据存储技术以及将绿色实践引入您的数据中心。通过开发更节能的数据管理和查询技术,Snowflake 希望减少其碳足迹。

11. 利用最新的数据结构

数据结构和数据网格:研发正在跟上数据网格和数据网格设计等领域的最新创新。借助 Snowflake,企业可以满足监管和治理标准,同时管理去中心化的、面向领域的结构,并跨团队进行数据所有权的联合。

Research and development at Snowflake

由于其对数据保护、管理和性能优化的关注,Snowflake 是企业用于关键任务操作的可靠解决方案。他们在可持续性和能源效率方面的努力也表明了他们对环保商业实践的承诺。通过促进无缝协作、创建复杂的数据管道和建立创新环境,Snowflake 有望成为云数据管理和分析的标准。

结论

总之,我们可以得出结论,Snowflake 的研发团队一直在多个领域不断发展,并为其平台保持在云数据仓库和分析行业的领先地位。由于其在云架构、管理、可持续性、AI/ML 集成和实时数据共享方面的持续改进,Snowflake 已成为数据云开发的领导者。因此,今天的企业拥有在不同云环境中及时安全地处理、存储和传输数据的工具。