什么是 Redshift？

17 Mar 2025 | 5 分钟阅读

Redshift 是一种快速、强大、完全托管的云中 PB 级数据仓库服务。
客户可以使用 Redshift，只需每小时 0.25 美元，无需承诺或前期成本，并且可以扩展到 PB 级或更高，每年每 TB 1,000 美元。

OLAP

OLAP 是 联机分析处理系统，由 Redshift 使用。

OLAP 事务示例

假设我们要计算 EMEA 和 Pacific 地区数字无线电产品的净利润。这需要提取大量记录。以下是计算净利润所需的记录

EMEA 地区售出的无线电总和。
太平洋地区售出的无线电总和。
每个地区的无线电单位成本。
每台无线电的销售价格
销售价格 - 单位成本

需要复杂的查询来获取上述记录。数据仓库数据库从数据库角度和基础设施层面上都使用不同类型的架构。

Redshift 配置

Redshift 由两种类型的节点组成

单节点
多节点

单节点： 单个节点最多可存储 160 GB。

多节点： 多节点是指由多个节点组成的节点。它有两种类型

领导节点
它管理客户端连接并接收查询。领导节点从客户端应用程序接收查询，解析查询，并制定执行计划。它与计算节点的并行执行这些计划相协调，并组合所有节点的中间结果，然后将最终结果返回给客户端应用程序。
计算节点
计算节点执行执行计划，然后将中间结果发送到领导节点进行聚合，然后再发送回客户端应用程序。它最多可以有 128 个计算节点。

让我们通过一个例子来理解领导节点和计算节点的概念。

Redshift 仓库是计算资源的集合，称为节点，这些节点组织在一个称为集群的组中。每个集群都在 Redshift 引擎中运行，该引擎包含一个或多个数据库。

启动 Redshift 实例时，它从大小为 160 GB 的单个节点开始。当您想要增长时，您可以添加额外的节点以利用并行处理。您有一个领导节点来管理多个节点。领导节点处理客户端连接以及计算节点。它将数据存储在计算节点中并执行查询。

为什么 Redshift 快 10 倍

Redshift 快 10 倍的原因如下

列式数据存储
Amazon Redshift 不是将数据存储为一系列行，而是按列组织数据。基于行的系统非常适合事务处理，而基于列的系统非常适合数据仓库和分析，在数据仓库和分析中，查询通常涉及对大型数据集执行的聚合。由于仅处理查询中涉及的列，并且列式数据按顺序存储在存储介质中，因此基于列的系统需要的 I/O 更少，从而提高了查询性能。
高级压缩
与基于行的数据存储相比，列式数据存储可以压缩更多，因为相似的数据按顺序存储在磁盘上。 Amazon Redshift 采用多种压缩技术，通常可以实现相对于传统关系数据存储的显着压缩。
Amazon Redshift 不需要索引或物化视图，因此它比传统的关系数据库系统需要更少的空间。将数据加载到空表时，Amazon Redshift 会自动采样您的数据并选择最合适的压缩技术。
大规模并行处理
Amazon Redshift 自动分配数据并将查询加载到各种节点上。 Amazon Redshift 可以轻松地向您的数据仓库添加新节点，这使我们能够在数据仓库增长时实现更快的查询性能。

Redshift 功能

Redshift 的功能如下

易于设置、部署和管理
- 自动配置
  Redshift 易于设置和操作。您只需在 AWS 控制台中点击几下即可部署新的数据仓库，Redshift 会自动为您配置基础设施。在 AWS 中，所有管理任务都是自动化的，例如备份和复制，您需要专注于您的数据，而不是管理。
- 自动备份
  Redshift 会自动将您的数据备份到 S3。您还可以在 S3 中将快照复制到另一个区域以进行灾难恢复。
经济高效
- 无需前期成本，即用即付
  Amazon Redshift 是最具成本效益的数据仓库服务，因为您只需为使用的资源付费。
  其成本起价为每小时 0.25 美元，无需承诺且无需前期成本，并且可以扩展到每年每 TB 250 美元。
  Amazon Redshift 是唯一提供按需定价且无前期成本的数据仓库服务，它还提供预留实例定价，通过提供 1-3 年的期限可节省高达 75% 的费用。
- 选择您的节点类型。
  您可以选择以下两个节点之一来优化 Redshift。
  - 密集计算节点
    密集计算节点可以通过使用快速 CPU、大量 RAM 和固态硬盘来创建高性能数据仓库。
  - 密集存储节点
    如果您想降低成本，则可以使用密集存储节点。它通过使用更大的硬盘驱动器来创建经济高效的数据仓库。
快速扩展以满足您的需求。
- PB 级数据仓库
  Amazon Redshift 会根据需要自动向上或向下扩展节点。只需在 AWS 控制台中点击几下，或通过单个 API 调用即可轻松更改数据仓库中的节点数量。
- EB 级数据湖分析
  它是 Redshift 的一项功能，允许您针对 Amazon S3 中 EB 级的数据运行查询。 Amazon S3 是一种安全且经济高效的数据存储方式，可以以开放格式存储无限量的数据。
- 无限并发
  它是 Redshift 的一项功能，意味着多个查询可以访问 Amazon S3 中的相同数据。它允许您跨多个节点运行查询，而不管查询的复杂性或数据量如何。
查询您的数据湖
Amazon Redshift 是唯一用于查询 Amazon S3 数据湖而无需加载数据的数据仓库。这提供了灵活性，可以将频繁访问的数据存储在 Redshift 中，而将非结构化或不经常访问的数据存储在 Amazon S3 中。
安全
通过几个参数设置，您可以设置 Redshift 使用 SSL 来保护您的数据。您还可以启用加密，所有写入磁盘的数据都将被加密。
更快的性能
Amazon Redshift 提供列式数据存储、压缩和并行处理，以减少执行查询所需的 I/O 量。这提高了查询性能。