Java AWS Polly

2025年3月17日 | 阅读 7 分钟

在本教程中,我们将详细讨论 Amazon Polly。

什么是 Amazon Polly?

Amazon Polly 是 **Amazon Web Services(亚马逊公司子公司)** 提供的一项 **云服务**,可将文本转换为逼真的语音。它允许创建能够说话的应用程序,并构建全新的 **语音启用产品** 类别。Amazon Polly 支持多种语言,并包含各种逼真的语音,因此我们可以构建在不同地点运行的语音启用应用程序,并为我们的客户使用最理想的语音。

借助 Amazon Polly,我们只需为合成的文本付费,并且可以 **免费缓存和重放 Amazon Polly 生成的语音**。Amazon Polly 包含几种 **神经文本转语音 (NTTS)** 声音,通过一种新的机器学习方法在语音质量上取得了开创性的改进,为客户提供尽可能最自然、最人性化的文本转语音声音。NTTS 技术还支持一种 **独特的稀疏** 播报风格,该风格针对新的旁白用例进行了定制。因此,这就是对 Amazon Polly 是什么的一个概述。

现在让我们讨论一下 Amazon Polly 的一些优点。

Amazon Polly 的优点

  1. 第一点是 Amazon Polly 提供新的神经 TTS 和 **同类最佳的标准 TTS 技术**,可以合成卓越的自然语音,并具有高发音准确性,包括缩略语、首字母缩略词、展开、日期/时间解释和同形异义词消歧。
  2. 使用 Amazon Polly 的第二个优点是 **低延迟**。Amazon Polly 可确保快速响应,使其成为对话系统等日常延迟用例的可行选择。
  3. 第三个优点是支持 **广泛的语言和语音库**。Amazon Polly 支持数十种语音语言,大多数语言都提供男性和女性语音选项。NTTS 目前支持 **三种英式英语语音和八种美式英语语音**,随着我们上线更多神经语音,这个数字还会继续增加。
  4. 下一个优点是 **成本效益**。Amazon Polly 的按使用量付费模式意味着 **没有设置成本**,我们可以从小规模开始,并随着应用程序的增长进行扩展。
  5. 下一个优势是 **云解决方案**。设备上的 TTS 解决方案需要大量的计算资源,包括 **CPU 功率、RAM 和磁盘空间**。这些可能会导致 **平板电脑、智能手机** 等设备的开发成本和功耗增加。相比之下,AWS 云中的 TTS 转换大大减少了本地资源需求,能够以最佳质量支持所有可用语言和语音。此外,语音改进会立即推广到所有用户,并且不需要额外的设备更新。

Amazon Polly 如何工作?

Amazon Polly 将 **输入文本转换为逼真的语音**。我们调用其中一种语音合成方法来提供我们想要合成的文本,选择一种神经文本转语音 (NTTS) 或标准文本转语音 (TTS) 声音,并指定音频输出格式。

Amazon Polly 然后会将提供的 **文本合成为高质量的语音音频流**。因此,要使用 Amazon Polly,我们首先需要提供我们想要合成的输入文本,Amazon Polly 会返回一个音频流。我们可以提供纯文本作为输入,也可以提供 **SSML 格式** 的语音合成标记语言。因此,通过这种格式,我们可以控制语音的各个方面,例如发音、音量、音高和语速。

接下来是 **可用的语音**。因此,Amazon Polly 提供 **语言库** 和各种语音,包括一种 **双语语音**,支持英语和印地语。对于大多数语言,我们可以从多种男女性别的语音中进行选择。在启动语音合成任务时,我们会指定 **声音 ID**,然后 Amazon Polly 使用该声音将文本转换为语音。Amazon Polly **不是翻译服务**;合成的语音与文本的语言相同。但是,如果文本是另一种语言,则表示为数字的指定语音编号会以声音的语言合成,而不是以文本的语言合成。

最后一个是 **输出格式**。Amazon Polly 可以以多种格式提供合成语音,我们可以选择适合我们需求的音频格式。例如,我们可能需要 MP3 格式的语音以供 Web 和移动应用程序使用,或者要求 **PCM 输出格式** 以供 **AWS IoT 设备和电话解决方案** 使用。

我们将讨论 Amazon Polly 的一些用例。Amazon Polly 有三个用例

  1. 内容创作
  2. 电子学习
  3. 电话通信

内容创作

第一个用例是内容创作。因此,音频可以作为书面或视觉交流的补充媒介。通过为我们的内容配音,我们可以为听众提供另一种消费信息的方式,并满足更广泛读者群体的需求。Amazon Polly 可以生成数十种语言的语音,从而可以轻松地将语音添加到具有全球受众的应用程序中,例如 RSS feed、网站或视频。

例如,如果我们用 WordPress 写了一篇博客;我们可以将我们在 WordPress 博客上写的内容提供给它,以便将其转换为音频文件,一旦音频文件被存储,我们就可以在我们的移动设备上使用它,这样当我们有空闲时间时,我们就可以收听我们拥有的音频。因此,这样我们就可以有很多内容以音频格式提供给我们。因此,这就是播客背后的基本思想。

电子学习

Amazon Polly 使开发人员能够为其应用程序提供增强的视觉体验,例如与语音同步的面部动画。Amazon Polly 可以轻松请求额外的元数据流,其中包含有关特定句子、单词和声音何时被发音的信息。通过将此元数据流与合成语音音频流结合使用,客户可以在其应用程序中为头像制作动画并突出显示当前正在说的文本。

一个例子是播放语音并突出显示所说文本,这是 Amazon Polly 在电子学习领域的一个绝佳应用。

AWS Polly in Java

电话通信

借助 Amazon Polly,我们的联络中心可以以自然的声音吸引客户。我们可以缓存和重放 Amazon Polly 的语音输出,以提示呼叫者使用交互式语音应答 (IVR) 系统,例如 Amazon Connect。此外,我们可以利用 Amazon Polly 的 API 来提供自动化的实时信息,例如服务状态、账户、账单查询、地址和联系信息。

这里的一个例子是为电话系统进行文本到语音转换。因此,这些是 Amazon Polly 将使用的一些用例。

语音标记 (Speech Marks)

  1. 语音标记是描述我们合成的语音的元数据,例如句子或单词在音频流中的开始和结束位置。
  2. 当我们请求文本的语音标记时,Amazon Polly 会返回此元数据而不是合成的语音。
  3. 将语音标记与合成语音音频流结合使用,可以为我们的应用程序提供增强的视觉体验。
  4. 例如,将元数据与我们文本的音频流相结合,可以使我们能够将语音与面部动画同步,例如唇语同步或在说出书面单词时突出显示它们。
  5. 使用神经或标准文本转语音格式时均可获得语音标记。

语音合成标记语言 (SSML)

Amazon Polly 可以从纯文本或使用 SSML 标记的文档生成语音。我们可以通过 SSML 实现以下效果

  1. 强调特定的单词或短语
  2. 包含长时间停顿
  3. 更改语速或音高
  4. 使用音标发音
  5. 包含呼吸声
  6. 低语
  7. 使用新闻播报员说话风格

词典 (Lexicons)

  1. 发音词典使我们能够自定义单词的发音。
  2. 它们特定于某个地区。
  3. 在合成文本时,我们可以使用该地区的一个或多个 **词典**,通过 **"SynthesizeSpeech"** 操作。

示例

  1. **"g3t sm4rt"** 应该读作 **get smart**
  2. 首字母缩略词以其完整形式读出。示例:**"EC2"** 应读作 **"Elastic Compute Cloud"**。
  3. 以获得人名的正确发音。

演示

让我们讨论一个关于 Amazon Polly 如何工作的简短演示。现在,这个演示基于文本转语音转换。那么,让我们简要地深入了解一下。文本转语音软件的概念很简单。假设我们有一个段落、一页、一篇文章,甚至是一整本书,然后让计算机大声朗读。当人们想到文本转语音时,他们经常将其与机器人声音和生硬的语调联系起来。然而,这通常不是这种情况,尤其是在现代软件中。对某些人来说,文本转语音可能听起来像是一个噱头,但它是一项具有高效应用的 [技术](https://www.techtarget.com/searchsoftwarequality/definition/text-to-speech-tts)。

让我们讨论一些文本转语音软件的优点。

  1. 它使残疾人能够阅读。因此,文本转语音软件最明显的用途是让视障人士能够消费书面内容。
  2. 它提供了解放双手的阅读体验。即使我们的视力完美,有时听东西比读它更舒适或方便。
  3. 在某些音频版本的内容不可用的情况下,如今大多数流行的书籍都以音频格式发布。然而,对于大多数其他书面内容,包括文章、诗歌等,情况并非如此。因此,文本转语音软件使我们能够收听任何我们想要的任何书面内容,只要该功能内置其中。