ASR 的全称是什么

17 Mar 2025 | 4 分钟阅读

ASR:自动语音识别

ASR 代表自动语音识别。它指的是将口语转换为书面文本的技术。这项技术允许计算机识别和处理人们通过连接到计算机的输入设备或麦克风说出的单词。

Fullform Asr

类型

ASR 是一种独立的转录软件,用于将口语转换为可读文本。它有两种类型,如下所示。

  1. 直接对话:这是 ASR 的基本版本。它包含一个与人连接的机器界面。您需要通过语音与计算机交互;机器会告诉您从单词列表中选择一个特定单词进行响应,并相应地提供对您请求的响应或答案。自动电话银行使用这项技术,使用户能够通过电话执行广泛的金融交易。
  2. 自然语言对话:这是 ASR 更高级、更复杂的版本。它能够理解用户的语音或书面材料,并根据所理解的内容对用户做出响应。它使用户能够使用日常语言与计算机进行交互。

ASR 如何工作

ASR 中存在的基本事件序列如下:

  1. 一个人使用麦克风等输入设备与软件对话。
  2. 输入设备会生成您讲话的波形文件。
  3. 对波形文件进行音量归一化,并去除背景噪音。
  4. 经过清理的波形文件被分解成音素,这是最小的声音单元。英语中大约有 44 个音素。
  5. ASR 软件会分析音素,从第一个音素开始。它使用统计概率分析来找出完整的单词,然后再构成完整的句子。
  6. 现在,在理解了单词之后,ASR 会做出有意义的响应。

自然语言处理的过程是什么?

与直接对话相比,NLP 对语音识别系统的发展更为重要,因为这是 ASR 技术未来将走向的方向。

它的操作旨在大致模仿人们理解语音和响应语音的方式。

一个 NLP ASR 系统通常拥有至少 60,000 个单词的词汇量。如果您连续说出三个单词,将有近 215 万亿种可能的单词组合!

显而易见的结论是,对于 NLP ASR 系统来说,为每个单词搜索其完整词汇量并单独处理它将是完全不可行的。相反,自然语言处理系统旨在响应一系列经过仔细选择的、提供更广泛查询上下文的“标记”关键词。使用一个更小的列表。

为了恰当回应,系统可以利用这些上下文线索,更快速地缩小您所说内容的具体范围,并识别所使用的单词。

例如,当您说出“天气预报”、“查询我的余额”和“我想支付账单”之类的短语时,NLP 系统可能会关注标记关键词“预报”、“余额”和“账单”。然后,这些词语将被用来确定您使用的其他词语的上下文,从而避免出现将“weather”(天气)和“whether”(是否)混淆的错误。

调优测试:ASR 如何从人类那里“学会”

无论是 NLP 还是直接对话系统,ASR 系统都使用两种基本过程进行训练。人类“调优”是其中第一个,也是相对简单的一种;“主动学习”是第二个,也是更为复杂的一种。

人工调优:人工程序员会浏览特定 ASR 软件界面的对话记录,并查看该软件需要识别但其预编程词汇中尚未包含的常用术语。这是 ASR 训练的一种相当简单的形式。然后,程序会用这些术语进行更新,以增加其语音理解能力。

主动学习:ASR 更高级的形式,称为主动学习,目前正在测试中,尤其是在 NLP 语音识别软件中。通过主动学习,该软件被设计为能够自主地获取、记忆和使用新单词,随着它接触到新的语言结构而不断扩展其词汇量。

理论上,这使得程序能够识别特定个人的更具体的语音模式,以便能够更有效地与他们互动。

因此,例如,如果某个特定的人类用户反复拒绝某个特定短语的自动更正,NLP 软件最终会学会将该用户对该词的特定用法识别为“正确”的形式。


下一个主题全称