我可以使用哪些程序进行语音识别?17 Mar 2025 | 6 分钟阅读 语音识别软件使用人工智能 (AI)、机器学习 (ML) 和自然语言处理 (NLP) 技术,以高精度处理自然语言语音并将其转换为可读文本。计算机程序已被教会接受人类语音作为输入,对其进行解释,并将其翻译成文字。语音识别软件通过将语音记录分解为其独立的声音,分析每个声音,然后使用算法来查找最有可能适合目标语言中该声音的单词来工作。最后,程序将声音转换为文本。 通过语音识别,这意味着即使转录可能不完美,用户仍然可以理解录制语音的要点。也就是说,文本可以被理解为一个整体,而不仅仅是零散短语的集合。必须考虑语音模式和其他变体,因为没有人是相同的。口音和其他异常情况可能会导致语音识别算法忽略谈话中的重要部分。人们发音单词的方式不同、是否发音清晰或含糊不清、说话速度快慢,甚至语音音量的变化,都可能使语音识别技术感到困惑。 语音识别软件自推出以来取得了显著进步。它有许多用途,包括文本转语音软件和用于手机及台式电脑的语音命令。您的需求和预算将决定您使用的语音识别应用程序。 ![]() 以下是一些语音识别程序的列表 1. Dragon NaturallySpeakingDragon 语音识别软件让每个人都能轻松使用电脑。您说话时,它就在打字。您可以通过语音控制鼠标、打开文件、启动程序、创建和编辑文档和电子邮件等。无法移动手臂或双手的人仍然可以使用语音输入进行打字、剪切、粘贴或滚动。用户可以选择最适合他们的麦克风类型。另一种选择是使用台式固定麦克风。虽然有些人喜欢蓝牙耳机的简单性和便携性,但另一些人则更喜欢传统连接的耳机。 ![]() 选择麦克风后,Dragon NaturallySpeaking 几乎可以在任何应用程序中旁白任何内容。用户只需练习大声朗读文本,计算机就会学会他们独特的语音模式和语言。包括“段落”、“大写”、“感叹号”等词语的命令,都是从 Word 命令中提取的。 2. Windows Speech Recognition从一开始,只有 Gboard 能够与 Windows 语音识别相媲美。它在所有我尝试过的程序和浏览器中都有效,使其成为一个有用的工具。如果您使用 Windows 10 并且不介意进行语音“训练”阶段,您会发现此功能非常有用。 ![]() 您可以像在手机上使用 Google Assistant 或 Siri 一样,通过语音与您的 Windows PC 进行免提操作。虽然您可以通过简单的指令启动文件并在应用程序之间导航,但内置的文本转语音功能可以解锁新的生产力水平。例如,您可以旁白电子邮件或制作语音笔记。 在 Windows Vista 及更高版本中,语音识别是内置的。它可以使用大多数 Windows 操作系统功能,也可以在文字处理器中键入您的单词。 3. Google Voice Search通过 Google Voice Search,用户可以通过语音在计算机或移动设备上使用 Google Search,在听到指令后指示设备搜索信息。 此功能以前称为 Voice Action,允许用户向 Android 手机发出语音命令。除了美式、英式和印度英语外,后来还识别并响应了菲律宾语、法语、意大利语、德语和西班牙语的命令。最初仅适用于美国英语地区。 ![]() 这项技术有很多好处。最大的好处是,由于其免提搜索功能,您可以在 Google 回答您的疑问时进行多任务处理并做任何您想做的事情。 Google Voice Search 支持包括智能手机和平板电脑在内的许多移动设备,以及台式机和笔记本电脑。如果您使用 Google Chrome 浏览器,该软件是免费的,并且可以大大加快您的搜索速度。 4. Philips SpeechlivePhilips SpeechLive 是一款基于浏览器的听写和转录工具,可将您的语音转换为文本。它提供可选的人工转录服务和文本转语音附加组件。 该系统安全、符合 GDP 和 CCPA 标准,即使对于大型企业来说也是明智的选择。它促进了作者和转录员之间的沟通,并允许作者使用文本转语音独立生成文档。 ![]() 所有麦克风都可以与 SpeechLive 一起使用。但是,飞利浦的听写麦克风可以产生最佳的语音识别结果。 在整个听写和转录过程中,Philips SpeechLive 在 Microsoft Azure 美国服务器上提供 256 位音频和文本数据加密。通过作者订阅,用户可以访问 SpeechLive 移动录音机应用程序,该应用程序可与 iOS 和 Android 设备配合使用。 5. Dragon Professional Anywhere借助 Dragon Anywhere 移动应用程序,用户可以在使用自己的人工智能驱动的定制 Dragon 语音配置文件时,直接在计算机或 iOS 或 Android 智能手机上将语音输入到其工作流程中。 Dragon Professional Anywhere 是一项托管云服务,允许作者从任何位置工作,这对于远程专业人士来说非常有用。目前准确率高达 99%,无需语音配置文件训练,听写可以让作者比打字快 3 倍的速度生成更全面、更准确的文档。自动口音纠正使口音无关紧要。 ![]() Dragon Professional Anywhere 具有一键安装、自动更新、无需复杂设置、减少 IT 人员工作量等优点,让每个人的生活都变得更轻松。 6. SiriSiri 是 Apple 用户的内置语音控制个人助手。Siri 是 Apple 的语音识别和人工智能驱动的个人助手,适用于 iOS、macOS、tvOS 和 watchOS 设备 (AI)。 Siri 在用户发出命令或请求时录制音频,将音频转换为数据文件,并将文件发送到 Apple 的服务器。Siri 无法在没有互联网连接的情况下在设备上使用。一旦存储在服务器中,语音输入将通过由庞大的问题和答案数据库生成的一系列流程图进行处理。 ![]() Siri 通过设备扬声器回话,并在主屏幕上显示特定应用程序(如网络搜索或日历)的相关信息,来回答用户的语音问题。用户还可以查看他们收到的电子邮件和短信,并使用该服务完成许多其他事情。 Siri 可以访问您 Apple iPhone 上的所有其他内置程序,包括邮件、通讯录、信息、地图、Safari 等。她可以在需要时使用这些应用程序提供信息或进行数据库搜索。 7. Amazon Lex借助 Amazon Lex 服务,任何应用程序都可以集成文本和语音对话界面。它为虚拟个人助手 Amazon Alexa 提供支持。据建议,它可以用于对话界面(聊天机器人和其他类型),例如网站、移动应用程序以及机器人、玩具、无人机和其他设备上的对话界面。 ![]() Amazon Lex 是一项 AWS 服务,用于为应用程序构建基于文本和语音的对话用户界面。借助为 Amazon Alexa 提供支持的相同对话引擎,任何开发人员都可以使用 Amazon Lex 为其新旧应用程序添加复杂的自然语言聊天机器人。您可以使用 Amazon Lex 的广泛功能和自动语音识别 (ASR) 和自然语言理解 (NLU) 的适应性来设计极具吸引力的用户界面。 8. Microsoft Bing Speech APIMicrosoft Bing Speech API 是一款云服务 API,提供先进的语音处理算法。它使开发人员能够将语音驱动的操作集成到他们的应用程序中,包括实时用户交互。它用于将语音转换为文本。该应用程序有两个选项来处理此转录的文本:显示它或响应命令。它可以将文本转换为多种不同语言的语音。 ![]() 该 API 的语音识别结果在交互、转换和听写场景中得到充分利用。它可以受益于实时连续识别。对于听写模式,它支持 15 种语言,对于转换模式,它支持 5 种语言。 9. Voice FingerVoice Finger 是一款允许用户使用语音识别来操作键盘和鼠标光标的软件。Voice Finger 在执行特定任务时需要的语音命令更少或更短,因此优于内置的 Windows 语音识别功能。 ![]() Voice Finger 通常只需一个命令即可在屏幕上任意位置单击。该程序比一般的鼠标和键盘控制选项更多。它将听写留给了 Windows 内置的语音识别,因为它主要面向残障人士和电脑事故受害者。 使用 Voice Finger 时,您只能通过语音控制计算机。不需要鼠标或键盘。使用此应用程序,您无需触摸计算机即可执行任务。 下一个主题Cat 5 |
我们请求您订阅我们的新闻通讯以获取最新更新。