40 个用于机器学习的开源音频数据集

2025 年 1 月 7 日 | 阅读 9 分钟

引言

近年来,人们注意到机器学习的发展得益于可用数据集的巨大增长。在 APA 的背景下,数据集在机器学习解决方案的学习和评估中占据中心地位,这些解决方案可以执行各种任务,包括语音识别、音乐生成、声音分类等。本文全面介绍了 40 个对机器学习创新有用的开源音频数据集。

1. LibriSpeech

LibriSpeech 是一个从有声读物中提取的英语朗读语音语料库。它包含大约 1000 小时的英语朗读语音,以 16kHz 采样率录制,并附有相应的文本转录。对于 ASR(自动语音识别)任务,LibriSpeech 语料库因其高质量的录音和大量的转录数据而受到青睐。

主要特点

  • 该模型的语音数据包含 1000 小时。
  • 高质量 16kHz 录音
  • 提供文本转录

2. Mozilla Common Voice

Common Voice 是 Mozilla 的一项非商业项目,旨在让人们开发各种语音。该数据集是多语言的,不同国家的爱好者贡献了所呈现的录音。

主要特点

  • 多语言且多样
  • 众包贡献
  • 持续增长的数据集

3. Google AudioSet

AudioSet 是一个包含约 200 万个 10 秒音频样本的数据集,带有 YouTube 上的用户注释。这是声音分类和检测的理想数据集,因为它包含了不同情境下的多种声音事件类型。

主要特点

  • 超过 200 万个 10 秒电视广告。
  • 各种声音事件
  • 人工标记的注释

4. VoxCeleb

VoxCeleb 是一个非常庞大的说话人识别数据集,包含数百万个话语和数千名名人。该数据集是从 YouTube 收集的,提供了各种口音和语言,并且可能包含录音环境的变化。

主要特点

  • 数百万个话语
  • 数千名说话人
  • 多样的录音条件

5. TIMIT

TIMIT 是另一个数据集,其中的音素序列经过平衡,可用于振幅和频率的语音学及语音研究和语音识别。它由 630 名说话人组成,他们说八种不同的美式英语地域变体,每人发音十个句法和语音学上多样化的句子。

主要特点

  • 语音学平衡
  • 方言变体
  • 详细的语音学转录

6. ESC-50

ESC-50 是一个标记的数据库,包含 2000 个非语音环境声音,分为 50 个类别,每个类别有 40 个样本。它主要应用于环境声音分类问题。

主要特点

  • 2000 个音频录音
  • 50 个环境声音类别
  • 适用于声音分类

7. UrbanSound8K

UrbanSound8K 包含 8732 个标记的城市声音样本(= 4 秒),属于 10 个类别,包括汽车喇叭声、狗叫声和警笛声。该数据库的范围是城市环境中的声音分类和检测。

主要特点

  • 8732 个声音片段
  • 10 个城市声音类别
  • 已标记和分割

8. Freesound 数据集 (FSD)

Freesound 数据集 (FSD) 是一个包含 Freesound 许可下的音频样本的数据集,该许可为知识共享署名或公共领域。数据集使用 AudioSet 本体的一个缩减版本进行标记。它支持在听觉领域的各种研究活动。

主要特点

  • 来自 Freesound 的音频片段
  • 使用 AudioSet 本体标记
  • 适用于声音研究

9. Speech Commands

Google 的 Speech Commands 数据集包含数万个 30 个短词的录音,用于训练和评估关键词识别系统。

主要特点

  • 短词发音
  • 专为关键词识别设计
  • 大量样本,范围从数万个样本。

10. CHiME 语音分离与识别挑战赛。

具体而言,CHiME 数据集是为了在嘈杂环境中进行语音分离和识别而创建的。其中一些包含多个数据集,以及不同级别的噪声和干扰环境。

主要特点

  • 嘈杂语音录音
  • 各种环境条件
  • 其应用在语音分离和识别任务中。

11. TED-LIUM

TED-LIUM 是一个 TED 演讲数据集,包括音频文件、转录文本和时间对齐的转录文本。它也用于 ASR 和语音转文本任务。

主要特点

  • TED 演讲录音
  • 转录文本和时间对齐
  • 适用于 ASR 任务

12. LJSpeech

LJSpeech 包含 13,100 个简短的元音-辅音片段,由一位男性说话者朗读 7 本非小说类书籍的文本。因此,它用于需要文本到语音转换(简称 TTS)的场景。

主要特点

  • 单说话人数据集
  • 13,100 个音频片段
  • 适用于 TTS

13. MAESTRO

MAESTRO (MIDI 和音频同步轨道编辑与组织)是一个音乐生成和转录数据集,包含来自国际钢琴比赛的 200 多个小时的音频和 MIDI 成对录音。

主要特点

  • 音频和 MIDI 的副本
  • 200 多个小时的音乐
  • 音乐生成和转录

14. GTZAN 音乐/语音

GTZAN 数据集包含 1000 多首音频曲目,分为 10 个音乐流派,每个流派包含 100 首独立的音乐文件。它用于流派识别和音乐分类。

主要特点

  • 1000 首音频曲目
  • 10 种音乐风格
  • 应用于流派识别

15. MedleyDB

MedleyDB 是一个完全注释的多轨音频录音集合,用于音乐信息检索(MIR)研究。它不仅包含录音,还包含详细的乐器注释。

主要特点

  • 注释的多轨录音
  • 常规乐器注释
  • 音乐检索信息

16. RAVDESS

Ryerson 音频视觉情感语音和歌曲数据库(RAVDESS)包含 24 位专业演员表演 8 种表情的 7356 个音频视觉录音。

主要特点

  • 音频视觉录音
  • 训练有素的演员
  • 8 种情绪

17. VOiCES

VOiCES(在复杂环境中获得的声音)是一个用于说话人识别和语音处理研究的数据集。它包含许多带有噪声变化的记录。

主要特点

  • 鲁棒的说话人识别
  • 在各种嘈杂环境下
  • 鲁棒的说话人识别

18. THCHS-30

THCHS-30 是一个普通话语音识别数据集,包含 30 小时的语音数据和相应的转录文本。

主要特点

  • 普通话语音
  • 30 小时数据集
  • 提供转录文本

19. Librispeech-alignments

该数据集提供了 LibriSpeech 语料库的强制对齐,包括单词、音素和状态对齐。

主要特点

  • 强制对齐
  • 单词、音素和状态
  • 与 LibriSpeech 的对齐

20. NSynth

NSynth(神经合成器)数据集是一个音频数据集,总共包含 305,979 个音乐音符,每个音符都有独特的音高、音色和包络。该数据集对音乐合成和音频很有帮助。

主要特点

  • 305,979 个音乐音符
  • 各种音高和音色
  • 音乐合成

21. VCTK

VCTK 语料库是一个配音语料库,由 109 名英语母语者(具有 8 种不同口音)录制。每位说话人朗读约 400 句话。

主要特点

  • 109 位说话人
  • 各种英语口音
  • 每位说话人 400 句话

22. RIRS NOISES

混响语音合成(RIRS)数据集包含在实际环境中录制的真实和增强的房间脉冲响应,以及用于扩充自动语音识别训练数据的相应背景噪声。

主要特点

  • 真实和模拟 RIR
  • 噪声录音
  • ASR 的数据增强

23. MUSAN

MUSAN 数据集主要包含音乐、语音和噪声的音频录音,用于扩展音频数据集以及在语音识别任务(SRT)中的其他目的。

主要特点

  • 音乐、语音和噪声
  • 数据增强
  • 语音处理

24. GTZAN Genre Collection

该数据集是 GTZAN 数据集的一个子集,专门为音乐流派分类任务而组织,提供了主要流派的混合。

主要特点

  • 为流派分类而策划
  • 平衡的流派表示
  • GTZAN 的子集

25. BirdCLEF

BirdCLEF 指的是一个全面的鸟类海报和歌曲集合,已通过物种信息进行识别。这也可以应用于物种识别和音频数据。科学家和研究人员使用这个特定数据集的另一个原因是它

主要特点

  • 鸟类叫声和歌曲
  • 物种注释
  • 生物声学研究

26. AudioMNIST

AudioMNIST 是一个由不同人录制的语音数字(0-9)的集合。它是识别数字和识别说话人的学习工具。

主要特点

  • 语音数字(0-9)
  • 多位说话人
  • 数字识别

27. Kaggle Freesound 音频标记

这个数据集来自 Kaggle 竞赛,由标记的音频组成,其中 Freesound 将沙漠频率中的不同声音融合成一个标签,增加了识别声音的能力。

主要特点

  • 标记的音频样本

28. DEMAND

多通道声学噪声多样化环境数据库 (DEMAND) 汇集了在真实生活环境中录制的各种环境声音。

主要特点

  • 声学噪声环境
  • 多通道录音
  • 降噪

29. CMU ARCTIC

CMU ARCTIC 数据库是为语音合成研究创建的。它们包含多位说话人的高质量语音录音,每位说话人说一套语音学平衡的句子。

主要特点

  • 高质量语音录音
  • 多位说话人
  • 语音学平衡的句子

30. AIY Voice Kit 数据集

此数据集包含从 Google AIY Voice 套件收集的音频,这些套件专为语音识别及所有相关职业而设计。其中包含许多关键命令,并且在各种环境中都展示了它们的反映。

主要特点

  • 语音命令和响应
  • 各种环境设置
  • 适用于语音识别

31. 鸡尾酒会问题数据集

此数据集是为了解决鸡尾酒会问题而开发的,在该问题中,一个人需要从流中分离出单个语音。它还涵盖了多说话人录音,其中一个说话人会打断另一个。

主要特点

  • 多说话人录音
  • 重叠的语音源
  • 语音分离任务

32. CLEAR(环境阵列分类)

CLEAR 数据库由麦克风阵列在不同场景下录制的音频组成。它在 ASR 中应用于声学环境分类和声源检测。

主要特点

  • 麦克风阵列录音
  • 各种环境
  • 声音分类和定位

33. MAGNA-TAGATUNE

TagATune 是一款游戏,用户可以通过线索猜测一首曲子的名称,而 MAGNA-TAGATUNE 是一个数据集,其中包含几组人对同一曲子的回答。它包含超过 21,000 个音乐片段样本,每个样本都有定义其内容、流派和情绪的标签。

主要特点

  • 21,000 个音乐片段
  • 描述性标签
  • 流派和情绪注释

34. GSC(Google 语音命令)

Google 语音命令数据集包含一系列一秒钟的短语,代表 30 个短单词及其短语。它广泛用于训练和评估关键词识别模型的模型。

主要特点

  • 一秒钟的发音
  • 30 个短单词
  • 关键词识别

35. Sony-Tau 真实声景

此数据集包含使用索尼设备在真实声景中录制的音频。它应用于声景分类及相关任务。

主要特点

  • 真实声景
  • 使用索尼设备录制
  • 场景分类

36. 多模态情感对话数据集 (MELD)

MELD 中的多方通信涉及自由文本对话,其中包含音频、视频和文本消息,并已标记了情绪。这些对话用于识别对话中互动方的情绪。

主要特点

  • 多方对话
  • 此处包含音频、视频和文本数据。
  • 情绪识别

37. ESC-10

ESC-10 是 ESC-50 的一个子集,包含 400 个属于 10 个类别的环境录音。当需要将声音分类到简单类别时使用。

主要特点

  • 400 个环境录音
  • 10 个声音类别
  • 简化分类任务

38. NUS-48E

NUS-48E 数据库包含 12 位歌手演唱的 48 首英文歌曲的声乐翻唱。它包含音高和歌词注释,这使其适用于研究歌唱声音。

主要特点

  • 48 首英文歌
  • 12 位歌手
  • 音高和歌词注释

39. VoxForge

VoxForge 是一个用于转录的开源语音语料库,旨在将其转录用于下一代语音识别引擎。通常,它涵盖了各种说话人朗读预先确定的文本形式的录音。

主要特点

  • 转录的语音
  • 各种说话人
  • 语音识别

40. AudioCaps

AudioCaps 是一个大型音频剪辑数据集,包含来自 AudioSet 的相应文本描述。它被用于音频字幕和音频理解。

主要特点

  • 带描述的音频剪辑
  • 源自 AudioSet
  • 音频字幕任务

结论

由于音频数据集的开源可用性,机器学习领域的音频处理取得了巨大发展。这些数据集提供了多样化的数据,在各种语言、声音类型、环境、音乐和语音方面都具有可接受的大范围。因此,这些资源可以用于研究人员和开发人员训练和改进各种音频相关任务的机器学习模型,例如语音识别、音频生成和声音分类等。

需要注意的是,随着该领域的不断发展,高质量和多样化数据集的作用已显著增强。它们不仅提供了可用于训练模型的数据,还定义了比较不同算法性能的标准。随着此类数据集的稳定进展和发展,机器学习背景下的音频处理仍然光明而充满希望。

以上四十个数据集仅是机器学习研究中可用音频数据的冰山一角。这两种类型的数据集都具有其特有的属性和用途,对于从事音频处理和机器学习的任何人通常都很有用。