40 个用于机器学习的开源音频数据集2025 年 1 月 7 日 | 阅读 9 分钟 引言近年来,人们注意到机器学习的发展得益于可用数据集的巨大增长。在 APA 的背景下,数据集在机器学习解决方案的学习和评估中占据中心地位,这些解决方案可以执行各种任务,包括语音识别、音乐生成、声音分类等。本文全面介绍了 40 个对机器学习创新有用的开源音频数据集。 1. LibriSpeechLibriSpeech 是一个从有声读物中提取的英语朗读语音语料库。它包含大约 1000 小时的英语朗读语音,以 16kHz 采样率录制,并附有相应的文本转录。对于 ASR(自动语音识别)任务,LibriSpeech 语料库因其高质量的录音和大量的转录数据而受到青睐。 主要特点
2. Mozilla Common VoiceCommon Voice 是 Mozilla 的一项非商业项目,旨在让人们开发各种语音。该数据集是多语言的,不同国家的爱好者贡献了所呈现的录音。 主要特点
3. Google AudioSetAudioSet 是一个包含约 200 万个 10 秒音频样本的数据集,带有 YouTube 上的用户注释。这是声音分类和检测的理想数据集,因为它包含了不同情境下的多种声音事件类型。 主要特点
4. VoxCelebVoxCeleb 是一个非常庞大的说话人识别数据集,包含数百万个话语和数千名名人。该数据集是从 YouTube 收集的,提供了各种口音和语言,并且可能包含录音环境的变化。 主要特点
5. TIMITTIMIT 是另一个数据集,其中的音素序列经过平衡,可用于振幅和频率的语音学及语音研究和语音识别。它由 630 名说话人组成,他们说八种不同的美式英语地域变体,每人发音十个句法和语音学上多样化的句子。 主要特点
6. ESC-50ESC-50 是一个标记的数据库,包含 2000 个非语音环境声音,分为 50 个类别,每个类别有 40 个样本。它主要应用于环境声音分类问题。 主要特点
7. UrbanSound8KUrbanSound8K 包含 8732 个标记的城市声音样本(= 4 秒),属于 10 个类别,包括汽车喇叭声、狗叫声和警笛声。该数据库的范围是城市环境中的声音分类和检测。 主要特点
8. Freesound 数据集 (FSD)Freesound 数据集 (FSD) 是一个包含 Freesound 许可下的音频样本的数据集,该许可为知识共享署名或公共领域。数据集使用 AudioSet 本体的一个缩减版本进行标记。它支持在听觉领域的各种研究活动。 主要特点
9. Speech CommandsGoogle 的 Speech Commands 数据集包含数万个 30 个短词的录音,用于训练和评估关键词识别系统。 主要特点
10. CHiME 语音分离与识别挑战赛。具体而言,CHiME 数据集是为了在嘈杂环境中进行语音分离和识别而创建的。其中一些包含多个数据集,以及不同级别的噪声和干扰环境。 主要特点
11. TED-LIUMTED-LIUM 是一个 TED 演讲数据集,包括音频文件、转录文本和时间对齐的转录文本。它也用于 ASR 和语音转文本任务。 主要特点
12. LJSpeechLJSpeech 包含 13,100 个简短的元音-辅音片段,由一位男性说话者朗读 7 本非小说类书籍的文本。因此,它用于需要文本到语音转换(简称 TTS)的场景。 主要特点
13. MAESTROMAESTRO (MIDI 和音频同步轨道编辑与组织)是一个音乐生成和转录数据集,包含来自国际钢琴比赛的 200 多个小时的音频和 MIDI 成对录音。 主要特点
14. GTZAN 音乐/语音GTZAN 数据集包含 1000 多首音频曲目,分为 10 个音乐流派,每个流派包含 100 首独立的音乐文件。它用于流派识别和音乐分类。 主要特点
15. MedleyDBMedleyDB 是一个完全注释的多轨音频录音集合,用于音乐信息检索(MIR)研究。它不仅包含录音,还包含详细的乐器注释。 主要特点
16. RAVDESSRyerson 音频视觉情感语音和歌曲数据库(RAVDESS)包含 24 位专业演员表演 8 种表情的 7356 个音频视觉录音。 主要特点
17. VOiCESVOiCES(在复杂环境中获得的声音)是一个用于说话人识别和语音处理研究的数据集。它包含许多带有噪声变化的记录。 主要特点
18. THCHS-30THCHS-30 是一个普通话语音识别数据集,包含 30 小时的语音数据和相应的转录文本。 主要特点
19. Librispeech-alignments该数据集提供了 LibriSpeech 语料库的强制对齐,包括单词、音素和状态对齐。 主要特点
20. NSynthNSynth(神经合成器)数据集是一个音频数据集,总共包含 305,979 个音乐音符,每个音符都有独特的音高、音色和包络。该数据集对音乐合成和音频很有帮助。 主要特点
21. VCTKVCTK 语料库是一个配音语料库,由 109 名英语母语者(具有 8 种不同口音)录制。每位说话人朗读约 400 句话。 主要特点
22. RIRS NOISES混响语音合成(RIRS)数据集包含在实际环境中录制的真实和增强的房间脉冲响应,以及用于扩充自动语音识别训练数据的相应背景噪声。 主要特点
23. MUSANMUSAN 数据集主要包含音乐、语音和噪声的音频录音,用于扩展音频数据集以及在语音识别任务(SRT)中的其他目的。 主要特点
24. GTZAN Genre Collection该数据集是 GTZAN 数据集的一个子集,专门为音乐流派分类任务而组织,提供了主要流派的混合。 主要特点
25. BirdCLEFBirdCLEF 指的是一个全面的鸟类海报和歌曲集合,已通过物种信息进行识别。这也可以应用于物种识别和音频数据。科学家和研究人员使用这个特定数据集的另一个原因是它 主要特点
26. AudioMNISTAudioMNIST 是一个由不同人录制的语音数字(0-9)的集合。它是识别数字和识别说话人的学习工具。 主要特点
27. Kaggle Freesound 音频标记这个数据集来自 Kaggle 竞赛,由标记的音频组成,其中 Freesound 将沙漠频率中的不同声音融合成一个标签,增加了识别声音的能力。 主要特点
28. DEMAND多通道声学噪声多样化环境数据库 (DEMAND) 汇集了在真实生活环境中录制的各种环境声音。 主要特点
29. CMU ARCTICCMU ARCTIC 数据库是为语音合成研究创建的。它们包含多位说话人的高质量语音录音,每位说话人说一套语音学平衡的句子。 主要特点
30. AIY Voice Kit 数据集此数据集包含从 Google AIY Voice 套件收集的音频,这些套件专为语音识别及所有相关职业而设计。其中包含许多关键命令,并且在各种环境中都展示了它们的反映。 主要特点
31. 鸡尾酒会问题数据集此数据集是为了解决鸡尾酒会问题而开发的,在该问题中,一个人需要从流中分离出单个语音。它还涵盖了多说话人录音,其中一个说话人会打断另一个。 主要特点
32. CLEAR(环境阵列分类)CLEAR 数据库由麦克风阵列在不同场景下录制的音频组成。它在 ASR 中应用于声学环境分类和声源检测。 主要特点
33. MAGNA-TAGATUNETagATune 是一款游戏,用户可以通过线索猜测一首曲子的名称,而 MAGNA-TAGATUNE 是一个数据集,其中包含几组人对同一曲子的回答。它包含超过 21,000 个音乐片段样本,每个样本都有定义其内容、流派和情绪的标签。 主要特点
34. GSC(Google 语音命令)Google 语音命令数据集包含一系列一秒钟的短语,代表 30 个短单词及其短语。它广泛用于训练和评估关键词识别模型的模型。 主要特点
35. Sony-Tau 真实声景此数据集包含使用索尼设备在真实声景中录制的音频。它应用于声景分类及相关任务。 主要特点
36. 多模态情感对话数据集 (MELD)MELD 中的多方通信涉及自由文本对话,其中包含音频、视频和文本消息,并已标记了情绪。这些对话用于识别对话中互动方的情绪。 主要特点
37. ESC-10ESC-10 是 ESC-50 的一个子集,包含 400 个属于 10 个类别的环境录音。当需要将声音分类到简单类别时使用。 主要特点
38. NUS-48ENUS-48E 数据库包含 12 位歌手演唱的 48 首英文歌曲的声乐翻唱。它包含音高和歌词注释,这使其适用于研究歌唱声音。 主要特点
39. VoxForgeVoxForge 是一个用于转录的开源语音语料库,旨在将其转录用于下一代语音识别引擎。通常,它涵盖了各种说话人朗读预先确定的文本形式的录音。 主要特点
40. AudioCapsAudioCaps 是一个大型音频剪辑数据集,包含来自 AudioSet 的相应文本描述。它被用于音频字幕和音频理解。 主要特点
结论由于音频数据集的开源可用性,机器学习领域的音频处理取得了巨大发展。这些数据集提供了多样化的数据,在各种语言、声音类型、环境、音乐和语音方面都具有可接受的大范围。因此,这些资源可以用于研究人员和开发人员训练和改进各种音频相关任务的机器学习模型,例如语音识别、音频生成和声音分类等。 需要注意的是,随着该领域的不断发展,高质量和多样化数据集的作用已显著增强。它们不仅提供了可用于训练模型的数据,还定义了比较不同算法性能的标准。随着此类数据集的稳定进展和发展,机器学习背景下的音频处理仍然光明而充满希望。 以上四十个数据集仅是机器学习研究中可用音频数据的冰山一角。这两种类型的数据集都具有其特有的属性和用途,对于从事音频处理和机器学习的任何人通常都很有用。 |
我们请求您订阅我们的新闻通讯以获取最新更新。