当前位置：首页 > news >正文

【语言建模】数据集合集！

news 2025/4/26 18:47:38

本文将为您介绍经典、热门的数据集，希望对您在选择适合的数据集时有所帮助。

TED-LIUM 3

发布方：

Ubiqus
发布时间：

2019
简介：

"TED-LIUM 3 是从 TED Talks 收集的音频数据集。它包含：2351 个 NIST 球形格式 (SPH) 的音频演讲，包括来自 TED-LIUM 2 的演讲：小心，相同的演讲，但不同的音频文件（只有这些音频文件必须与 TED-LIUM 3 STM 文件一起使用） 452 小时的音频 2351 个 STM 格式的对齐自动成绩单 TEDLIUM 2 开发和测试数据：19 个 SPH 格式的 TED 演讲以及相应的手动成绩单（参见“遗留”分布如下）。带有发音的字典（159848 个条目），与包含在 TED-LIUM 2 中的文件相同的文件从 WMT12 公开可用的语料库中选择用于语言建模的单语数据：这些文件来自 TED-LIUM 2 版本，但已被修改获得与英语更相关的标记化"
下载网址：

https://www.openslr.org/51/
论文网址：

https://arxiv.org/pdf/1805.04699.pdf

Libri-Light

发布方：

Facebook AI Research·PSL Research University
发布时间：

2019
简介：

Libri-Light是英语口语音频的集合，适用于在有限或没有监督的情况下训练语音识别系统。它源自LibriVox项目的开源有声读物。它包含超过60k小时的音频。
下载网址：

https://github.com/facebookresearch/libri-light
论文网址：

https://arxiv.org/pdf/1912.07875v1.pdf

MuseData

发布方：

蒙特利尔大学
发布时间：

2012
简介：

MuseData 是 CCARH 的管弦乐和钢琴古典音乐电子图书馆。它由大约 3MB 的 783 个文件组成。
下载网址：

https://musedata.org/
论文网址：

https://arxiv.org/pdf/1206.6392v1.pdf

Dakshina

发布方：

约翰霍普金斯大学·Google Research
发布时间：

2020
简介：

Dakshina 数据集是 12 种南亚语言的拉丁文和母语文本的集合。对于每种语言，数据集都包含大量本地脚本 Wikipedia 文本、一个罗马化词典，其中包含经过证明的罗马化的本地脚本中的单词，以及该语言的本地脚本和基本拉丁字母表中的一些完整句子并行数据.
下载网址：

https://github.com/google-research-datasets/dakshina
论文地址：

https://arxiv.org/pdf/2007.01176v1.pdf

Million-AID

发布方：

日本产业技术综合研究所·目白大学·会津大学
发布时间：

2002
简介：

RWC（真实世界计算）音乐数据库是一个已获得版权许可的音乐数据库 (DB)，可供研究人员用作研究的共同基础。它由日本真实世界计算合作伙伴 (RWCP) 的 RWC 音乐数据库子工作组构建。与此数据库相关的所有必要版权和相关法律利益均属于日本国立先进工业科学技术研究院 (AIST)，该研究院为研究界提供了前所未有的音乐数据共享水平。该数据库将以象征性成本分发给研究人员，仅涵盖复制、运输和处理费用（即实际上是免费的）。 RWC 音乐数据库是世界上第一个专门为研究目的而编制的大型音乐数据库。共享数据库在其他学术研究领域很常见，并且经常为这些领域的进展做出重大贡献。然而，音乐信息处理领域缺乏音乐作品的通用数据库或乐器声音的大规模语料库。因此，我们建立了 RWC 音乐数据库，其中包含六个原始收藏：流行音乐数据库（100 首歌曲）、免版税音乐数据库（15 首歌曲）、古典音乐数据库（50 首）、爵士音乐数据库（50 首）、音乐类型数据库（100 件）和乐器声音数据库（50 件）。对于为数据库执行和录制的所有 315 首乐曲，我们准备了原始音频信号、相应的标准 MIDI 文件和歌词文本文件（歌曲）。对于 50 种乐器，我们以不同的演奏风格、动态、乐器制造商和音乐家以半音间隔捕获单个声音。这些集合将提供一个基准，使研究人员能够根据共同标准比较和评估他们的各种系统和方法。该数据库还可用于促进使用统计方法和学习技术的面向语料库的方法的研究。在任何情况下，研究人员都可以将数据库用于研究出版物和演示文稿，而不受版权限制。我们希望 RWC 音乐数据库能为音乐信息处理领域的未来发展做出重大贡献。
下载网址：

https://staff.aist.go.jp/m.goto/RWC-MDB/
论文网址：

http://ismir2002.ismir.net/proceedings/03-SP04-1.pdf

Hate Speech

发布方：

Vicomtech
发布时间：

2018
简介：

互联网论坛帖子上句子级英语注释的仇恨言论数据集。Stormfront的源论坛，这是一个由白人民族主义者组成的大型在线社区。从Stormfront中提取了总共10,568个句子，并将其归类为传达仇恨言论或不传达仇恨言论。
下载网址：

https://github.com/Vicomtech/hate-speech-dataset
论文网址：

https://arxiv.org/pdf/1809.04444v1.pdf

Dakshina

发布方：

约翰霍普金斯大学·Google Research
发布时间：

2020
简介：

Dakshina 数据集是 12 种南亚语言的拉丁文和母语文本的集合。对于每种语言，数据集都包含大量本地脚本 Wikipedia 文本、一个罗马化词典，其中包含经过证明的罗马化的本地脚本中的单词，以及该语言的本地脚本和基本拉丁字母表中的一些完整句子并行数据.
下载网址：

https://github.com/google-research-datasets/dakshina
论文网址：

https://arxiv.org/pdf/2007.01176v1.pdf