当前位置: 首页 > news >正文

【语言建模】数据集合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

TED-LIUM 3

  • 发布方:

    Ubiqus

  • 发布时间:

    2019

  • 简介:

    "TED-LIUM 3 是从 TED Talks 收集的音频数据集。它包含:2351 个 NIST 球形格式 (SPH) 的音频演讲,包括来自 TED-LIUM 2 的演讲:小心,相同的演讲,但不同的音频文件(只有这些音频文件必须与 TED-LIUM 3 STM 文件一起使用) 452 小时的音频 2351 个 STM 格式的对齐自动成绩单 TEDLIUM 2 开发和测试数据:19 个 SPH 格式的 TED 演讲以及相应的手动成绩单(参见“遗留”分布如下)。带有发音的字典(159848 个条目),与包含在 TED-LIUM 2 中的文件相同的文件 从 WMT12 公开可用的语料库中选择用于语言建模的单语数据:这些文件来自 TED-LIUM 2 版本,但已被修改获得与英语更相关的标记化"

  • 下载网址:

    https://www.openslr.org/51/

  • 论文网址:

    https://arxiv.org/pdf/1805.04699.pdf

2

Libri-Light

  • 发布方:

    Facebook AI Research·PSL Research University

  • 发布时间:

    2019

  • 简介:

    Libri-Light是英语口语音频的集合,适用于在有限或没有监督的情况下训练语音识别系统。它源自LibriVox项目的开源有声读物。它包含超过60k小时的音频。

  • 下载网址:

    https://github.com/facebookresearch/libri-light

  • 论文网址:

    https://arxiv.org/pdf/1912.07875v1.pdf

3

MuseData

  • 发布方:

    蒙特利尔大学

  • 发布时间:

    2012

  • 简介:

    MuseData 是 CCARH 的管弦乐和钢琴古典音乐电子图书馆。它由大约 3MB 的 783 个文件组成。 

  • 下载网址:

    https://musedata.org/

  • 论文网址:

    https://arxiv.org/pdf/1206.6392v1.pdf

4

Dakshina

  • 发布方:

    约翰霍普金斯大学·Google Research

  • 发布时间:

    2020

  • 简介:

    Dakshina 数据集是 12 种南亚语言的拉丁文和母语文本的集合。对于每种语言,数据集都包含大量本地脚本 Wikipedia 文本、一个罗马化词典,其中包含经过证明的罗马化的本地脚本中的单词,以及该语言的本地脚本和基本拉丁字母表中的一些完整句子并行数据.

  • 下载网址:

    https://github.com/google-research-datasets/dakshina

  • 论文地址:

    https://arxiv.org/pdf/2007.01176v1.pdf

5

Million-AID

  • 发布方:

    日本产业技术综合研究所·目白大学·会津大学

  • 发布时间:

    2002

  • 简介:

    RWC(真实世界计算)音乐数据库是一个已获得版权许可的音乐数据库 (DB),可供研究人员用作研究的共同基础。它由日本真实世界计算合作伙伴 (RWCP) 的 RWC 音乐数据库子工作组构建。与此数据库相关的所有必要版权和相关法律利益均属于日本国立先进工业科学技术研究院 (AIST),该研究院为研究界提供了前所未有的音乐数据共享水平。该数据库将以象征性成本分发给研究人员,仅涵盖复制、运输和处理费用(即实际上是免费的)。 RWC 音乐数据库是世界上第一个专门为研究目的而编制的大型音乐数据库。共享数据库在其他学术研究领域很常见,并且经常为这些领域的进展做出重大贡献。然而,音乐信息处理领域缺乏音乐作品的通用数据库或乐器声音的大规模语料库。因此,我们建立了 RWC 音乐数据库,其中包含六个原始收藏:流行音乐数据库(100 首歌曲)、免版税音乐数据库(15 首歌曲)、古典音乐数据库(50 首)、爵士音乐数据库(50 首)、音乐类型数据库(100 件)和乐器声音数据库(50 件)。对于为数据库执行和录制的所有 315 首乐曲,我们准备了原始音频信号、相应的标准 MIDI 文件和歌词文本文件(歌曲)。对于 50 种乐器,我们以不同的演奏风格、动态、乐器制造商和音乐家以半音间隔捕获单个声音。这些集合将提供一个基准,使研究人员能够根据共同标准比较和评估他们的各种系统和方法。该数据库还可用于促进使用统计方法和学习技术的面向语料库的方法的研究。在任何情况下,研究人员都可以将数据库用于研究出版物和演示文稿,而不受版权限制。我们希望 RWC 音乐数据库能为音乐信息处理领域的未来发展做出重大贡献。

  • 下载网址:

    https://staff.aist.go.jp/m.goto/RWC-MDB/

  • 论文网址:

    http://ismir2002.ismir.net/proceedings/03-SP04-1.pdf

6

Hate Speech

  • 发布方:

    Vicomtech

  • 发布时间:

    2018

  • 简介:

    互联网论坛帖子上句子级英语注释的仇恨言论数据集。Stormfront的源论坛,这是一个由白人民族主义者组成的大型在线社区。从Stormfront中提取了总共10,568个句子,并将其归类为传达仇恨言论或不传达仇恨言论。

  • 下载网址:

    https://github.com/Vicomtech/hate-speech-dataset

  • 论文网址:

    https://arxiv.org/pdf/1809.04444v1.pdf

7

Dakshina

  • 发布方:

    约翰霍普金斯大学·Google Research

  • 发布时间:

    2020

  • 简介:

    Dakshina 数据集是 12 种南亚语言的拉丁文和母语文本的集合。对于每种语言,数据集都包含大量本地脚本 Wikipedia 文本、一个罗马化词典,其中包含经过证明的罗马化的本地脚本中的单词,以及该语言的本地脚本和基本拉丁字母表中的一些完整句子并行数据.

  • 下载网址:

    https://github.com/google-research-datasets/dakshina

  • 论文网址:

    https://arxiv.org/pdf/2007.01176v1.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务


http://www.mrgr.cn/news/70388.html

相关文章:

  • 【LeetCode】【算法】11. 盛最多水的容器
  • 七牛云上传图片成功,但是无法访问显示{error : document not found}
  • VUE3+Three.js搭建教程
  • 聊天服务器(4)CMake
  • AlphaFold3中文安装教程
  • 深圳华为展厅:30寸OLED透明屏中控桌引领科技新风尚
  • 应用于新能源汽车NCV4275CDT50RKG车规级LDO线性电压调节器芯片
  • 【漏洞复现】用友 U8 OA getSessionList.jsp 敏感信息泄漏漏洞
  • 2024年最新项目管理工具推荐:哪些支持自动化测试?
  • 2024年12月一区SCI-加权平均优化算法Weighted average algorithm-附Matlab免费代码
  • 专题十——字符串
  • 网络安全之SQLMAP _DNS注入配置方法
  • MySQL初学之旅(2)增删改查—上
  • 基于微信生态的开源 AI 智能名片 2+1 链动模式 S2B2C 商城小程序源码拉新策略研究
  • linux内存管理学习笔记
  • 制造业怎么用好仓库管理系统?仓库管理系统在制造业中的应用实例
  • Python __del__()销毁对象
  • python爬虫豆瓣top250
  • 精华帖分享|历史波动率和已实现波动率纠缠研究
  • 3. JVM 发展历程
  • 【Linux进程篇1】认识冯·诺依曼体系结构(引出进程详解)
  • 皮卡超级壁纸 1.4.1 | 解锁会员版的全景壁纸、动态壁纸和超级壁纸
  • solo博客源码使用idea编译运行
  • ‘conda‘ 不是内部或外部命令,也不是可运行的程序或批处理文件,Miniconda
  • 日常bug记录,easyexcel导入报错convert data ... to class java.math.BigDecimal error
  • java调用shell