当前位置: 首页 > news >正文

特定机器学习问题的基准测试数据

商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个:

UCL机器学习知识库

包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:UCI Machine Learning Repository

Amazon AWS公开数据集

包含的通常是大型数据集,可通过Amazon S3访问。这些数据集包括人类基因组项目、Common Crawl网页语料库、维基百科数据和Google BooksNgrams。相关信息可参见:Open Data Sponsorship Program | AWS。

Kaggle

这里集合了Kaggle举行的各种机器学习竞赛所用的数据集。它们覆盖分类、回归、排名、推荐系统以及图像分析领域,可从Competitions区域下载,不过其中的许多数据集是收费的:Kaggle Competitions

KDnuggets

这里包含一个详细的公开数据集列表,其中一些上面提到过的。该列表位于:http://www.kdnuggets.com/datasets/index.html

美国联邦政府数据集

这里提供了许多关于气候变化、教育以及海洋方面的数据:http://www.data.gov

来自infochimps公司的数据集

来自infochimps公司的数据集,已经开放了超过14000多个数据集,不过遗憾的是很多数据集是要购买的:Software Development Company | DEV

百万歌曲数据库

百万歌曲数据库,来自哥伦比亚大学,默认的百万曲库达到了280GB。就连这个数据库的样本版(10,000首歌)都达到了1.8 GB(已经压缩过):Welcome! | Million Song Dataset

蛋白质信息资源数据集

提供了基因序列,蛋白质和生物研究的数据集,很多关于DNA的机器学习的论文都用了这个网站的数据源:http://pir.georgetown.edu

手写数字图像数据集

训练数据集包含了60,000条手写数字图像,测试数据10,000条。在很多人的论文中都采用了这个数据集,并且用了各种算法比如KNN,SVM,NN等。是图像识别中比较好的数据集:MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges

人脸识别数据库

来自麻省大学:http://vis-www.cs.umass.edu/fddb/

一些贝叶斯网

Index of /html

kdd99数据集

KDD Cup 1999 Data

数据集索引

Data Analysis and Management Research Group

华盛顿大学

VFML

搜狗数据资源

包括了评测集合、语料数据、新闻数据、图片数据以及自然语言处理相关数据:搜狗搜索引擎 - 上网从搜狗开始


http://www.mrgr.cn/news/59987.html

相关文章:

  • 远程:HTTP基本身份验证失败。提供的密码或令牌不正确,或者您的账户启用了两步验证,您必须使用个人访问令牌而不是密码。
  • RHCE笔记-NFS服务
  • OmniGen:AI图像生成新王者诞生
  • 6.1 创建gdt 表(1)
  • Ansible 的脚本 --- playbooks剧本
  • Aptos Move 模块的发布与交互:完整指南
  • 【Vue3】第二篇
  • 15-5小C的外卖超时判断
  • 单例模式 — 设计模式
  • 【工程】mmcls中EfficientNet网络转onnx格式问题记录
  • 最近阶段的状态的复盘
  • 32位的ARMlinux的4字节变量原子访问问题
  • Vue2自定义指令及插槽
  • MySQL主主SQL线程异常修复大作战,一失足成千古恨啊!
  • 四期书生大模型实战营(【入门岛】- 第4关 | 玩转HF/魔搭/魔乐社区)
  • P11232 [CSP-S 2024] 超速检测(民间数据)
  • 【热门主题】000010 深入 Vue.js 组件开发
  • 【办公类-53-14】2024年9月周计划系列优化(5天、6天、7天模版)
  • vue3 debounce 作用:函数会从其被调用时延迟执行到调用结束的这段时间内,如果该函数被再次调用,则重新计算时间。
  • 使用 BERT 和逻辑回归进行文本分类及示例验证
  • 在数据库访问中,使用localhost、127.0.0.1和IP地址有什么差异
  • Java 中的 队列(Queue)与双端队列(Deque)
  • Host Key Verification Failed
  • 软件测试学习总结
  • 【Python】为Pandas加速(适合Pandas中级开发者)
  • PG数据库之数据类型入门