当前位置: 首页 > news >正文

大模型训练、微调数据集

MNBVC
地址:https://github.com/esbatmop/MNBVC
数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。

WuDaoCorporaText
地址:https://data.baai.ac.cn/details/WuDaoCorporaText
数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。

CLUECorpus2020
地址:https://github.com/CLUEbenchmark/CLUECorpus2020
数据集说明:通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。

WanJuan-1.0
地址:https://opendatalab.org.cn/WanJuan1.0
数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。
SFT数据集

RefGPT:基于RefGPT生成大量真实和定制的对话数据集
地址:https://github.com/DA-southampton/RedGPT
数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。

COIG
地址:https://huggingface.co/datasets/BAAI/COIG
数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。

generated_chat_0.4M:
地址:https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M
数据集说明:包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。

alpaca_chinese_dataset:
地址:https://github.com/hikariming/alpaca_chinese_dataset
数据集说明:根据斯坦福开源的alpaca数据集进行中文翻译,并再制造一些对话数据

Alpaca-CoT:
地址:https://github.com/PhoebusSi/Alpaca-CoT
数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。

pCLUE:
地址:https://github.com/CLUEbenchmark/pCLUE
数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。

firefly-train-1.1M:
地址:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万

BELLE-data-1.5M:
地址:https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务

Chinese Scientific Literature Dataset:
地址:https://github.com/ydli-ai/csl
数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt

Chinese medical dialogue data:
地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
数据集说明:中文医疗对话数据集,包括:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对。

Huatuo-26M:
地址:https://github.com/FreedomIntelligence/Huatuo-26M
数据集说明:Huatuo-26M 是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等需要的重要资源。

Alpaca-GPT-4:
地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
数据集说明:Alpaca-GPT-4 是一个使用 self-instruct 技术,基于 175 条中文种子任务和 GPT-4 接口生成的 50K 的指令微调数据集。

InstructionWild
地址:https://github.com/XueFuzhao/InstructionWild
数据集说明:InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github 和 Discard。

ShareChat
地址:https://paratranz.cn/projects/6725
数据集说明:一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
项目介绍:清洗/构造/翻译中文的ChatGPT数据,推进国内AI的发展,人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。

Guanaco
地址:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
数据集说明:一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。

chatgpt-corpus
地址:https://github.com/PlexPt/chatgpt-corpus
数据集说明:开源了由 ChatGPT3.5 生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。

SmileConv
地址:https://github.com/qiuhuachuan/smile
数据集说明:数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
偏好数据集

CValues
地址:https://github.com/X-PLUG/CValues
数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。

GPT-4-LLM
地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
数据集说明:该项目开源了由GPT4生成的多种数据集,包括通过GPT4生成的中英PPO数据,可以用于奖励模型的训练。

zhihu_rlhf_3k
地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
数据集说明:该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。

hh_rlhf_cn
地址:https://huggingface.co/datasets/dikw/hh_rlhf_cn
数据集说明:基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据,使用翻译工具进行了翻译。

chatbot_arena_conversations
地址:https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
数据集说明:该偏好数据集包含20个LLM的输出,其中包括GPT-4和Claude-v1等更强的LLM,它还包含这些最先进模型的许多失败案例。包含来自超过13K个用户的无限制对话。

UltraFeedback
地址:https://github.com/OpenBMB/UltraFeedback
数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集,用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN,数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。


http://www.mrgr.cn/news/59043.html

相关文章:

  • unity开发之Line Renderer
  • 写小说的AI智能软件:如何用AI写小说教程!
  • 理工科考研想考计算机,湖南大学、重大、哈工大威海、山东大学,该如何选择?
  • 希尔排序的增量和缩小增量问题
  • Python+Django+VUE 搭建深度学习训练界面 (持续ing)
  • java List<Map<String, Object>> 转 List<JSONObject> 的几种方式
  • linux网络编程6——基于UDP的可靠传输协议KCP/QUIC
  • Minio文件服务器:安装
  • [LeetCode] 77. 组合
  • shodan1,shodan简介和kali下的使用
  • 【Linux】线程池详解及其基本架构与单例模式实现
  • [LeetCode] 494. 目标和
  • 【动态规划】【简单多状态dp问题】买卖股票相关问题(冷冻期、手续费、限制次数)
  • 基于SSM农业信息管理系统的设计
  • python曲线拟合通用代码
  • 数据结构(java)——数组的构建和插入
  • 【网络安全】一文讲清Zero Trust(零信任)安全
  • 【Python爬虫+数据分析】详细教学知网文献基本信息爬取方式(附详细教程+完整代码)
  • ctfshow的sql注入解题思路171-211
  • 文言编程:古老文字与现代编程的融合
  • 禾川SV-X2E A伺服驱动器参数设置——脉冲型
  • Gateway 统一网关
  • 【论文阅读】ESRGAN
  • C++ string类常用接口总结
  • 「C/C++」C++17 之 std::filesystem::directory_entry 文件系统目录条目
  • sql语句中的Group By 分组查询