当前位置：首页 > news >正文

大模型训练、微调数据集

news 2024/10/26 21:15:37

MNBVC
地址：https://github.com/esbatmop/MNBVC
数据集说明：超大规模中文语料集，不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集，且在持续更新中。

WuDaoCorporaText
地址：https://data.baai.ac.cn/details/WuDaoCorporaText
数据集说明：WuDaoCorpora是北京智源人工智能研究院（智源研究院）构建的大规模、高质量数据集，用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成，分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联，为大模型训练提供坚实的数据支撑。

CLUECorpus2020
地址：https://github.com/CLUEbenchmark/CLUECorpus2020
数据集说明：通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料，可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。

WanJuan-1.0
地址：https://opendatalab.org.cn/WanJuan1.0
数据集说明：书生·万卷1.0为书生·万卷多模态语料库的首个开源版本，包含文本数据集、图文数据集、视频数据集三部分，数据总量超过2TB。目前，书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”，书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。
SFT数据集

RefGPT：基于RefGPT生成大量真实和定制的对话数据集
地址：https://github.com/DA-southampton/RedGPT
数据集说明：包括RefGPT-Fact和RefGPT-Code两部分，其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话，RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。

COIG
地址：https://huggingface.co/datasets/BAAI/COIG
数据集说明：维护了一套无害、有用且多样化的中文指令语料库，包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。

generated_chat_0.4M：
地址：https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M
数据集说明：包含约40万条由BELLE项目生成的个性化角色对话数据，包含角色介绍。但此数据集是由ChatGPT产生的，未经过严格校验，题目或解题过程可能包含错误。

alpaca_chinese_dataset：
地址：https://github.com/hikariming/alpaca_chinese_dataset
数据集说明：根据斯坦福开源的alpaca数据集进行中文翻译，并再制造一些对话数据

Alpaca-CoT：
地址：https://github.com/PhoebusSi/Alpaca-CoT
数据集说明：统一了丰富的IFT数据（如CoT数据，目前仍不断扩充）、多种训练效率方法（如lora，p-tuning）以及多种LLMs，三个层面上的接口，打造方便研究人员上手的LLM-IFT研究平台。

pCLUE：
地址：https://github.com/CLUEbenchmark/pCLUE
数据集说明：基于提示的大规模预训练数据集，用于多任务学习和零样本学习。包括120万训练数据，73个Prompt，9个任务。

firefly-train-1.1M：
地址：https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
数据集说明：23个常见的中文数据集，对于每个任务，由人工书写若干种指令模板，保证数据的高质量与丰富度，数据量为115万

BELLE-data-1.5M：
地址：https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M
数据集说明：通过self-instruct生成，使用了中文种子任务，以及openai的text-davinci-003接口,涉及175个种子任务

Chinese Scientific Literature Dataset：
地址：https://github.com/ydli-ai/csl
数据集说明：中文科学文献数据集（CSL），包含 396,209 篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）以及简单的prompt

Chinese medical dialogue data：
地址：https://github.com/Toyhom/Chinese-medical-dialogue-data
数据集说明：中文医疗对话数据集，包括：<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对总计 792099个问答对。

Huatuo-26M：
地址：https://github.com/FreedomIntelligence/Huatuo-26M
数据集说明：Huatuo-26M 是一个中文医疗问答数据集，此数据集包含了超过2600万个高质量的医疗问答对，涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用，如聊天机器人、智能诊断系统等需要的重要资源。

Alpaca-GPT-4:
地址：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
数据集说明：Alpaca-GPT-4 是一个使用 self-instruct 技术，基于 175 条中文种子任务和 GPT-4 接口生成的 50K 的指令微调数据集。

InstructionWild
地址：https://github.com/XueFuzhao/InstructionWild
数据集说明：InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源：Twitter、CookUp.AI、Github 和 Discard。

ShareChat
地址：https://paratranz.cn/projects/6725
数据集说明：一个倡议大家一起翻译高质量 ShareGPT 数据的项目。
项目介绍：清洗/构造/翻译中文的ChatGPT数据，推进国内AI的发展，人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据，由ShareGPT API获得（英文68000，中文11000条，其他各国语言）。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。

Guanaco
地址：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
数据集说明：一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。

chatgpt-corpus
地址：https://github.com/PlexPt/chatgpt-corpus
数据集说明：开源了由 ChatGPT3.5 生成的300万自问自答数据，包括多个领域，可用于用于训练大模型。

SmileConv
地址：https://github.com/qiuhuachuan/smile
数据集说明：数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话（single-turn to multi-turn inclusive language expansion via ChatGPT），该数据集含有56k个多轮对话，其对话主题、词汇和篇章语义更加丰富多样，更加符合在长程多轮对话的应用场景。
偏好数据集

CValues
地址：https://github.com/X-PLUG/CValues
数据集说明：该项目开源了数据规模为145k的价值对齐数据集，该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型，可用于增强SFT模型的安全性或用于训练reward模型。

GPT-4-LLM
地址：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
数据集说明：该项目开源了由GPT4生成的多种数据集，包括通过GPT4生成的中英PPO数据，可以用于奖励模型的训练。

zhihu_rlhf_3k
地址：https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
数据集说明：该项目开源了3k+条基于知乎问答的人类偏好数据集，每个实际的知乎问题下给出了赞同数据较高（chosen）和较低（rejected）的回答，可以用于奖励模型的训练。

hh_rlhf_cn
地址：https://huggingface.co/datasets/dikw/hh_rlhf_cn
数据集说明：基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据，使用翻译工具进行了翻译。

chatbot_arena_conversations
地址：https://huggingface.co/datasets/lmsys/chatbot_arena_conversations
数据集说明：该偏好数据集包含20个LLM的输出，其中包括GPT-4和Claude-v1等更强的LLM，它还包含这些最先进模型的许多失败案例。包含来自超过13K个用户的无限制对话。

UltraFeedback
地址：https://github.com/OpenBMB/UltraFeedback
数据集说明：该数据集是一个大规模、细粒度、多样化的偏好数据集，用于训练强大的奖励模型和批评者模型。该工作从各种资源（包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN，数据集统计数据请参见此处）中收集了约64k条提示。然后使用这些提示来查询多个LLM（模型列表请参见此处），并为每个提示生成4个不同的回复，从而得到总共256k个样本。

查看全文

http://www.mrgr.cn/news/59043.html