LLMBook 大模型数据集下载地址完整收集
本文针对《LLMBook》大语言模型 | LLMBook-zh 中的42个数据集进行完整下载地址整理收集。
具体整理部分关于第三章 大型语言模型资源
1、常用预训练24个数据集下载地址整理收集
2、指令微调18个数据集下载地址整理收集
3、人类对齐8个数据集下载地址整理收集
《大语言模型》由作者赵鑫,李军毅,周昆,唐天一,文继荣 等作者编写,全面介绍了大型语言模型的技术背景、发展过程、关键技术、资源、预训练方法、微调与对齐技术、使用方法、评测以及应用等多个方面。
本书主要面向希望系统学习大语言模型技术的读者,将重点突出核心概念与 算法,并且配以示例与代码(伪代码)帮助读者理解特定算法的实现逻辑。添加图片注释,不超过 140 字(可选)
第一部分:背景与基础知识
第一章:引言
1.1 语言模型发展历程
-
统计语言模型(SLM):20世纪90年代兴起,基于统计学习方法,使用马尔可夫假设建立语言序列预测模型,通常根据若干个连续的上下文单词预测下一个词的出现概率。高阶模型面临“维数灾难”,需要设计平滑策略。
-
神经语言模型(NLM):使用神经网络建模文本序列,如循环神经网络(RNN)。Yoshua Bengio引入分布式词表示,构建基于聚合上下文特征的目标词预测函数,克服了数据稀疏问题。代表性模型word2vec学习分布式词表示,用于自然语言处理任务。
-
预训练语言模型(PLM):在训练架构和数据上进行改进,ELMo使用大量无标注数据训练双向LSTM网络,学习上下文感知的单词表示。Transformer模型通过自注意力机制建模长程序列关系,BERT和GPT-1分别采用编码器和解码器架构进行预训练。
-
大语言模型(LLM):通过规模扩展(参数规模、数据规模)提升模型性能,展现出小型模型不具备的能力,如上下文学习和思维链能力。GPT-3等模型通过大规模预训练数据学习丰富世界知识,具备通用任务求解能力。添加图片注释,不超过 140 字(可选)
1.2 大语言模型的能力特点
-
丰富世界知识:通过大规模文本数据预训练学习。
-
通用任务解决能力:通过预测下一个词元的预训练任务建立,能够解决多种下游任务。
-
复杂任务推理能力:展现出比传统模型更强的综合推理能力。
-
人类指令遵循能力:通过预训练与微调学习,能够直接通过自然语言描述下达任务指令。
-
人类对齐能力:通过基于人类反馈的强化学习技术建立,确保模型输出符合人类价值观。
-
工具使用能力:通过微调、上下文学习等方式掌握外部工具的使用,扩展模型的能力范围。
1.3 大语言模型关键技术概览
-
规模扩展:参数、数据、算力的扩展对模型性能有显著影响,OpenAI的GPT-3和谷歌的PaLM模型通过大规模参数和数据训练,展现出优越性能。
-
数据工程:数据采集、清洗、配比与课程设计对模型性能至关重要,高质量数据是大语言模型的关键基础。
-
高效预训练:使用大规模分布式训练算法优化大语言模型的神经网络参数,需要联合使用各种并行策略和效率优化方法。
-
能力激发:通过指令微调和提示策略提升模型的任务求解能力,设计合适的提示策略诱导模型生成正确答案。
-
人类对齐:确保模型输出符合人类价值观,使用基于人类反馈的强化学习算法进行对齐。
-
工具使用:让模型学会使用各种工具的调用方式,扩展模型的能力范围,如利用搜索引擎和计算器。
1.4 大语言模型对科技发展的影响
-
自然语言处理:大语言模型作为一种通用的语言任务解决技术,能够通过特定提示解决不同类型的任务,研究范式转向提升大语言模型的综合能力。
-
信息检索:传统搜索引擎受到人工智能信息助手的冲击,微软推出基于大语言模型增强的搜索引擎New Bing,未来研究方向包括检索增强的大语言模型和大语言模型增强的搜索系统。
-
计算机视觉:研究人员研发类ChatGPT的视觉-语言联合对话模型,GPT-4支持图文多模态信息输入,简化多模态模型的实现难度。
-
人工智能赋能的科学研究(AI4Science):大语言模型技术广泛应用于数学、化学、物理、生物等多个领域,赋能科学研究,如辅助提供解题灵感、论文撰写、新材料发现、生物制药等。
第二章:基础介绍
2.1 大语言模型的构建过程
大语言模型的构建分为两个主要阶段:大规模预训练和指令微调与人类对齐。
-
大规模预训练:使用与下游任务无关的大规模数据进行模型参数的初始训练,目的是为模型参数找到一个较好的“初值点”。预训练数据需要进行严格清洗,去除有毒有害内容,并进行词元化处理。这一过程对算力需求极高,训练百亿模型至少需要百卡规模的算力集群联合训练数月时间,而训练千亿模型则需要千卡甚至万卡规模的算力集群。
-
指令微调与人类对齐:预训练后的模型需要进行微调与对齐,以更好地用于任务求解和为人类服务。常用的微调技术是“指令微调”(Supervised Fine-tuning, SFT),通过使用任务输入与输出的配对数据进行模型训练,增强模型的通用任务求解能力。此外,还需要将大语言模型与人类的期望、需求以及价值观对齐,主要采用基于人类反馈的强化学习对齐方法(Reinforcement Learning from Human Feedback, RLHF)。
2.2 扩展法则
大语言模型的成功关键在于对“规模扩展”的充分探索与利用。扩展法则(Scaling Law)是研究规模扩展对模型性能提升的定量建模方法。
-
KM 扩展法则:由OpenAI团队提出,建立了模型规模、数据规模和计算算力与模型性能之间的幂律关系。公式表明模型性能与这三个因素之间存在较强的依赖关系,可以近似刻画为指数关系。
-
Chinchilla 扩展法则:由DeepMind团队提出,针对更大范围的模型规模和数据规模进行实验,拟合得到了另一种关于模型性能的幂律关系,并提出了算力资源固定情况下模型规模与数据规模的最优分配方案。
2.3 涌现能力
涌现能力是指在小型模型中不存在但在大模型中出现的能力,具体是指当模型扩展到一定规模时,模型的特定任务性能突然出现显著跃升的趋势。
-
代表性涌现能力:包括上下文学习(In-context Learning, ICL)、指令遵循(Instruction Following)和逐步推理(Step-by-step Reasoning)。这些能力在大型语言模型中表现得更为显著,且通常需要模型达到一定的规模才能显现。
-
涌现能力与扩展法则的关系:扩展法则使用语言建模损失来衡量语言模型的整体性能,展现出了较为平滑的性能提升趋势,而涌现能力通常使用任务性能来衡量模型性能,展现出随规模扩展的骤然跃升趋势。
2.4 GPT 系列模型的技术演变
GPT系列模型的发展历程可分为四个阶段:早期探索阶段、路线确立阶段、能力增强阶段以及能力跃升阶段。
-
早期探索:OpenAI最初使用循环神经网络研发语言模型,后转向Transformer架构,推出了GPT-1和GPT-2,奠定了后续模型的研究基础。
-
规模扩展:GPT-3将模型参数扩展到了175B的规模,初步展现出了一定的通用性,通过上下文学习技术适配下游任务。
-
能力增强:OpenAI通过代码数据训练和人类偏好对齐两种主要途径改进GPT-3模型,推出了Codex和InstructGPT等模型,增强了模型的代码能力和人类对齐能力。
-
性能跃升:OpenAI发布了ChatGPT、GPT-4以及GPT-4V/GPT-4 Turbo等模型,极大提高了现有人工智能系统的能力水平,展现了通用人工智能的曙光。
第三章:大语言模型资源
3.1 公开可用的模型检查点或 API
本节介绍了多种公开可用的大语言模型检查点和API,这些资源允许用户无需从头开始训练模型,即可利用预训练模型进行研究或开发。
-
公开可用的通用大语言模型检查点:包括LLaMA、ChatGLM、Falcon、Baichuan、InternLM、Qwen、Mistral、DeepSeek LLM、Mixtral、Gemma、MiniCPM和YuLan-Chat等模型,这些模型在参数规模、训练数据和性能上各有特点,适用于不同的应用场景。
-
LLaMA变体系列:基于LLaMA模型的多种变体,通过指令微调或继续预训练等方法扩展了LLaMA的功能和应用范围,如Stanford Alpaca、Vicuna等。
-
大语言模型的公共API:主要介绍了OpenAI提供的GPT系列模型API,包括GPT-3.5 Turbo、GPT-4和GPT-4 Turbo,以及文本表征API,如text-embedding-ada-002等。
3.2 常用的预训练数据集
预训练数据集是大语言模型训练的基础,本节介绍了多种常用的预训练数据集,涵盖了网页、书籍、维基百科、代码和混合型数据集。
语料库 | 类型 | 大小 | 机构 | 最近更新时间 | 数据集地址 |
Common Crawl | 通用网页 | - | Common Crawl | - | Common Crawl |
C4 | 通用网页 | 800GB | 2019年04月 | C4 (Colossal Clean Crawled Corpus)|自然语言处理数据集|机器学习数据集 | |
CC-Stories-R | 通用网页 | 31GB | - | 2019年09月 | spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集 |
CC-NEWS | 通用网页 | 78GB | 2019年02月 | CC-News (CommonCrawl News dataset)|新闻文本数据集|内容挖掘数据集 | |
REALNEWs | 通用网页 | 120GB | University of Washington | 2019年04月 | RealNews|新闻分析数据集|自然语言处理数据集 |
RedPajama-Data | 通用网页 | 100TB | Together Al | 2023年10月 | togethercomputer/RedPajama-Data-1T |
RefinedWeb | 通用网页 | 1.68TB | TII | 2023年01月 | tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集 |
WanJuan-CC | 通用网页 | 400GB | 上海人工智能实验室 | 2024年02月 | WanJuan2.0 (WanJuan-CC)|自然语言处理数据集|预训练数据集数据集 |
OpenWebText | 通用网页 | 38GB | - | 2023年03月 | OpenWebText|网络文本分析数据集|社交媒体数据数据集 |
ChineseWebText | 中文网页 | 1.42TB | 中科院自动化所 | 2023年11月 | CASIA-LM/ChineseWebText|自然语言处理数据集|预训练数据集数据集 |
WanJuan 1.0 Text | 中文网页 | 1TB | 上海人工智能实验室 | 2023年08月 | WanJuan1.0|多模态学习数据集|预训练数据集数据集 |
WuDaoCorpora Text | 中文网页 | 5TB | 北京智源研究院 | 2021年06月 | WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集 |
SkyPile-150B | 中文网页 | 620GB | 昆仑万维 | 2023年10月 | Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集 |
BookCorpus | 书籍 | 5GB | University of Toronto & MIT | 2015年12月 | BookCorpus|文本分析数据集|自然语言处理数据集 |
Project Gutenberg | 书籍 | - | University of North Carolina | 2021年12月 | Project-Gutenberg|自然语言处理数据集|文本分析数据集 |
arXiv dataset | 论文 | 1.1TB | Cornell University | 2019年04月 | arXiv Dataset|学术研究数据集|STEM数据集 |
S2ORC | 论文 | - | Allen Institute for Al | 2023年01月 | S2ORC|学术研究数据集|文本挖掘数据集 |
peS2o | 论文 | - | Allen Institute for Al | 2023年06月 | allenai/peS2o|学术文本预训练数据集|多学科领域数据集 |
BigQuery | 代码 | - | - | BigQuery Public Datasets|公共数据集数据集|数据分析数据集 | |
The Stack | 代码 | 6.4TB | BigCode | 2022年11月 | The-Stack|编程语言数据集|人工智能数据集 |
StarCoder | 代码 | 783GB | BigCode | 2023年05月 | starcoderdata|编程语言分析数据集|代码数据处理数据集 |
The Pile | 混合 | 800GB | EleutherAI | 2020年12月 | EleutherAI/pile |
ROOTS | 混合 | 1.6TB | BigScience | 2022年06月 | ROOTS Corpus|多语言数据集数据集|语言模型训练数据集 |
Dolma | 混合 | 6TB | Allen Institute for Al | 2024年01月 | allenai/dolma|自然语言处理数据集|机器学习数据集 |
3.3 常用微调数据集
微调数据集用于增强模型的任务解决能力,本节介绍了指令微调数据集和人类对齐数据集。
类别 | 集合 | 时间 | # 样本数量 | 来源 | 数据集地址 |
任务 | Nat. Inst. | 2021年04月 | 193K | Allen Institute for Al | 敬请期待 |
FLAN | 2021年09月 | 4.4M | SirNeural/flan_v2 | ||
P3 | 2021年10月 | 12.1M | BigScience | bigscience/P3|自然语言处理数据集|数据模板数据集 | |
Super Nat. Inst. | 2022年04月 | 5M | Allen Institute for Al | 敬请期待 | |
MVPCorpus | 2022年06月 | 41M | Renmin University of China | 敬请期待 | |
xP3 | 2022年11月 | 81M | BigScience | bigscience/xP3 | |
OIG | 2023年03月 | 43M | LAION-AI | 敬请期待 | |
UnifedSKG | 2022年03月 | 812K | The University of Hong Kong | 敬请期待 | |
对话 | HH-RLHF | 2022年04月 | 160K | Anthropic | Anthropic/hh-rlhf |
HC3 | 2023年01月 | 87K | SimpleAI | Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集 | |
ShareGPT | 2023年03月 | 90K | TechCrunch | shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集 | |
Dolly | 2023卒04月 | 15K | Databricks | databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集 | |
OpenAssistant | 2023年04月 | 161K | LAION-AI | OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集 | |
InstructWild v2 | 2023年04月 | 111K | National University of Singapore | InstructWild|自然语言处理数据集|机器学习数据集 | |
LIMA | 2023年06月 | 1K | Meta Al | lima | |
合成 | Self-Instruct | 2022年12月 | 82K | University of Washington | Self-Instruct |
Alpaca | 2023年03月 | 52K | Standford | alpaca | |
Guanaco | 2023年03月 | 535K | - | GuanacoDataset | |
Baize | 2023年04月 | 158K | University of California, San Diego | linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集 | |
Belle | 2023年04月 | 1.5M | LianjiaTech | Belle 数据集|自然语言处理数据集|对话系统数据集 | |
Alpaca-GPT4 | 2023年04月 | 52K | Microsoft | Alpaca-GPT4|自然语言处理数据集|机器学习数据集 | |
Evol-Instruct | 2023年06月 | 52K | Microsoft | SurgeGlobal/Evol-Instruct|指令进化数据集|文本生成数据集 | |
UltraChat | 2023年06月 | 675K | Tsinghua University | ultrachat|自然语言处理数据集|对话系统数据集 |
数据集 | 时间 | # 样本数量 | 来源 | 对齐目标 | 数据集地址 |
Summarize from Feedback | 2020年09月 | 193K | OpenAI | 有用性 | Summarize from Feedback |
SHP | 2021年10月 | 385K | Standfordnlp | 有用性 | stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集 |
WebGPT Comparisons | 2021年12月 | 19K | OpenAI | 有用性 | openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集 |
Stack Exchange Preferences | 2021年12月 | 10M | HuggingFaceH4 | 有用性 | HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集 |
HH-RLHF | 2022年4月 | 169K | Anthropic | 有用性、无害性 | Anthropic/hh-rlhf |
Sandbox Alignment Data | 2023年5月 | 169K | 有用性、诚实性、无害性 | Sandbox Alignment Data | |
CValues | 2023年7月 | 145K | Alibaba | 无害性 | CValues-Comparison|价值观评估数据集|人工智能文本生成数据集 |
PKU-SafeRLHF | 2023年10月 | 330K | PKU-Alignment | 有用性、无害性 | PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集 |
3.4 代码库资源
代码库资源为开发大语言模型提供了技术支持,本节介绍了几个重要的代码库。
-
Hugging Face开源社区:提供了Transformers、Datasets和Accelerate等代码库,这些工具简化了模型的训练、数据处理和分布式训练过程。
-
DeepSpeed:微软开发的高性能库,提供了内存优化、数据并行、混合精度训练等优化技术支持,适用于大语言模型的分布式训练。
-
Megatron-LM:NVIDIA开发的代码库,专门用于训练大语言模型,支持数据并行、模型并行和混合精度训练,提高了训练效率和速度。
第二部分 预训练
第四章 数据准备
4.1 数据来源
通用文本数据:网页数据、书籍 和对话文本
-
网页数据:作为预训练数据的主要来源,网页数据规模庞大、内容丰富多样,但需筛选以去除低质量内容。
-
书籍数据:文本正式详实,有助于模型积累语言知识和加强长程语义关系建模。
-
对话文本:提供自然语言交流的实例,增强模型的对话能力。
专用文本数据:多语文本、科学文本、代码数据、
-
多语文本:提升模型的多语理解与生成能力,如BLOOM和PaLM模型。
-
科学文本:增强模型对科学知识的理解,提升在科学问答等任务上的表现。
-
代码数据:提高模型的代码理解和生成能力,如在编程问答社区和开源项目仓库中获取代码
4.2 数据预处理
-
质量过滤:去除低质量数据,如机器自动生成的广告网页,使用启发式规则和分类器方法。
-
敏感内容过滤:过滤有毒内容和隐私信息,采用基于分类器的过滤方法和启发式方法。
-
数据去重:防止模型对重复模式的过度学习,采用精确匹配和近似匹配算法。
-
数据对预训练效果的影响:数据数量和质量直接影响模型性能,重复数据和有偏、有毒、隐私内容会对模型造成不良影响。添加图片注释,不超过 140 字(可选)
4.3 词元化(分词)
-
BPE分词:从基本符号开始,迭代合并相邻词元,直到达到预定义的词表大小。
-
WordPiece分词:与BPE类似,但选择词元对的标准不同,使用语言模型评分。
-
Unigram分词:从足够大的字符串或词元初始集合开始,迭代删除词元,基于一元语言模型进行选择。
4.4 数据调度
-
数据混合:根据经验确定不同数据源的混合比例,增加数据源异质性可提升模型综合表现。
-
数据课程:按照特定顺序安排预训练数据,从简单/通用数据到更具挑战性/专业化数据。
-
预训练数据准备概述:以YuLan模型为例,介绍了数据收集、清洗、词元化和数据调度的具体流程。