如何通过强化学习RL激励大型语言模型(LLMs)的搜索能力?R1-Searcher来了
R1-Searcher,这是一种使用 RL 增强 LLM 的 RAG 能力的新框架,通过两阶段强化学习(RL)实现LLM在推理过程中自主调用外部检索系统,突破模型固有知识限制。
为了通过探索外部检索环境来激励大语言模型的搜索能力,设计了一种基于结果的两阶段强化学习方法,通过定制的奖励设计,使模型能够在推理过程中自由探索如何调用外部检索系统以获取相关知识。具体来说,在第一阶段,我们采用检索奖励来激励模型进行检索操作,而不考虑最终答案的准确性。这样,大语言模型可以快速学习正确的检索调用格式。在第二阶段,我们进一步引入答案奖励,以鼓励模型学习有效地利用外部检索系统正确解决问题。我们的方法仅依赖于基于结果的强化学习,使模型能够通过探索和学习自主学习,而无需任何知识蒸馏或使用有监督微调(SFT)进行冷启动。为了支持大语言模型与外部检索环境在训练过程中的探索,我们进一步提出了一种基于 Reinforce++的改进强化学习训练方法,该方法具有基于检索增强生成的展开和基于检索掩码的损失计算。
2. 方法框架
2.1 两阶段强化学习设计
- 第一阶段(检索激励):
- 目标:训练模型主动发起检索请求。
- 奖励机制:检索奖励(+0.5/次) + 格式奖励(0.5)。
R r e t r i e v a l = { 0.5 , if n ≥ 1 0 , if n = 0 R_{retrieval} = \begin{cases} 0.5, & \text{if } n \geq 1 \\ 0, & \text{if } n = 0 \end{cases} R