当前位置: 首页 > news >正文

如何通过强化学习RL激励大型语言模型(LLMs)的搜索能力?R1-Searcher来了

R1-Searcher,这是一种使用 RL 增强 LLM 的 RAG 能力的新框架,通过两阶段强化学习(RL)实现LLM在推理过程中自主调用外部检索系统,突破模型固有知识限制。
为了通过探索外部检索环境来激励大语言模型的搜索能力,设计了一种基于结果的两阶段强化学习方法,通过定制的奖励设计,使模型能够在推理过程中自由探索如何调用外部检索系统以获取相关知识。具体来说,在第一阶段,我们采用检索奖励来激励模型进行检索操作,而不考虑最终答案的准确性。这样,大语言模型可以快速学习正确的检索调用格式。在第二阶段,我们进一步引入答案奖励,以鼓励模型学习有效地利用外部检索系统正确解决问题。我们的方法仅依赖于基于结果的强化学习,使模型能够通过探索和学习自主学习,而无需任何知识蒸馏或使用有监督微调(SFT)进行冷启动。为了支持大语言模型与外部检索环境在训练过程中的探索,我们进一步提出了一种基于 Reinforce++的改进强化学习训练方法,该方法具有基于检索增强生成的展开和基于检索掩码的损失计算。

2. 方法框架

在这里插入图片描述

2.1 两阶段强化学习设计

  • 第一阶段(检索激励)
    • 目标:训练模型主动发起检索请求。
    • 奖励机制:检索奖励(+0.5/次) + 格式奖励(0.5)。
      R r e t r i e v a l = { 0.5 , if  n ≥ 1 0 , if  n = 0 R_{retrieval} = \begin{cases} 0.5, & \text{if } n \geq 1 \\ 0, & \text{if } n = 0 \end{cases} R

http://www.mrgr.cn/news/93998.html

相关文章:

  • 指令微调 (Instruction Tuning) 与 Prompt 工程
  • ubuntu 22.04 本地部署DeepSeek的Janus Pro
  • Go语言Viper配置详解:conf库优雅解析实战
  • 电路原理(电容 集成电路NE555)
  • 知乎后台管理系统:数据库系统原理实验1——数据库基础概念
  • 每日一题----------String 和StringBuffer和StringBuiler重点
  • linux 系统 之centos安装 docker
  • 1.1 双指针专题:移动零(easy)
  • Dify平台部署全记录
  • WinForm模态与非模态窗体
  • 虚幻基础:动画系统
  • 无人机避障——XTDrone中运行VINS-Fusion+Ego-planner进行路径规划
  • 【愚公系列】《AI Agent技术、应用与商业》003-Al Agent 的分类方式
  • 【NexLM 开源系列】如何封装多个大模型 API 调用
  • 在线json转ArkTs-Harmonyos
  • π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署
  • Smart contract -- 自毁合约
  • 忘记dedecms后台超级管理员账号和密码的解决方案
  • ROS实践(二)构建Gazebo机器人模型文件urdf
  • 大语言模型 (LLM) 基础知识