当前位置: 首页 > news >正文

【深度强化学习 DRL 快速实践】Value-based 方法总结

在这里插入图片描述

问题:怎么评估给定策略下的某个状态值的好坏呢?

强化学习中的 Value-based 方法总结

在强化学习(Reinforcement Learning, RL)中,Value-based 方法主要是学习一个价值函数(Value Function),然后基于价值函数来决策。常见的 Value-based 方法包括:

  • Monte Carlo 方法 (MC)
  • 时序差分方法 (Temporal Difference, TD)

本文将分别介绍这些方法的核心思想、更新公式,并通过表格对它们的无偏性和方差进行对比总结


1. Monte Carlo 方法 (MC)

Monte Carlo 方法通过完整采样一条轨迹(直到终止),然后用 整条轨迹 上实际获得的总回报 G t G_t Gt来估计价值函数

V ( s t ) ← V ( s t ) + α ( G t − V ( s t ) ) , where  G t = ∑ k = 0 T − t γ k r t + k V(s_t) \leftarrow V(s_t) + \alpha \left( G_t - V(s_t) \right),\text{where }G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k} V(st)V(st)+α(GtV(st)),where Gt=k=0Ttγkrt+k

2. 时序差分方法 (TD)

TD 方法结合了 Monte Carlo 和动态规划的思想,它只利用 一个时间步 的采样,并且使用当前价值估计进行更新,最常用的是 TD(0) 方法:

V ( s t ) ← V ( s t ) + α ( r t + γ V ( s t + 1 ) − V ( s t ) ) V(s_t) \leftarrow V(s_t) + \alpha \left( r_t + \gamma V(s_{t+1}) - V(s_t) \right) V(st)V(st)+α(rt+γV(st+1)V(st))


各方法对比总结

方法是否无偏方差水平特点
Monte Carlo (MC)基于完整回合真实回报进行无偏估计,适合无模型环境
Temporal Difference (TD)只看一步,收敛速度快、稳定,但引入了偏差
  • 在实际应用中,TD 方法(如 SARSA、Q-learning)最为广泛使用,因为它无需完整轨迹,学习效率更高

http://www.mrgr.cn/news/100234.html

相关文章:

  • RefFormer论文精读
  • 使用 Python 项目管理工具 uv 快速创建 MCP 服务(Cherry Studio、Trae 添加 MCP 服务)
  • 蓝耘平台介绍:算力赋能AI创新的智算云平台
  • (三) Trae 调试C++ 基本概念
  • 开发并发布一个属于自己的包(npm)
  • fps项目总结:生成武器子弹丧尸攻击
  • 从FP32到BF16,再到混合精度的全景解析
  • TortoiseGit使用图解
  • 《Learning Langchain》阅读笔记8-RAG(4)在vector store中存储embbdings
  • 如何使用URDF搭建双臂UR移动机器人,并在RViz中可视化
  • 【MySQL】MySQL索引与事务
  • 【计算机视觉】CV实战项目 - 基于YOLOv5的人脸检测与关键点定位系统深度解析
  • 张 LLM提示词拓展16中方式
  • 【中级软件设计师】函数调用 —— 传值调用和传地址调用 (附软考真题)
  • 【计算机视觉】CV实践项目- 基于PaddleSeg的遥感建筑变化检测全解析:从U-Net 3+原理到工程实践
  • Python-Agent调用多个Server-FastAPI版本
  • 小刚说C语言刷题——1565成绩(score)
  • Lesar: 面向 Lustre/Scade 语言的形式化模型检测工具
  • Nginx 反向代理,啥是“反向代理“啊,为啥叫“反向“代理?而不叫“正向”代理?
  • 语音合成之五语音合成中的“一对多”问题主流模型解决方案分析