【深度强化学习 DRL 快速实践】Value-based 方法总结
问题:怎么评估给定策略下的某个状态值的好坏呢?
强化学习中的 Value-based 方法总结
在强化学习(Reinforcement Learning, RL)中,Value-based 方法主要是学习一个价值函数(Value Function),然后基于价值函数来决策。常见的 Value-based 方法包括:
- Monte Carlo 方法 (MC)
- 时序差分方法 (Temporal Difference, TD)
本文将分别介绍这些方法的核心思想、更新公式,并通过表格对它们的无偏性和方差进行对比总结
1. Monte Carlo 方法 (MC)
Monte Carlo 方法通过完整采样一条轨迹(直到终止),然后用 整条轨迹
上实际获得的总回报 G t G_t Gt来估计价值函数
V ( s t ) ← V ( s t ) + α ( G t − V ( s t ) ) , where G t = ∑ k = 0 T − t γ k r t + k V(s_t) \leftarrow V(s_t) + \alpha \left( G_t - V(s_t) \right),\text{where }G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k} V(st)←V(st)+α(Gt−V(st)),where Gt=k=0∑T−tγkrt+k
2. 时序差分方法 (TD)
TD 方法结合了 Monte Carlo 和动态规划的思想,它只利用 一个时间步
的采样,并且使用当前价值估计进行更新,最常用的是 TD(0) 方法:
V ( s t ) ← V ( s t ) + α ( r t + γ V ( s t + 1 ) − V ( s t ) ) V(s_t) \leftarrow V(s_t) + \alpha \left( r_t + \gamma V(s_{t+1}) - V(s_t) \right) V(st)←V(st)+α(rt+γV(st+1)−V(st))
各方法对比总结
方法 | 是否无偏 | 方差水平 | 特点 |
---|---|---|---|
Monte Carlo (MC) | 是 | 高 | 基于完整回合真实回报进行无偏估计,适合无模型环境 |
Temporal Difference (TD) | 否 | 低 | 只看一步,收敛速度快、稳定,但引入了偏差 |
- 在实际应用中,TD 方法(如 SARSA、Q-learning)最为广泛使用,因为它无需完整轨迹,学习效率更高