当前位置：首页 > news >正文

【深度强化学习 DRL 快速实践】Value-based 方法总结

news 2025/4/26 14:04:09

在这里插入图片描述

问题：怎么评估给定策略下的某个状态值的好坏呢？

强化学习中的 Value-based 方法总结

在强化学习（Reinforcement Learning, RL）中，Value-based 方法主要是学习一个价值函数（Value Function），然后基于价值函数来决策。常见的 Value-based 方法包括：

本文将分别介绍这些方法的核心思想、更新公式，并通过表格对它们的无偏性和方差进行对比总结

Monte Carlo 方法通过完整采样一条轨迹（直到终止），然后用 整条轨迹 上实际获得的总回报 $G_t$ 来估计价值函数

$V(s_t) \leftarrow V(s_t) + \alpha \left( G_t - V(s_t) \right),\text{where }G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k}$

TD 方法结合了 Monte Carlo 和动态规划的思想，它只利用 一个时间步 的采样，并且使用当前价值估计进行更新，最常用的是 TD(0) 方法：

$V(s_t) \leftarrow V(s_t) + \alpha \left( r_t + \gamma V(s_{t+1}) - V(s_t) \right)$

方法	是否无偏	方差水平	特点
Monte Carlo (MC)	是	高	基于完整回合真实回报进行无偏估计，适合无模型环境
Temporal Difference (TD)	否	低	只看一步，收敛速度快、稳定，但引入了偏差