当前位置：首页 > news >正文

【深度强化学习 DRL 快速实践】近端策略优化 (PPO)

news 2025/4/26 18:08:05

在这里插入图片描述

PPO（2017，OpenAI）核心改进点

Proximal Policy Optimization (PPO)：一种基于信赖域优化的强化学习算法，旨在克服传统策略梯度方法在更新时不稳定的问题，采用简单易实现的目标函数来保证学习过程的稳定性

解决问题：在强化学习中，直接优化策略会导致不稳定的训练，模型可能因为过大的参数更新而崩溃
PPO 系列有很多算法：Proximal Policy Optimization (PPO), TRPO
model-free，off-policy，actor-critic, stochastic 策略

核心改进点	说明
剪切目标函数	使用剪切函数 `clip` 限制策略更新的幅度，避免策略大幅更新导致性能崩溃
off-policy	importance sampling 每个采样数据可用于多轮更新，提升样本利用率，提高学习效率

博文目录

- PPO（2017，OpenAI）核心改进点
- PPO 网络更新
- - 策略网络
  - 价值网络
  - 总损失函数
- 策略网络更新详细理论推导，从 policy gradient 原始式子开始推
- PPO / PPO2 / TRPO 优化器总结
- 基于 stable_baselines3 的快速代码示例

PPO 网络更新

策略网络

PPO 使用旧策略和新策略的比值来定义目标函数，在保持改进的同时防止策略变化过大：

Importance Sampling

设有目标分布 $p (x)$ ，想要计算期望
$\mathbb{E}_p[f(x)] = \int f(x)p(x)dx \approx \frac{1}{N} \sum^N_{i=1}f(x_i)$
由于直接从 $p (x)$ 采样困难，引入一个容易采样的分布 $q (x)$ ，那么可以写成： $\mathbb{E}_p[f(x)] = \int f(x) \frac{p(x)}{q(x)} q(x) dx$ 于是，有近似估计： $\mathbb{E}_p[f(x)] \approx \frac{1}{N} \sum_{i=1}^N f(x_i) \frac{p(x_i)}{q(x_i)}$
其中 $x_i \sim q(x)$ 独立采样而得, 权重项 $\frac{p(x)}{q(x)}$ 被称为重要性权重（Importance Weight）

注意：如果 $q (x)$ 和 $p (x)$ 不够接近，重要性权重 $w (x)$ 波动很大，估计的方差会非常大，导致估计不稳定，所以 PPO 里面引入了 clip

$L^{CLIP}(\theta) = {\mathbb{E}}_t \left[ \min \left( r_t(\theta) {A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) {A}_t \right) \right], \text{where } r_t = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)}$

Advantage 优势函数 ${A}_t^{\theta '}$ ：如 $Q(s_t, a_t) - V(s_t)$
剪切系数 $\epsilon$ ：如 0.2

价值网络

$L^{VF}(\theta^\mu) = \mathbb{E}_t \left[ (V_{\theta^\mu}(s_t) - R_t)^2 \right]$

真实或估算的回报 $R_t$ ：如 $\sum^n_{k=0} = \gamma^k r_{t+k}$

总损失函数

PPO 的总损失是策略损失、值函数损失和熵正则项 (鼓励探索) 的加权和：

$L(\theta) = L^{CLIP}(\theta) - c_1 L^{VF}(\theta^\mu) + c_2 H(\pi(s_t))$

$c_1, c_2$ ：权重系数，常用 $c_1=0.5$ , $c_2=0.01$

策略网络更新详细理论推导，从 policy gradient 原始式子开始推

$\nabla_\theta \bar{R}_\theta = \mathbb{E}_{(s_t,a_t) \sim \pi_\theta} \left[ A^\theta(s_t, a_t) \nabla \log \pi_\theta(a_t | s_t) \right]$

Use $\pi_\theta$ to collect data. When $\theta$ is updated, we have to sample training data again.
Goal: Using the sample from $\pi_{\theta'}$ to train $\theta$ . $\theta'$ is fixed, so we can re-use the sample data.

$\nabla \bar{R}_\theta = \mathbb{E}_{\tau \sim \pi_{\theta'}(\tau)} \left[ \frac{p_\theta(s_t, a_t)}{p_{\theta'}(s_t, a_t)} A^{\theta '}(s_t, a_t) \nabla \log \pi_\theta(a_t | s_t) \right] = \mathbb{E}_{\tau \sim \pi_{\theta'}(\tau)} \left[ \frac{\pi_\theta(a_t | s_t)p_\theta(s_t)}{\pi_{\theta'}(a_t | s_t)p_\theta'(s_t)} A^{\theta '}(s_t, a_t) \nabla \log \pi_\theta(a_t | s_t) \right] \\ \approx \mathbb{E}_{\tau \sim \pi_{\theta'}(\tau)} \left[ \frac{\textcolor{red}{\pi_\theta(a_t | s_t)}}{\pi_{\theta'}(a_t | s_t)} A^{\theta '}(s_t, a_t) \textcolor{red}{\nabla \log \pi_\theta(a_t | s_t)} \right] \text{}$
上一步的近似，是因为看到各种 state 的可能和采取什么 action，采取什么策略关系不大，或者哈哈哈哈这项没法算，直接忽略~继续！根据 $\nabla f(x) = f(x) \nabla \log(x)$ ，我们让 $\leftarrow \pi_\theta(a_t | s_t)$ ，那么
$\textcolor{red}{\pi_\theta(a_t | s_t)\nabla \log( \pi_\theta(a_t | s_t))}\to \textcolor{blue}{ \nabla \pi_\theta(a_t | s_t)}$
那么， $\nabla \bar{R}_\theta$ 可以进一步表示为 $\mathbb{E}_{\tau \sim \pi_{\theta'}(\tau)} \left[ \frac{\textcolor{blue}{\nabla\pi_\theta(a_t | s_t)}}{\pi_{\theta'}(a_t | s_t)} A^{\theta '}(s_t, a_t) \right]$

PPO / PPO2 / TRPO 优化器总结

方法	优化目标公式	推荐程序实现顺序	主要说明
TRPO (Trust Region Policy Optimization)	$\mathbb{E}\left[r(\theta)A^{\pi_{\theta_{\text{old}}}}(s,a)\right]$ 受限于： $\mathbb{E}\left[D_{\text{KL}}(\pi_{\theta_{\text{old}}}(\cdot\|s)\parallel\pi_{\theta}(\cdot\|s))\right]\leq\delta$	⭐️	- 明确KL散度约束，保证更新安全 - 算法复杂，求解开销大 - 理论保证较好，实践中偏慢
PPO (Proximal Policy Optimization)	$\mathbb{E}[r(\theta)A] -\beta KL(\theta, \theta')$	⭐️ ⭐️	- 近似代替TRPO的约束 - 简单易实现 - 有强大的实用性能
PPO2 (PPO的稳定改进版)	$\mathbb{E}\left[\min\left(r(\theta)A,\text{clip}(r(\theta),1-\epsilon,1+\epsilon)A\right)\right]$	⭐️ ⭐️ ⭐️	- OpenAI Baselines 实现版本 - 细节优化稳定性更好 - GAE使优势估计更准确，训练更快

基于 stable_baselines3 的快速代码示例

import gymnasium as gym
from stable_baselines3 import PPO# 创建环境
env = gym.make("CartPole-v1")
env.reset(seed=0)# 初始化模型
model = PPO("MlpPolicy", env, verbose=1)# 训练模型
model.learn(total_timesteps=100_000)
model.save("ppo_cartpole_v1")# 测试模型
obs, _ = env.reset()
total_reward = 0
for _ in range(200):action, _ = model.predict(obs, deterministic=True) obs, reward, terminated, truncated, _ = env.step(action)total_reward += rewardif terminated or truncated:breakprint("Test total reward:", total_reward)