当前位置：首页 > news >正文

Proximal Policy Optimization（PPO）算法

news 2025/3/29 19:03:25

前言

PPO是强化学习中的一种策略优化方法，由OpenAI提出。它属于策略梯度算法的一种改进，主要用于解决传统策略梯度方法中训练不稳定的问题。

一.背景

二.核心思想

重要性采样比率

CLIPPED目标函数

三.算法流程

四.优势与应用

五.相关项目

六.总结

PPO 是一种强化学习策略优化算法，旨在解决传统策略梯度方法（如REINFORCE）的训练不稳定问题。传统方法因更新步长难以控制，易导致策略性能剧烈波动。PPO通过限制策略更新幅度，确保新策略与旧策略差异可控，从而提升稳定性。

PPO的核心是限制策略更新的信任区域，避免破坏性的大步更新。其关键创新是Clipped Surrogate Objective，通过裁剪重要性采样比率，约束更新幅度。

定义比率 𝑟𝑡(𝜃)，表示新旧策略选择动作的概率比

𝑟𝑡(𝜃)=𝜋𝜃(𝑎𝑡∣𝑠𝑡)/𝜋𝜃old(𝑎𝑡∣𝑠𝑡)

目标函数通过裁剪比率 𝑟𝑡(𝜃)，限制其偏离区间 [1−𝜖,1+𝜖]（ϵ为超参数，通常取0.1~0.3）

clip函数作用：若比率超出 1±𝜖，则将其截断，避免过大更新。
min操作意义
当优势函数 𝐴^𝑡为正时，限制策略过度提升；
当 𝐴^𝑡为负时，防止策略过度降低。

PPO通常与Actor-Critic框架结合，流程如下：

数据收集：用当前策略 𝜋𝜃old 与环境交互，采样轨迹数据。
优势估计：计算每个状态动作对的优势值 A^t（常用GAE方法）。
多步更新：对采样的数据，进行多轮小批量梯度更新（通常3~10轮）。
优化总损失：
总损失包含策略损失、价值函数损失和熵正则项：
𝐿Total(𝜃)=𝐿CLIP(𝜃)−𝑐1𝐿VF(𝜃)+𝑐2𝑆[𝜋𝜃]
- 价值函数损失：均方误差形式：
  𝐿VF(𝜃)=𝐸𝑡[(𝑉𝜃(𝑠𝑡)−𝑉𝑡target)2]
- 熵正则项：S 为策略熵，鼓励探索，防止过早收敛。

稳定性强：Clipped目标函数有效避免策略突变。
通用性高：适用于连续（机器人控制）与离散（游戏AI）动作空间。
广泛应用：OpenAI Five（Dota2）、AlphaGo等均采用PPO或其变种。