当前位置：首页 > news >正文

◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

news 2025/12/18 21:40:20

文章目录

A 证明
- Section 3 的证明
- - 引理 3.1 证明
  - 命题 3.2 的证明
- A.2 Section 5 的证明
- - 命题 A.1
  - 推论 A.1.1
  - 引理 A.1 因果熵的策略梯度公式

A 证明

Section 3 的证明

引理 3.1 证明

在这里插入图片描述

Proof of Lemma 3.1.
首先，我们证明 $\bar H$ 是严格凹的。
令 $\rho$ 和 $\rho^\prime$ 为占用度量，假设 $\lambda \in [0,1]$ 。
对于所有 $s$ 和 $a$ ，由对数和不等式 [6] 可知：

$\begin{aligned}&-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\sum_{a^\prime}\Big(\lambda \rho(s,a^\prime)+(1-\lambda)\rho^\prime(s,a^\prime)\Big)}~~~~~~~~~~(19)\\ &=-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)+(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(20)\\ &\geq-\lambda \rho(s,a)\log \frac{\lambda \rho(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)}-(1-\lambda)\rho^\prime(s,a)\log\frac{(1-\lambda)(\rho^\prime(s,a)}{(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(21)~~~~~\textcolor{blue}{???}\\ &=\lambda \Big(-\rho(s,a)\log \frac{\rho(s,a)}{\sum_{a^\prime} \rho(s,a^\prime)}\Big)+(1-\lambda)\Big(-\rho^\prime(s,a)\log\frac{\rho^\prime(s,a)}{\sum_{a^\prime} \rho^\prime(s,a^\prime) }\Big)~~~~~~~~~~(22)\\\end{aligned}$

当且仅当 $π_ρ\triangleq \frac{ρ(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}=\frac{ρ^\prime(s,a)}{\sum_{a^\prime}\rho^\prime(s,a^\prime)}\triangleq π_{ρ^\prime}$ 时等号成立。
对所有 $s$ 和 $a$ 求和表明 $\bar H(λ\rho+ (1-λ)\rho') \geq λ\bar H(\rho) + (1-λ) \bar H(\rho')$ 当且仅当 $π_\rho = π_{ρ^\prime}$ 时相等。
应用命题 3.1 表明等式实际上当且仅当 $\rho = ρ'$ 成立，因此 $\bar H$ 是严格凹的。

现在，我们来验证最后两个陈述，它们也遵循命题 3.1 和占用度量的定义。首先,

$\begin{aligned}H(\pi)&={\mathbb E}[-\log \pi(a|s)]~~~~~~~~~~(23)\\ &=-\textcolor{blue}{\sum\limits_{s,a}\rho_\pi(s,a)}\log \pi(a|s)~~~~~~~~~~(24)\\ &=-\sum_{s,a}\rho_\pi(s,a)\log\frac{\rho_\pi(s,a)}{\sum_{a^\prime}\rho_\pi(s,a^\prime)}~~~~~~~~~~(25)\\ &=\bar H(\rho_\pi)~~~~~~~~~~(26)\\ \end{aligned}$

其次

$\begin{aligned}\bar H(\rho)&=-\sum_{s,a}\rho(s,a)\log\frac{\rho(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}~~~~~~~~~~(27)\\ &=-\sum_{s,a}\rho_{\pi_\rho}(s,a)\log \pi_\rho(a|s)~~~~~~~~~~(28)\\ &={\mathbb E}_{\pi_\rho}[-\log \pi_\rho(a|s)]~~~~~~~~~~(29)\\ &=H(\pi_\rho)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(30)\end{aligned}$

命题 3.2 的证明

在这里插入图片描述

Proof of Proposition 3.2. This proof relies on properties of saddle points. For a reference, we refer the reader to Hiriart-Urruty and Lemaréchal [10, section VII.4].
命题 3.2 的证明。这个证明依赖于鞍点的性质。
作为参考，我们请读者参阅 Hiriart-Urruty 和 lemarsamchal [10，第 7 .4 节 ]。

令 $\widetilde c\in\text{IRL}_\psi(\pi_E),~~~\widetilde \pi\in\text{RL}(\widetilde c)=\text{RL}\circ\text{IRL}_\psi(\pi_E)$
且
$\begin{aligned}\pi_A&\in \underset{\pi}{\arg\min}-H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(31)\\ &=\underset{\pi}{\arg\min}\max_c-H(\pi)-\psi(c)+\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)~~~~~~~~~~(32)\end{aligned}$

我们想证明 $π_A =\widetilde \pi$ 。
为此，设 $\rho_A$ 为 $π_A$ 的占用度量，设 $\widetilde \rho$ 为 $\widetilde \pi$ 的占用度量，定义 $\bar L:{\cal D}×{\mathbb R}^{\cal S\times A}→{\mathbb R}$ 为：

$\bar L(\rho, c)=-\bar H(\rho)-\psi(c)+\sum\limits_{s,a}\rho(s,a)c(s,a)-\sum\limits_{s,a}\rho_{\pi_E}(s,a)c(s,a)~~~~~~~~~~(33)$

根据命题 3.1，以下关系成立：

$\rho_A\in \underset{\rho~\in~{\cal D}}{\arg\min}\max\limits_c\bar L(\rho,c)~~~~~~~~~~(34)$

$\widetilde c\in\underset{c}{\arg\min}\max\limits_{\rho~\in~{\cal D}}\bar L(\rho,c)~~~~~~~~~~(35)$

$\widetilde \rho\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho,\widetilde c)~~~~~~~~~~(36)$

现在 $\cal D$ 是紧致compact 且凸的， ${\mathbb R}^{\cal S\times A}$ 是凸的；
更进一步，由于 $\bar H$ 和 $ψ$ 的凸性，我们还得到 $\bar L(·, c)$ 对所有 $c$ 都是凸的， $\bar L(\rho, ·)$ 对所有 $\rho$ 都是凹的。
因此，我们可以利用极大极小对偶性 [16]：

$\textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\max\limits_{c~\in~{\cal C}}\bar L(\rho, c)=\max\limits_{c~\in~{\cal C}}\textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\bar L(\rho, c)~~~~~~~~~~(37)$

因此，从式（34）和（35）， $(\rho_A, \widetilde c)$ 是 $\bar L$ 的鞍点，这意味着

$\rho_A\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho, \widetilde c)~~~~~~~~~~(38)$

因为 $\bar L(·,c)$ 对于所有 $c$ 都是严格凸的（引理 3.1），式（36）和（38）意味着 $\rho_A =\widetilde \rho$ 。
由于占用度量对应的策略是唯一的（命题 3.1），我们得到 $\pi_A =\widetilde \pi$ 。

A.2 Section 5 的证明

在第 5 节的 Eq.(13) 中，我们描述了一个 cost 正则器 $\psi_\text{GA}$ ，引出最小化占用度量之间的 Jensen-Shannon 散度的模仿学习算法 (15) 。
为了证明我们选择 $ψ_\text{GA}$ 的合理性，我们展示了如何将某些替代损失函数surrogate loss functions $\phi$ （用于从占用度量 $\rho_\pi$ 和 $\rho_{\pi_E}$ 中得出的状态-动作对的二元分类）转换为 cost function 正则化器 $ψ$ ，其中 $\psi^*(ρ_π, \rho_{\pi_E})$ 是 $\phi$ 的风险的期望 $R_\phi(ρ_π, \rho_{\pi_E})$ 的最小值。

$R_\phi(\pi,\pi_E)=\sum\limits_{s,a}\min\limits_{\gamma ~\in~ {\mathbb R}}\rho_\pi(s,a)\phi(\gamma)+\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(39)$

具体来说，我们将把自己限制在严格递减的凸损失函数中。
Nguyen 等[19]证明了风险的 $R_\phi$ 的最小值与 $f$ -散度之间的对应关系，其中 Jensen - Shannon 散度是一个特例。
因此，我们下面的构造可以生成任何模仿学习算法，只要 $f$ -散度是由严格递减的凸代理 $\phi$ 引起的，就可以最小化占用度量之间的 $f$ -散度。

命题 A.1

Proposition A.1.
假设 $\phi:{\mathbb R}→{\mathbb R}$ 为严格递减凸函数。
令 $T$ 为 $-\phi$ 的值域，定义 $g_\phi: {\mathbb R}→\overline {\mathbb R}$ 且 $ψ_\phi: {\mathbb R}^{\cal S\times A}→\overline {\mathbb R}$ 为：

$g_\phi(x)=\begin{cases}-x+\phi(-\phi^{-1}(-x))&\text{if}~~x\in T\\ +\infty &\text{otherwise}\end{cases}~~~~~~~~~~(40)$

$\psi_\phi(c)=\begin{cases}\sum\limits_{s,a}\rho_{\pi_E}(s,a)\textcolor{blue}{g_\phi}(c(s,a))&\text{if}~~c(s,a)\in T~\text{for all} ~s,a\\ +\infty&\text{otherwise}\end{cases}$

那么， $ψ_\phi$ 是 closed，proper，convex凸的，且 $\text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E})$

在这里插入图片描述

在这里插入图片描述
〔 proper 函数：必不为 $-\infty$ ，且存在有限值〕

在这里插入图片描述

来自链接

证明：
为了验证第一个论断，只需检查 $g_\phi(x) =-x+\phi(-\phi^{-1}(-x))$ 是 closed、proper 和凸的就足够了。
凸性来源于 $x\mapsto \phi(-\phi^{-1}(-x))$ 是凸的事实，因为它是一个凹函数后面跟着一个非递增凸函数。
此外，因为 $T$ 是非空的，所以 $g_\phi$ 是 proper。
为了证明 $g_\phi$ 是 closed，注意因为 $\phi$ 是严格递减且凸的，所以 $\phi$ 的范围要么是 $\mathbb R$ 的全部，要么是对于某些 $b\in {\mathbb R}$ 的一个开区间 $\infty)$ 。
如果 $\phi$ 的范围是 $\mathbb R$ ，那么 $g_\phi$ 在任何地方都是有限的，因此是 closed。
另一方面，如果 $\phi$ 的范围是 $\infty)$ ，那么当 $x→\textcolor{blue}{\infty}$ 时 $\phi(x)→\textcolor{blue}{b}$ ，且当 $x→\textcolor{blue}{-\infty}$ 时 $\phi(x)→\infty$ 。
因此，当 $x \to b$ 时， $\phi^{-1}(-x)→\infty$ ，且 $\phi (-\phi^{-1}(-x))→\infty$ ，这意味着当 $x \to b$ ，有 $g_\phi(x)→\infty$ ，这意味着 $g_\phi$ 是 closed。

现在证明第二个论断。
根据命题 3.2，我们只需确认 $-R_\phi(\rho_\pi,\rho_{\pi_E})=\phi_\phi^*(\rho_\pi,\rho_{\pi_E})$

命题 3.2 $~~~~~\text{RL}\circ\text{IRL}_\psi(\pi_E)=\arg\min_{\pi\in \Pi} -H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(4)$

论断 2： $~~~~~~\text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E})$

$\begin{aligned}\psi_\phi^*(\rho_\pi-\rho_{\pi_E})&=\max\limits_{c~\in~{\cal C}}\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)-\sum_{s,a}\rho_{\pi_E}(s,a)g_\phi(c(s,a))~~~~~~~~~~(41)~~~~~\textcolor{blue}{式~(31)(32)(40)}\\ &=\sum_{s,a}\max\limits_{c~\in~\textcolor{blue}{T}}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c-\rho_{\pi_E}(s,a)\Big[-c+\phi(-\phi^{-1}(-c))\Big]~~~~~~~~~~(42)~~~~~\textcolor{blue}{式~(40)}\\ &=\sum_{s,a}\max_{c~\in~T}\rho_\pi(s,a)c-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(-c))~~~~~~~~~~(43)~~~~~\textcolor{blue}{合并，求和抵消}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(\phi(\gamma)))~~~~~~~~~~(44)~~~~~\textcolor{blue}{令~c=-\phi(\gamma)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(45)\\ &=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(46)~~~~~~\textcolor{blue}{式~(39)}\end{aligned}$

我们做了变量 $c→-\phi(γ)$ 的变换，因为 $T$ 是 $\phi$ 的取值范围。

展示了如何构造一个 cost function 正则器 $ψ_\phi$ ，作为推论，我们得到了一个逻辑损失的 cost function 正则器，其最优风险期望是 Jensen-Shannon 散度，up to 一个常数。

推论 A.1.1

Corollary A.1.1. The cost regularizer (13)

$\phi_\text{GA}(c)\triangleq\begin{cases}{\mathbb E}_{\pi_E}[g(c(s,a))]&\text{if}~~c<0\\ +\infty&\text{otherwise}\end{cases}$

其中
$g(x)=\begin{cases}-x-\log(1-e^x)&\text{if}~~x<0\\ +\infty&\text{otherwise}\end{cases}$

满足

$\psi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})=\max\limits_{D~\in~(0,1)^{\cal S\times A}}{\mathbb E}_\pi[\log(D(s,a))]+{\mathbb E}_{\pi_E}[\log(1-D(s,a))]~~~~~~~~~~(47)$

证明：
使用逻辑损失 $\phi(x) = \log(1 + e^{−x})$ ，我们看到 Eq.(40) 简化为声明的 $ψ_\text{GA}$ 。
应用命题 A.1，我们得到

$\begin{aligned}\phi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})&=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(48)~~~~~~\textcolor{blue}{式~(46)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\frac{1}{1 + e^\gamma}\Big)~~~~~~~~~~(49)~~~~~~\textcolor{blue}{式~(45),代入 ~\phi}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\textcolor{blue}{1-\frac{1}{1 + e^{−\gamma}}}\Big)~~~~~~~~~~(50)\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\sigma(\gamma)\Big)+\rho_{\pi_E}(s,a)\log\Big(1-\sigma(\gamma)\Big)~~~~~~~~~~(51)~~~~~~\textcolor{blue}{其中~\sigma(x)=\frac{1}{1+e^{-x}}~是~ \text{sigmoid}~函数，且~\sigma~\in~(0,1)}\\ &=\sum_{s,a}\max_{d~\in~(0,1)}\rho_\pi(s,a) \log d+\rho_{\pi_E}(s,a)\log (1-d) ~~~~~~~~~~(52)~~~~~~\textcolor{blue}{令~d=\sigma(\gamma)}\\ &=\max_{D~\in~(0,1)^{\cal S\times A}}\sum_{s,a}\rho_\pi(s,a) \log (D(s,a))+\rho_{\pi_E}(s,a)\log (1-D(s,a)) ~~~~~~~~~~(53)~~~~~~\textcolor{blue}{D(s,a)~替换~d}\end{aligned}$

这就是我们想要的表达式。

We conclude with a policy gradient formula for causal entropy.
我们得出因果熵的策略梯度公式。

引理 A.1 因果熵的策略梯度公式

Lemma A.1 因果熵梯度：

$\nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]={\mathbb E}_{\pi_\theta}[\nabla_\theta\log \pi_\theta(a|s)Q_\text{log}(s,a)]~~~~~~~~~~(54)$

其中 $~~Q_\text{log}(\bar s, \bar a)={\mathbb E}_{\pi_\theta}[-\log \pi_\theta(a|s)| s_0=\bar s, a_0=\bar a ]$

证明：对于占用度量 $ρ (s, a)$ ，定义 $\rho(s) = \sum_aρ(s, a)$ 。则

$\begin{aligned}\nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]&=-\nabla_\theta \sum_{s,a}\rho_{\pi_\theta}(s,a)\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{期望展开}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{乘积的求导+补充推导 ~①}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \nabla_\theta \pi_\theta(a|s)~~~~~~\textcolor{blue}{ 补充推导 ~②}\\ &~~~~~\textcolor{blue}{后一项中~~~\sum_a \nabla_\theta \pi_\theta(a|s)=\nabla_\theta \sum_a \pi_\theta(a|s)=\nabla_\theta 1=0}\\ &=\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))(-\log \pi_\theta(a|s) )\end{aligned}$

它是具有固定 cost function $c_\text{log}(s, a) \triangleq -\log \pi_\theta(a|s)$ 的 RL 的策略梯度。
所得公式由 $c_\text{log}$ 的标准策略梯度公式给出

补充推导 ①：
由定义 $\rho(s) = \sum_aρ(s, a)$ ，

$\pi_\theta(a|s)=\frac{\rho_{\pi_\theta}(s,a)}{\sum_{a^\prime}\rho_{\pi_\theta}(s,a^\prime)}=\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}$

$\sum\limits_{s,a}\rho_{\pi_\theta}(s,a)=\sum\limits_{s,a}\rho_{\pi_\theta}(s)\pi_\theta(a|s)=\sum\limits_s\rho_{\pi_\theta}(s)\sum\limits_a\pi_\theta(a|s)$
$\sum\limits_a\pi_\theta(a|s)=\sum\limits_a\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac{\sum\limits_a\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac {\rho_{\pi_\theta}(s)}{\rho_{\pi_\theta}(s)}=1$

补充推导 ②：
$\pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)=\pi_\theta(a|s)·\frac{1}{\pi_\theta(a|s)}\nabla_\theta\pi_\theta(a|s)=\nabla_\theta\pi_\theta(a|s)$