◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】
文章目录
- A 证明
- Section 3 的证明
- 引理 3.1 证明
- 命题 3.2 的证明
- A.2 Section 5 的证明
- 命题 A.1
- 推论 A.1.1
- 引理 A.1 因果熵的策略梯度公式
A 证明
Section 3 的证明
引理 3.1 证明
Proof of Lemma 3.1.
首先,我们证明 H ˉ \bar H Hˉ 是严格凹的。
令 ρ \rho ρ 和 ρ ′ \rho^\prime ρ′ 为占用度量,假设 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ∈[0,1]。
对于 所有 s s s 和 a a a,由对数和不等式 [6] 可知:
~
− ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) ∑ a ′ ( λ ρ ( s , a ′ ) + ( 1 − λ ) ρ ′ ( s , a ′ ) ) ( 19 ) = − ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) + ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ ) ( 20 ) ≥ − λ ρ ( s , a ) log λ ρ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) − ( 1 − λ ) ρ ′ ( s , a ) log ( 1 − λ ) ( ρ ′ ( s , a ) ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ ) ( 21 ) ? ? ? = λ ( − ρ ( s , a ) log ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) ) + ( 1 − λ ) ( − ρ ′ ( s , a ) log ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) ) ( 22 ) \begin{aligned}&-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\sum_{a^\prime}\Big(\lambda \rho(s,a^\prime)+(1-\lambda)\rho^\prime(s,a^\prime)\Big)}~~~~~~~~~~(19)\\ &=-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)+(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(20)\\ &\geq-\lambda \rho(s,a)\log \frac{\lambda \rho(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)}-(1-\lambda)\rho^\prime(s,a)\log\frac{(1-\lambda)(\rho^\prime(s,a)}{(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(21)~~~~~\textcolor{blue}{???}\\ &=\lambda \Big(-\rho(s,a)\log \frac{\rho(s,a)}{\sum_{a^\prime} \rho(s,a^\prime)}\Big)+(1-\lambda)\Big(-\rho^\prime(s,a)\log\frac{\rho^\prime(s,a)}{\sum_{a^\prime} \rho^\prime(s,a^\prime) }\Big)~~~~~~~~~~(22)\\\end{aligned} −(λρ(s,a)+(1−λ)ρ′(s,a))log∑a′(λρ(s,a′)+(1−λ)ρ′(s,a′))λρ(s,a)+(1−λ)(ρ′(s,a) (19)=−(λρ(s,a)+(1−λ)ρ′(s,a))logλ∑a′ρ(s,a′)+(1−λ)∑a′ρ′(s,a′)λρ(s,a)+(1−λ)(ρ′(s,a) (20)≥−λρ(s,a)logλ∑a′ρ(s,a′)λρ(s,a)−(1−λ)ρ′(s,a)log(1−λ)∑a′ρ′(s,a′)(1−λ)(ρ′(s,a) (21) ???=λ(−ρ(s,a)log∑a′ρ(s,a′)ρ(s,a))+(1−λ)(−ρ′(s,a)log∑a′ρ′(s,a′)ρ′(s,a)) (22)
~
当且仅当 π ρ ≜ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) = ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) ≜ π ρ ′ π_ρ\triangleq \frac{ρ(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}=\frac{ρ^\prime(s,a)}{\sum_{a^\prime}\rho^\prime(s,a^\prime)}\triangleq π_{ρ^\prime} πρ≜∑a′ρ(s,a′)ρ(s,a)=∑a′ρ′(s,a′)ρ′(s,a)≜πρ′ 时等号成立。
对所有 s s s 和 a a a 求和表明 H ˉ ( λ ρ + ( 1 − λ ) ρ ′ ) ≥ λ H ˉ ( ρ ) + ( 1 − λ ) H ˉ ( ρ ′ ) \bar H(λ\rho+ (1-λ)\rho') \geq λ\bar H(\rho) + (1-λ) \bar H(\rho') Hˉ(λρ+(1−λ)ρ′)≥λHˉ(ρ)+(1−λ)Hˉ(ρ′) 当且仅当 π ρ = π ρ ′ π_\rho = π_{ρ^\prime} πρ=πρ′ 时相等。
应用命题 3.1 表明等式实际上当且仅当 ρ = ρ ′ \rho = ρ' ρ=ρ′ 成立,因此 H ˉ \bar H Hˉ 是严格凹的。
现在,我们来验证最后两个陈述,它们也遵循命题 3.1 和 占用度量的定义。首先,
~
H ( π ) = E [ − log π ( a ∣ s ) ] ( 23 ) = − ∑ s , a ρ π ( s , a ) log π ( a ∣ s ) ( 24 ) = − ∑ s , a ρ π ( s , a ) log ρ π ( s , a ) ∑ a ′ ρ π ( s , a ′ ) ( 25 ) = H ˉ ( ρ π ) ( 26 ) \begin{aligned}H(\pi)&={\mathbb E}[-\log \pi(a|s)]~~~~~~~~~~(23)\\ &=-\textcolor{blue}{\sum\limits_{s,a}\rho_\pi(s,a)}\log \pi(a|s)~~~~~~~~~~(24)\\ &=-\sum_{s,a}\rho_\pi(s,a)\log\frac{\rho_\pi(s,a)}{\sum_{a^\prime}\rho_\pi(s,a^\prime)}~~~~~~~~~~(25)\\ &=\bar H(\rho_\pi)~~~~~~~~~~(26)\\ \end{aligned} H(π)=E[−logπ(a∣s)] (23)=−s,a∑ρπ(s,a)logπ(a∣s) (24)=−s,a∑ρπ(s,a)log∑a′ρπ(s,a′)ρπ(s,a) (25)=Hˉ(ρπ) (26)
~
其次
~
H ˉ ( ρ ) = − ∑ s , a ρ ( s , a ) log ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) ( 27 ) = − ∑ s , a ρ π ρ ( s , a ) log π ρ ( a ∣ s ) ( 28 ) = E π ρ [ − log π ρ ( a ∣ s ) ] ( 29 ) = H ( π ρ ) ( 30 ) \begin{aligned}\bar H(\rho)&=-\sum_{s,a}\rho(s,a)\log\frac{\rho(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}~~~~~~~~~~(27)\\ &=-\sum_{s,a}\rho_{\pi_\rho}(s,a)\log \pi_\rho(a|s)~~~~~~~~~~(28)\\ &={\mathbb E}_{\pi_\rho}[-\log \pi_\rho(a|s)]~~~~~~~~~~(29)\\ &=H(\pi_\rho)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(30)\end{aligned} Hˉ(ρ)=−s,a∑ρ(s,a)log∑a′ρ(s,a′)ρ(s,a) (27)=−s,a∑ρπρ(s,a)logπρ(a∣s) (28)=Eπρ[−logπρ(a∣s)] (29)=H(πρ) (30)
命题 3.2 的证明
Proof of Proposition 3.2. This proof relies on properties of saddle points. For a reference, we refer the reader to Hiriart-Urruty and Lemaréchal [10, section VII.4].
命题 3.2 的证明。这个证明依赖于鞍点的性质。
作为参考,我们请读者参阅 Hiriart-Urruty 和 lemarsamchal [10,第 7 .4 节 ]。
~
令 c ~ ∈ IRL ψ ( π E ) , π ~ ∈ RL ( c ~ ) = RL ∘ IRL ψ ( π E ) \widetilde c\in\text{IRL}_\psi(\pi_E),~~~\widetilde \pi\in\text{RL}(\widetilde c)=\text{RL}\circ\text{IRL}_\psi(\pi_E) c ∈IRLψ(πE), π ∈RL(c )=RL∘IRLψ(πE)
且
π A ∈ arg min π − H ( π ) + ψ ∗ ( ρ π − ρ π E ) ( 31 ) = arg min π max c − H ( π ) − ψ ( c ) + ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a ) ( 32 ) \begin{aligned}\pi_A&\in \underset{\pi}{\arg\min}-H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(31)\\ &=\underset{\pi}{\arg\min}\max_c-H(\pi)-\psi(c)+\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)~~~~~~~~~~(32)\end{aligned} πA∈πargmin−H(π)+ψ∗(ρπ−ρπE) (31)=πargmincmax−H(π)−ψ(c)+s,a∑(ρπ(s,a)−ρπE(s,a))c(s,a) (32)
~
我们想证明 π A = π ~ π_A =\widetilde \pi πA=π 。
为此,设 ρ A \rho_A ρA 为 π A π_A πA 的占用度量 ,设 ρ ~ \widetilde \rho ρ 为 π ~ \widetilde \pi π 的占用度量,定义 L ˉ : D × R S × A → R \bar L:{\cal D}×{\mathbb R}^{\cal S\times A}→{\mathbb R} Lˉ:D×RS×A→R 为:
~
L ˉ ( ρ , c ) = − H ˉ ( ρ ) − ψ ( c ) + ∑ s , a ρ ( s , a ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) c ( s , a ) ( 33 ) \bar L(\rho, c)=-\bar H(\rho)-\psi(c)+\sum\limits_{s,a}\rho(s,a)c(s,a)-\sum\limits_{s,a}\rho_{\pi_E}(s,a)c(s,a)~~~~~~~~~~(33) Lˉ(ρ,c)=−Hˉ(ρ)−ψ(c)+s,a∑ρ(s,a)c(s,a)−s,a∑ρπE(s,a)c(s,a) (33)
~
根据命题 3.1,以下关系成立:
~
ρ A ∈ arg min ρ ∈ D max c L ˉ ( ρ , c ) ( 34 ) \rho_A\in \underset{\rho~\in~{\cal D}}{\arg\min}\max\limits_c\bar L(\rho,c)~~~~~~~~~~(34) ρA∈ρ ∈ DargmincmaxLˉ(ρ,c) (34)
~
c ~ ∈ arg min c max ρ ∈ D L ˉ ( ρ , c ) ( 35 ) \widetilde c\in\underset{c}{\arg\min}\max\limits_{\rho~\in~{\cal D}}\bar L(\rho,c)~~~~~~~~~~(35) c ∈cargminρ ∈ DmaxLˉ(ρ,c) (35)
~
ρ ~ ∈ arg min ρ ∈ D L ˉ ( ρ , c ~ ) ( 36 ) \widetilde \rho\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho,\widetilde c)~~~~~~~~~~(36) ρ ∈ρ ∈ DargminLˉ(ρ,c ) (36)
~
现在 D \cal D D 是紧致compact 且凸的, R S × A {\mathbb R}^{\cal S\times A} RS×A 是凸的;
更进一步,由于 − H ˉ - \bar H −Hˉ 和 ψ ψ ψ 的凸性,我们还得到 L ˉ ( ⋅ , c ) \bar L(·, c) Lˉ(⋅,c) 对所有 c c c 都是凸的, L ˉ ( ρ , ⋅ ) \bar L(\rho, ·) Lˉ(ρ,⋅) 对所有 ρ \rho ρ 都是凹的。
因此,我们可以利用极大极小对偶性 [16]:
~
min ρ ∈ D max c ∈ C L ˉ ( ρ , c ) = max c ∈ C min ρ ∈ D L ˉ ( ρ , c ) ( 37 ) \textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\max\limits_{c~\in~{\cal C}}\bar L(\rho, c)=\max\limits_{c~\in~{\cal C}}\textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\bar L(\rho, c)~~~~~~~~~~(37) ρ ∈ Dminc ∈ CmaxLˉ(ρ,c)=c ∈ Cmaxρ ∈ DminLˉ(ρ,c) (37)
~
因此,从式(34)和(35), ( ρ A , c ~ ) (\rho_A, \widetilde c) (ρA,c ) 是 L ˉ \bar L Lˉ 的鞍点,这意味着
~
ρ A ∈ arg min ρ ∈ D L ˉ ( ρ , c ~ ) ( 38 ) \rho_A\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho, \widetilde c)~~~~~~~~~~(38) ρA∈ρ ∈ DargminLˉ(ρ,c ) (38)
~
因为 L ˉ ( ⋅ , c ) \bar L(·,c) Lˉ(⋅,c) 对于所有 c c c 都是严格凸的(引理 3.1),式(36)和(38)意味着 ρ A = ρ ~ \rho_A =\widetilde \rho ρA=ρ 。
由于占用度量对应的策略是唯一的(命题 3.1),我们得到 π A = π ~ \pi_A =\widetilde \pi πA=π 。
A.2 Section 5 的证明
在第 5 节的 Eq.(13) 中,我们描述了一个 cost 正则器 ψ GA \psi_\text{GA} ψGA,引出最小化占用度量之间的 Jensen-Shannon 散度的模仿学习算法 (15) 。
为了证明我们选择 ψ GA ψ_\text{GA} ψGA 的合理性,我们展示了如何将某些替代损失函数surrogate loss functions ϕ \phi ϕ(用于从占用度量 ρ π \rho_\pi ρπ 和 ρ π E \rho_{\pi_E} ρπE 中得出的状态-动作对的二元分类)转换为 cost function 正则化器 ψ ψ ψ,其中 ψ ∗ ( ρ π , ρ π E ) \psi^*(ρ_π, \rho_{\pi_E}) ψ∗(ρπ,ρπE) 是 ϕ \phi ϕ 的风险的期望 R ϕ ( ρ π , ρ π E ) R_\phi(ρ_π, \rho_{\pi_E}) Rϕ(ρπ,ρπE) 的最小值。
~
R ϕ ( π , π E ) = ∑ s , a min γ ∈ R ρ π ( s , a ) ϕ ( γ ) + ρ π E ( s , a ) ϕ ( − γ ) ( 39 ) R_\phi(\pi,\pi_E)=\sum\limits_{s,a}\min\limits_{\gamma ~\in~ {\mathbb R}}\rho_\pi(s,a)\phi(\gamma)+\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(39) Rϕ(π,πE)=s,a∑γ ∈ Rminρπ(s,a)ϕ(γ)+ρπE(s,a)ϕ(−γ) (39)
~
具体来说,我们将把自己限制在严格递减的凸损失函数中。
Nguyen 等[19]证明了风险的 R ϕ R_\phi Rϕ 的最小值 与 f f f-散度之间的对应关系,其中 Jensen - Shannon 散度是一个特例。
因此,我们下面的构造可以生成任何模仿学习算法,只要 f f f-散度是由严格递减的凸代理 ϕ \phi ϕ 引起的,就可以最小化占用度量之间的 f f f-散度。
命题 A.1
Proposition A.1.
假设 ϕ : R → R \phi:{\mathbb R}→{\mathbb R} ϕ:R→R 为严格递减凸函数。
令 T T T 为 − ϕ -\phi −ϕ 的值域,定义 g ϕ : R → R ‾ g_\phi: {\mathbb R}→\overline {\mathbb R} gϕ:R→R 且 ψ ϕ : R S × A → R ‾ ψ_\phi: {\mathbb R}^{\cal S\times A}→\overline {\mathbb R} ψϕ:RS×A→R 为:
~
g ϕ ( x ) = { − x + ϕ ( − ϕ − 1 ( − x ) ) if x ∈ T + ∞ otherwise ( 40 ) g_\phi(x)=\begin{cases}-x+\phi(-\phi^{-1}(-x))&\text{if}~~x\in T\\ +\infty &\text{otherwise}\end{cases}~~~~~~~~~~(40) gϕ(x)={−x+ϕ(−ϕ−1(−x))+∞if x∈Totherwise (40)
~
ψ ϕ ( c ) = { ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) ) if c ( s , a ) ∈ T for all s , a + ∞ otherwise \psi_\phi(c)=\begin{cases}\sum\limits_{s,a}\rho_{\pi_E}(s,a)\textcolor{blue}{g_\phi}(c(s,a))&\text{if}~~c(s,a)\in T~\text{for all} ~s,a\\ +\infty&\text{otherwise}\end{cases} ψϕ(c)=⎩ ⎨ ⎧s,a∑ρπE(s,a)gϕ(c(s,a))+∞if c(s,a)∈T for all s,aotherwise
~
那么, ψ ϕ ψ_\phi ψϕ 是 closed,proper,convex凸的,且 RL ∘ IRL ψ ϕ ( π E ) = arg min π − H ( π ) − R ϕ ( ρ π , ρ π E ) \text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E}) RL∘IRLψϕ(πE)=argminπ−H(π)−Rϕ(ρπ,ρπE)
〔 proper 函数:必不为 − ∞ -\infty −∞,且存在有限值 〕
来自链接
证明:
为了验证第一个论断,只需检查 g ϕ ( x ) = − x + ϕ ( − ϕ − 1 ( − x ) ) g_\phi(x) =-x+\phi(-\phi^{-1}(-x)) gϕ(x)=−x+ϕ(−ϕ−1(−x)) 是 closed、proper 和 凸的就足够了。
凸性来源于 x ↦ ϕ ( − ϕ − 1 ( − x ) ) x\mapsto \phi(-\phi^{-1}(-x)) x↦ϕ(−ϕ−1(−x)) 是凸的事实,因为它是一个凹函数后面跟着一个非递增 凸函数。
此外,因为 T T T 是非空的,所以 g ϕ g_\phi gϕ 是 proper。
为了证明 g ϕ g_\phi gϕ 是 closed,注意因为 ϕ \phi ϕ 是严格递减且凸的,所以 ϕ \phi ϕ 的范围要么是 R \mathbb R R 的全部,要么是对于某些 b ∈ R b\in {\mathbb R} b∈R的一个开区间 ( b , ∞ ) (b, \infty) (b,∞)。
如果 ϕ \phi ϕ 的范围是 R \mathbb R R,那么 g ϕ g_\phi gϕ 在任何地方都是有限的,因此是 closed。
另一方面,如果 ϕ \phi ϕ 的范围是 ( b , ∞ ) (b, \infty) (b,∞),那么当 x → ∞ x→\textcolor{blue}{\infty} x→∞ 时 ϕ ( x ) → b \phi(x)→\textcolor{blue}{b} ϕ(x)→b,且当 x → − ∞ x→\textcolor{blue}{-\infty} x→−∞ 时 ϕ ( x ) → ∞ \phi(x)→\infty ϕ(x)→∞。
因此,当 x → b x→b x→b 时, ϕ − 1 ( − x ) → ∞ \phi^{-1}(-x)→\infty ϕ−1(−x)→∞,且 ϕ ( − ϕ − 1 ( − x ) ) → ∞ \phi (-\phi^{-1}(-x))→\infty ϕ(−ϕ−1(−x))→∞,这意味着 当 x → b x→b x→b,有 g ϕ ( x ) → ∞ g_\phi(x)→\infty gϕ(x)→∞,这意味着 g ϕ g_\phi gϕ 是 closed。
现在证明第二个论断。
根据命题 3.2, 我们只需确认 − R ϕ ( ρ π , ρ π E ) = ϕ ϕ ∗ ( ρ π , ρ π E ) -R_\phi(\rho_\pi,\rho_{\pi_E})=\phi_\phi^*(\rho_\pi,\rho_{\pi_E}) −Rϕ(ρπ,ρπE)=ϕϕ∗(ρπ,ρπE)命题 3.2 RL ∘ IRL ψ ( π E ) = arg min π ∈ Π − H ( π ) + ψ ∗ ( ρ π − ρ π E ) ( 4 ) ~~~~~\text{RL}\circ\text{IRL}_\psi(\pi_E)=\arg\min_{\pi\in \Pi} -H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(4) RL∘IRLψ(πE)=argminπ∈Π−H(π)+ψ∗(ρπ−ρπE) (4)
~
论断 2: RL ∘ IRL ψ ϕ ( π E ) = arg min π − H ( π ) − R ϕ ( ρ π , ρ π E ) ~~~~~~\text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E}) RL∘IRLψϕ(πE)=argminπ−H(π)−Rϕ(ρπ,ρπE)ψ ϕ ∗ ( ρ π − ρ π E ) = max c ∈ C ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) ) ( 41 ) 式 ( 31 ) ( 32 ) ( 40 ) = ∑ s , a max c ∈ T ( ρ π ( s , a ) − ρ π E ( s , a ) ) c − ρ π E ( s , a ) [ − c + ϕ ( − ϕ − 1 ( − c ) ) ] ( 42 ) 式 ( 40 ) = ∑ s , a max c ∈ T ρ π ( s , a ) c − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( − c ) ) ( 43 ) 合并,求和抵消 = ∑ s , a max γ ∈ R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( ϕ ( γ ) ) ) ( 44 ) 令 c = − ϕ ( γ ) = ∑ s , a max γ ∈ R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − γ ) ( 45 ) = − R ϕ ( ρ π , ρ π E ) ( 46 ) 式 ( 39 ) \begin{aligned}\psi_\phi^*(\rho_\pi-\rho_{\pi_E})&=\max\limits_{c~\in~{\cal C}}\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)-\sum_{s,a}\rho_{\pi_E}(s,a)g_\phi(c(s,a))~~~~~~~~~~(41)~~~~~\textcolor{blue}{式~(31)(32)(40)}\\ &=\sum_{s,a}\max\limits_{c~\in~\textcolor{blue}{T}}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c-\rho_{\pi_E}(s,a)\Big[-c+\phi(-\phi^{-1}(-c))\Big]~~~~~~~~~~(42)~~~~~\textcolor{blue}{式~(40)}\\ &=\sum_{s,a}\max_{c~\in~T}\rho_\pi(s,a)c-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(-c))~~~~~~~~~~(43)~~~~~\textcolor{blue}{合并,求和抵消}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(\phi(\gamma)))~~~~~~~~~~(44)~~~~~\textcolor{blue}{令~c=-\phi(\gamma)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(45)\\ &=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(46)~~~~~~\textcolor{blue}{式~(39)}\end{aligned} ψϕ∗(ρπ−ρπE)=c ∈ Cmaxs,a∑(ρπ(s,a)−ρπE(s,a))c(s,a)−s,a∑ρπE(s,a)gϕ(c(s,a)) (41) 式 (31)(32)(40)=s,a∑c ∈ Tmax(ρπ(s,a)−ρπE(s,a))c−ρπE(s,a)[−c+ϕ(−ϕ−1(−c))] (42) 式 (40)=s,a∑c ∈ Tmaxρπ(s,a)c−ρπE(s,a)ϕ(−ϕ−1(−c)) (43) 合并,求和抵消=s,a∑γ ∈ Rmaxρπ(s,a)(−ϕ(γ))−ρπE(s,a)ϕ(−ϕ−1(ϕ(γ))) (44) 令 c=−ϕ(γ)=s,a∑γ ∈ Rmaxρπ(s,a)(−ϕ(γ))−ρπE(s,a)ϕ(−γ) (45)=−Rϕ(ρπ,ρπE) (46) 式 (39)
~
我们做了变量 c → − ϕ ( γ ) c→-\phi(γ) c→−ϕ(γ) 的变换,因为 T T T 是 − ϕ - \phi −ϕ 的取值范围。
展示了如何构造一个 cost function 正则器 ψ ϕ ψ_\phi ψϕ,作为推论,我们得到了一个逻辑损失的 cost function 正则器,其最优风险期望是 Jensen-Shannon 散度,up to 一个常数。
推论 A.1.1
Corollary A.1.1. The cost regularizer (13)
~
ϕ GA ( c ) ≜ { E π E [ g ( c ( s , a ) ) ] if c < 0 + ∞ otherwise \phi_\text{GA}(c)\triangleq\begin{cases}{\mathbb E}_{\pi_E}[g(c(s,a))]&\text{if}~~c<0\\ +\infty&\text{otherwise}\end{cases} ϕGA(c)≜{EπE[g(c(s,a))]+∞if c<0otherwise
~
其中
g ( x ) = { − x − log ( 1 − e x ) if x < 0 + ∞ otherwise g(x)=\begin{cases}-x-\log(1-e^x)&\text{if}~~x<0\\ +\infty&\text{otherwise}\end{cases} g(x)={−x−log(1−ex)+∞if x<0otherwise
~
满足
~
ψ GA ∗ ( ρ π − ρ π E ) = max D ∈ ( 0 , 1 ) S × A E π [ log ( D ( s , a ) ) ] + E π E [ log ( 1 − D ( s , a ) ) ] ( 47 ) \psi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})=\max\limits_{D~\in~(0,1)^{\cal S\times A}}{\mathbb E}_\pi[\log(D(s,a))]+{\mathbb E}_{\pi_E}[\log(1-D(s,a))]~~~~~~~~~~(47) ψGA∗(ρπ−ρπE)=D ∈ (0,1)S×AmaxEπ[log(D(s,a))]+EπE[log(1−D(s,a))] (47)
证明:
使用逻辑损失 ϕ ( x ) = log ( 1 + e − x ) \phi(x) = \log(1 + e^{−x}) ϕ(x)=log(1+e−x),我们看到 Eq.(40) 简化为声明的 ψ GA ψ_\text{GA} ψGA。
应用命题 A.1,我们得到
~
ϕ GA ∗ ( ρ π − ρ π E ) = − R ϕ ( ρ π , ρ π E ) ( 48 ) 式 ( 46 ) = ∑ s , a max γ ∈ R ρ π ( s , a ) log ( 1 1 + e − γ ) + ρ π E ( s , a ) log ( 1 1 + e γ ) ( 49 ) 式 ( 45 ) , 代入 ϕ = ∑ s , a max γ ∈ R ρ π ( s , a ) log ( 1 1 + e − γ ) + ρ π E ( s , a ) log ( 1 − 1 1 + e − γ ) ( 50 ) = ∑ s , a max γ ∈ R ρ π ( s , a ) log ( σ ( γ ) ) + ρ π E ( s , a ) log ( 1 − σ ( γ ) ) ( 51 ) 其中 σ ( x ) = 1 1 + e − x 是 sigmoid 函数,且 σ ∈ ( 0 , 1 ) = ∑ s , a max d ∈ ( 0 , 1 ) ρ π ( s , a ) log d + ρ π E ( s , a ) log ( 1 − d ) ( 52 ) 令 d = σ ( γ ) = max D ∈ ( 0 , 1 ) S × A ∑ s , a ρ π ( s , a ) log ( D ( s , a ) ) + ρ π E ( s , a ) log ( 1 − D ( s , a ) ) ( 53 ) D ( s , a ) 替换 d \begin{aligned}\phi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})&=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(48)~~~~~~\textcolor{blue}{式~(46)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\frac{1}{1 + e^\gamma}\Big)~~~~~~~~~~(49)~~~~~~\textcolor{blue}{式~(45),代入 ~\phi}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\textcolor{blue}{1-\frac{1}{1 + e^{−\gamma}}}\Big)~~~~~~~~~~(50)\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\sigma(\gamma)\Big)+\rho_{\pi_E}(s,a)\log\Big(1-\sigma(\gamma)\Big)~~~~~~~~~~(51)~~~~~~\textcolor{blue}{其中~\sigma(x)=\frac{1}{1+e^{-x}}~是~ \text{sigmoid}~函数,且~\sigma~\in~(0,1)}\\ &=\sum_{s,a}\max_{d~\in~(0,1)}\rho_\pi(s,a) \log d+\rho_{\pi_E}(s,a)\log (1-d) ~~~~~~~~~~(52)~~~~~~\textcolor{blue}{令~d=\sigma(\gamma)}\\ &=\max_{D~\in~(0,1)^{\cal S\times A}}\sum_{s,a}\rho_\pi(s,a) \log (D(s,a))+\rho_{\pi_E}(s,a)\log (1-D(s,a)) ~~~~~~~~~~(53)~~~~~~\textcolor{blue}{D(s,a)~替换~d}\end{aligned} ϕGA∗(ρπ−ρπE)=−Rϕ(ρπ,ρπE) (48) 式 (46)=s,a∑γ ∈ Rmaxρπ(s,a)log(1+e−γ1)+ρπE(s,a)log(1+eγ1) (49) 式 (45),代入 ϕ=s,a∑γ ∈ Rmaxρπ(s,a)log(1+e−γ1)+ρπE(s,a)log(1−1+e−γ1) (50)=s,a∑γ ∈ Rmaxρπ(s,a)log(σ(γ))+ρπE(s,a)log(1−σ(γ)) (51) 其中 σ(x)=1+e−x1 是 sigmoid 函数,且 σ ∈ (0,1)=s,a∑d ∈ (0,1)maxρπ(s,a)logd+ρπE(s,a)log(1−d) (52) 令 d=σ(γ)=D ∈ (0,1)S×Amaxs,a∑ρπ(s,a)log(D(s,a))+ρπE(s,a)log(1−D(s,a)) (53) D(s,a) 替换 d
~
这就是我们想要的表达式。
We conclude with a policy gradient formula for causal entropy.
我们得出因果熵的策略梯度公式。
引理 A.1 因果熵的策略梯度公式
Lemma A.1 因果熵梯度:
~
∇ θ E π θ [ − log π θ ( a ∣ s ) ] = E π θ [ ∇ θ log π θ ( a ∣ s ) Q log ( s , a ) ] ( 54 ) \nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]={\mathbb E}_{\pi_\theta}[\nabla_\theta\log \pi_\theta(a|s)Q_\text{log}(s,a)]~~~~~~~~~~(54) ∇θEπθ[−logπθ(a∣s)]=Eπθ[∇θlogπθ(a∣s)Qlog(s,a)] (54)
~
其中 Q log ( s ˉ , a ˉ ) = E π θ [ − log π θ ( a ∣ s ) ∣ s 0 = s ˉ , a 0 = a ˉ ] ~~Q_\text{log}(\bar s, \bar a)={\mathbb E}_{\pi_\theta}[-\log \pi_\theta(a|s)| s_0=\bar s, a_0=\bar a ] Qlog(sˉ,aˉ)=Eπθ[−logπθ(a∣s)∣s0=sˉ,a0=aˉ]
证明: 对于占用度量 ρ ( s , a ) ρ(s, a) ρ(s,a),定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=∑aρ(s,a)。则
~
∇ θ E π θ [ − log π θ ( a ∣ s ) ] = − ∇ θ ∑ s , a ρ π θ ( s , a ) log π θ ( a ∣ s ) 期望展开 = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) ∇ θ log π θ ( a ∣ s ) 乘积的求导 + 补充推导 ① = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a ∇ θ π θ ( a ∣ s ) 补充推导 ② 后一项中 ∑ a ∇ θ π θ ( a ∣ s ) = ∇ θ ∑ a π θ ( a ∣ s ) = ∇ θ 1 = 0 = ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) ( − log π θ ( a ∣ s ) ) \begin{aligned}\nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]&=-\nabla_\theta \sum_{s,a}\rho_{\pi_\theta}(s,a)\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{期望展开}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{乘积的求导+补充推导 ~①}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \nabla_\theta \pi_\theta(a|s)~~~~~~\textcolor{blue}{ 补充推导 ~②}\\ &~~~~~\textcolor{blue}{后一项中~~~\sum_a \nabla_\theta \pi_\theta(a|s)=\nabla_\theta \sum_a \pi_\theta(a|s)=\nabla_\theta 1=0}\\ &=\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))(-\log \pi_\theta(a|s) )\end{aligned} ∇θEπθ[−logπθ(a∣s)]=−∇θs,a∑ρπθ(s,a)logπθ(a∣s) 期望展开=−s,a∑(∇θρπθ(s,a))logπθ(a∣s)−s∑ρπθ(s)a∑πθ(a∣s)∇θlogπθ(a∣s) 乘积的求导+补充推导 ①=−s,a∑(∇θρπθ(s,a))logπθ(a∣s)−s∑ρπθ(s)a∑∇θπθ(a∣s) 补充推导 ② 后一项中 a∑∇θπθ(a∣s)=∇θa∑πθ(a∣s)=∇θ1=0=s,a∑(∇θρπθ(s,a))(−logπθ(a∣s))
~
它是 具有固定 cost function c log ( s , a ) ≜ − log π θ ( a ∣ s ) c_\text{log}(s, a) \triangleq -\log \pi_\theta(a|s) clog(s,a)≜−logπθ(a∣s) 的 RL 的策略梯度。
所得公式由 c log c_\text{log} clog 的标准策略梯度公式给出
补充推导 ①:
由 定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=∑aρ(s,a),
π θ ( a ∣ s ) = ρ π θ ( s , a ) ∑ a ′ ρ π θ ( s , a ′ ) = ρ π θ ( s , a ) ρ π θ ( s ) \pi_\theta(a|s)=\frac{\rho_{\pi_\theta}(s,a)}{\sum_{a^\prime}\rho_{\pi_\theta}(s,a^\prime)}=\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)} πθ(a∣s)=∑a′ρπθ(s,a′)ρπθ(s,a)=ρπθ(s)ρπθ(s,a)
-
∑ s , a ρ π θ ( s , a ) = ∑ s , a ρ π θ ( s ) π θ ( a ∣ s ) = ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) \sum\limits_{s,a}\rho_{\pi_\theta}(s,a)=\sum\limits_{s,a}\rho_{\pi_\theta}(s)\pi_\theta(a|s)=\sum\limits_s\rho_{\pi_\theta}(s)\sum\limits_a\pi_\theta(a|s) s,a∑ρπθ(s,a)=s,a∑ρπθ(s)πθ(a∣s)=s∑ρπθ(s)a∑πθ(a∣s)
-
∑ a π θ ( a ∣ s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ρ π θ ( s ) ρ π θ ( s ) = 1 \sum\limits_a\pi_\theta(a|s)=\sum\limits_a\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac{\sum\limits_a\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac {\rho_{\pi_\theta}(s)}{\rho_{\pi_\theta}(s)}=1 a∑πθ(a∣s)=a∑ρπθ(s)ρπθ(s,a)=ρπθ(s)a∑ρπθ(s,a)=ρπθ(s)ρπθ(s)=1
补充推导 ②:
π θ ( a ∣ s ) ∇ θ log π θ ( a ∣ s ) = π θ ( a ∣ s ) ⋅ 1 π θ ( a ∣ s ) ∇ θ π θ ( a ∣ s ) = ∇ θ π θ ( a ∣ s ) \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)=\pi_\theta(a|s)·\frac{1}{\pi_\theta(a|s)}\nabla_\theta\pi_\theta(a|s)=\nabla_\theta\pi_\theta(a|s) πθ(a∣s)∇θlogπθ(a∣s)=πθ(a∣s)⋅πθ(a∣s)1∇θπθ(a∣s)=∇θπθ(a∣s)