当前位置: 首页 > news >正文

◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

文章目录

  • A 证明
    • Section 3 的证明
      • 引理 3.1 证明
      • 命题 3.2 的证明
    • A.2 Section 5 的证明
      • 命题 A.1
      • 推论 A.1.1
      • 引理 A.1 因果熵的策略梯度公式

A 证明

Section 3 的证明

引理 3.1 证明

在这里插入图片描述

Proof of Lemma 3.1.
首先,我们证明 H ˉ \bar H Hˉ 是严格凹的。
ρ \rho ρ ρ ′ \rho^\prime ρ 为占用度量,假设 λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ[0,1]
对于 所有 s s s a a a,由对数和不等式 [6] 可知:
~  
− ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log ⁡ λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) ∑ a ′ ( λ ρ ( s , a ′ ) + ( 1 − λ ) ρ ′ ( s , a ′ ) ) ( 19 ) = − ( λ ρ ( s , a ) + ( 1 − λ ) ρ ′ ( s , a ) ) log ⁡ λ ρ ( s , a ) + ( 1 − λ ) ( ρ ′ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) + ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ ) ( 20 ) ≥ − λ ρ ( s , a ) log ⁡ λ ρ ( s , a ) λ ∑ a ′ ρ ( s , a ′ ) − ( 1 − λ ) ρ ′ ( s , a ) log ⁡ ( 1 − λ ) ( ρ ′ ( s , a ) ( 1 − λ ) ∑ a ′ ρ ′ ( s , a ′ ) ( 21 ) ? ? ? = λ ( − ρ ( s , a ) log ⁡ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) ) + ( 1 − λ ) ( − ρ ′ ( s , a ) log ⁡ ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) ) ( 22 ) \begin{aligned}&-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\sum_{a^\prime}\Big(\lambda \rho(s,a^\prime)+(1-\lambda)\rho^\prime(s,a^\prime)\Big)}~~~~~~~~~~(19)\\ &=-\Big(\lambda \rho(s,a)+(1-\lambda)\rho^\prime(s,a)\Big)\log\frac{\lambda \rho(s,a)+(1-\lambda)(\rho^\prime(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)+(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(20)\\ &\geq-\lambda \rho(s,a)\log \frac{\lambda \rho(s,a)}{\lambda\sum_{a^\prime} \rho(s,a^\prime)}-(1-\lambda)\rho^\prime(s,a)\log\frac{(1-\lambda)(\rho^\prime(s,a)}{(1-\lambda)\sum_{a^\prime} \rho^\prime(s,a^\prime) }~~~~~~~~~~(21)~~~~~\textcolor{blue}{???}\\ &=\lambda \Big(-\rho(s,a)\log \frac{\rho(s,a)}{\sum_{a^\prime} \rho(s,a^\prime)}\Big)+(1-\lambda)\Big(-\rho^\prime(s,a)\log\frac{\rho^\prime(s,a)}{\sum_{a^\prime} \rho^\prime(s,a^\prime) }\Big)~~~~~~~~~~(22)\\\end{aligned} (λρ(s,a)+(1λ)ρ(s,a))loga(λρ(s,a)+(1λ)ρ(s,a))λρ(s,a)+(1λ)(ρ(s,a)          (19)=(λρ(s,a)+(1λ)ρ(s,a))logλaρ(s,a)+(1λ)aρ(s,a)λρ(s,a)+(1λ)(ρ(s,a)          (20)λρ(s,a)logλaρ(s,a)λρ(s,a)(1λ)ρ(s,a)log(1λ)aρ(s,a)(1λ)(ρ(s,a)          (21)     ???=λ(ρ(s,a)logaρ(s,a)ρ(s,a))+(1λ)(ρ(s,a)logaρ(s,a)ρ(s,a))          (22)
~  
当且仅当 π ρ ≜ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) = ρ ′ ( s , a ) ∑ a ′ ρ ′ ( s , a ′ ) ≜ π ρ ′ π_ρ\triangleq \frac{ρ(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}=\frac{ρ^\prime(s,a)}{\sum_{a^\prime}\rho^\prime(s,a^\prime)}\triangleq π_{ρ^\prime} πρaρ(s,a)ρ(s,a)=aρ(s,a)ρ(s,a)πρ 时等号成立。
对所有 s s s a a a 求和表明 H ˉ ( λ ρ + ( 1 − λ ) ρ ′ ) ≥ λ H ˉ ( ρ ) + ( 1 − λ ) H ˉ ( ρ ′ ) \bar H(λ\rho+ (1-λ)\rho') \geq λ\bar H(\rho) + (1-λ) \bar H(\rho') Hˉ(λρ+(1λ)ρ)λHˉ(ρ)+(1λ)Hˉ(ρ) 当且仅当 π ρ = π ρ ′ π_\rho = π_{ρ^\prime} πρ=πρ 时相等。
应用命题 3.1 表明等式实际上当且仅当 ρ = ρ ′ \rho = ρ' ρ=ρ 成立,因此 H ˉ \bar H Hˉ 是严格凹的。

在这里插入图片描述
在这里插入图片描述

现在,我们来验证最后两个陈述,它们也遵循命题 3.1 和 占用度量的定义。首先,
~  
H ( π ) = E [ − log ⁡ π ( a ∣ s ) ] ( 23 ) = − ∑ s , a ρ π ( s , a ) log ⁡ π ( a ∣ s ) ( 24 ) = − ∑ s , a ρ π ( s , a ) log ⁡ ρ π ( s , a ) ∑ a ′ ρ π ( s , a ′ ) ( 25 ) = H ˉ ( ρ π ) ( 26 ) \begin{aligned}H(\pi)&={\mathbb E}[-\log \pi(a|s)]~~~~~~~~~~(23)\\ &=-\textcolor{blue}{\sum\limits_{s,a}\rho_\pi(s,a)}\log \pi(a|s)~~~~~~~~~~(24)\\ &=-\sum_{s,a}\rho_\pi(s,a)\log\frac{\rho_\pi(s,a)}{\sum_{a^\prime}\rho_\pi(s,a^\prime)}~~~~~~~~~~(25)\\ &=\bar H(\rho_\pi)~~~~~~~~~~(26)\\ \end{aligned} H(π)=E[logπ(as)]          (23)=s,aρπ(s,a)logπ(as)          (24)=s,aρπ(s,a)logaρπ(s,a)ρπ(s,a)          (25)=Hˉ(ρπ)          (26)
~  
其次
~  
H ˉ ( ρ ) = − ∑ s , a ρ ( s , a ) log ⁡ ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) ( 27 ) = − ∑ s , a ρ π ρ ( s , a ) log ⁡ π ρ ( a ∣ s ) ( 28 ) = E π ρ [ − log ⁡ π ρ ( a ∣ s ) ] ( 29 ) = H ( π ρ ) ( 30 ) \begin{aligned}\bar H(\rho)&=-\sum_{s,a}\rho(s,a)\log\frac{\rho(s,a)}{\sum_{a^\prime}\rho(s,a^\prime)}~~~~~~~~~~(27)\\ &=-\sum_{s,a}\rho_{\pi_\rho}(s,a)\log \pi_\rho(a|s)~~~~~~~~~~(28)\\ &={\mathbb E}_{\pi_\rho}[-\log \pi_\rho(a|s)]~~~~~~~~~~(29)\\ &=H(\pi_\rho)~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(30)\end{aligned} Hˉ(ρ)=s,aρ(s,a)logaρ(s,a)ρ(s,a)          (27)=s,aρπρ(s,a)logπρ(as)          (28)=Eπρ[logπρ(as)]          (29)=H(πρ)                              (30)

命题 3.2 的证明

在这里插入图片描述

Proof of Proposition 3.2. This proof relies on properties of saddle points. For a reference, we refer the reader to Hiriart-Urruty and Lemaréchal [10, section VII.4].
命题 3.2 的证明。这个证明依赖于鞍点的性质。
作为参考,我们请读者参阅 Hiriart-Urruty 和 lemarsamchal [10,第 7 .4 节 ]。
~  
c ~ ∈ IRL ψ ( π E ) , π ~ ∈ RL ( c ~ ) = RL ∘ IRL ψ ( π E ) \widetilde c\in\text{IRL}_\psi(\pi_E),~~~\widetilde \pi\in\text{RL}(\widetilde c)=\text{RL}\circ\text{IRL}_\psi(\pi_E) c IRLψ(πE),   π RL(c )=RLIRLψ(πE)

π A ∈ arg ⁡ min ⁡ π − H ( π ) + ψ ∗ ( ρ π − ρ π E ) ( 31 ) = arg ⁡ min ⁡ π max ⁡ c − H ( π ) − ψ ( c ) + ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a ) ( 32 ) \begin{aligned}\pi_A&\in \underset{\pi}{\arg\min}-H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(31)\\ &=\underset{\pi}{\arg\min}\max_c-H(\pi)-\psi(c)+\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)~~~~~~~~~~(32)\end{aligned} πAπargminH(π)+ψ(ρπρπE)          (31)=πargmincmaxH(π)ψ(c)+s,a(ρπ(s,a)ρπE(s,a))c(s,a)          (32)
~  
我们想证明 π A = π ~ π_A =\widetilde \pi πA=π
为此,设 ρ A \rho_A ρA π A π_A πA 的占用度量 ,设 ρ ~ \widetilde \rho ρ π ~ \widetilde \pi π 的占用度量,定义 L ˉ : D × R S × A → R \bar L:{\cal D}×{\mathbb R}^{\cal S\times A}→{\mathbb R} Lˉ:D×RS×AR 为:
~  
L ˉ ( ρ , c ) = − H ˉ ( ρ ) − ψ ( c ) + ∑ s , a ρ ( s , a ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) c ( s , a ) ( 33 ) \bar L(\rho, c)=-\bar H(\rho)-\psi(c)+\sum\limits_{s,a}\rho(s,a)c(s,a)-\sum\limits_{s,a}\rho_{\pi_E}(s,a)c(s,a)~~~~~~~~~~(33) Lˉ(ρ,c)=Hˉ(ρ)ψ(c)+s,aρ(s,a)c(s,a)s,aρπE(s,a)c(s,a)          (33)
~  
根据命题 3.1,以下关系成立:
~  
ρ A ∈ arg ⁡ min ⁡ ρ ∈ D max ⁡ c L ˉ ( ρ , c ) ( 34 ) \rho_A\in \underset{\rho~\in~{\cal D}}{\arg\min}\max\limits_c\bar L(\rho,c)~~~~~~~~~~(34) ρAρ  DargmincmaxLˉ(ρ,c)          (34)
~  
c ~ ∈ arg ⁡ min ⁡ c max ⁡ ρ ∈ D L ˉ ( ρ , c ) ( 35 ) \widetilde c\in\underset{c}{\arg\min}\max\limits_{\rho~\in~{\cal D}}\bar L(\rho,c)~~~~~~~~~~(35) c cargminρ  DmaxLˉ(ρ,c)          (35)
~  
ρ ~ ∈ arg ⁡ min ⁡ ρ ∈ D L ˉ ( ρ , c ~ ) ( 36 ) \widetilde \rho\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho,\widetilde c)~~~~~~~~~~(36) ρ ρ  DargminLˉ(ρ,c )          (36)
~  
现在 D \cal D D 是紧致compact 且凸的, R S × A {\mathbb R}^{\cal S\times A} RS×A 是凸的;
更进一步,由于 − H ˉ - \bar H Hˉ ψ ψ ψ 的凸性,我们还得到 L ˉ ( ⋅ , c ) \bar L(·, c) Lˉ(⋅,c) 对所有 c c c 都是凸的, L ˉ ( ρ , ⋅ ) \bar L(\rho, ·) Lˉ(ρ,⋅) 对所有 ρ \rho ρ 都是凹的。
因此,我们可以利用极大极小对偶性 [16]:
~  
min ⁡ ρ ∈ D max ⁡ c ∈ C L ˉ ( ρ , c ) = max ⁡ c ∈ C min ⁡ ρ ∈ D L ˉ ( ρ , c ) ( 37 ) \textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\max\limits_{c~\in~{\cal C}}\bar L(\rho, c)=\max\limits_{c~\in~{\cal C}}\textcolor{blue}{\min\limits_{\rho~\in~{\cal D}}}\bar L(\rho, c)~~~~~~~~~~(37) ρ  Dminc  CmaxLˉ(ρ,c)=c  Cmaxρ  DminLˉ(ρ,c)          (37)
~  
因此,从式(34)和(35), ( ρ A , c ~ ) (\rho_A, \widetilde c) (ρA,c ) L ˉ \bar L Lˉ 的鞍点,这意味着
~  
ρ A ∈ arg ⁡ min ⁡ ρ ∈ D L ˉ ( ρ , c ~ ) ( 38 ) \rho_A\in\underset{\rho~\in~{\cal D}}{\arg\min}\bar L(\rho, \widetilde c)~~~~~~~~~~(38) ρAρ  DargminLˉ(ρ,c )          (38)
~  
因为 L ˉ ( ⋅ , c ) \bar L(·,c) Lˉ(⋅,c) 对于所有 c c c 都是严格凸的(引理 3.1),式(36)和(38)意味着 ρ A = ρ ~ \rho_A =\widetilde \rho ρA=ρ
由于占用度量对应的策略是唯一的(命题 3.1),我们得到 π A = π ~ \pi_A =\widetilde \pi πA=π

A.2 Section 5 的证明

在第 5 节的 Eq.(13) 中,我们描述了一个 cost 正则器 ψ GA \psi_\text{GA} ψGA,引出最小化占用度量之间的 Jensen-Shannon 散度的模仿学习算法 (15) 。
为了证明我们选择 ψ GA ψ_\text{GA} ψGA 的合理性,我们展示了如何将某些替代损失函数surrogate loss functions ϕ \phi ϕ(用于从占用度量 ρ π \rho_\pi ρπ ρ π E \rho_{\pi_E} ρπE 中得出的状态-动作对的二元分类)转换为 cost function 正则化器 ψ ψ ψ,其中 ψ ∗ ( ρ π , ρ π E ) \psi^*(ρ_π, \rho_{\pi_E}) ψ(ρπ,ρπE) ϕ \phi ϕ 的风险的期望 R ϕ ( ρ π , ρ π E ) R_\phi(ρ_π, \rho_{\pi_E}) Rϕ(ρπ,ρπE) 的最小值。
~  
R ϕ ( π , π E ) = ∑ s , a min ⁡ γ ∈ R ρ π ( s , a ) ϕ ( γ ) + ρ π E ( s , a ) ϕ ( − γ ) ( 39 ) R_\phi(\pi,\pi_E)=\sum\limits_{s,a}\min\limits_{\gamma ~\in~ {\mathbb R}}\rho_\pi(s,a)\phi(\gamma)+\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(39) Rϕ(π,πE)=s,aγ  Rminρπ(s,a)ϕ(γ)+ρπE(s,a)ϕ(γ)          (39)
~  
具体来说,我们将把自己限制在严格递减的凸损失函数中。
Nguyen 等[19]证明了风险的 R ϕ R_\phi Rϕ 的最小值 与 f f f-散度之间的对应关系,其中 Jensen - Shannon 散度是一个特例。
因此,我们下面的构造可以生成任何模仿学习算法,只要 f f f-散度是由严格递减的凸代理 ϕ \phi ϕ 引起的,就可以最小化占用度量之间的 f f f-散度。

命题 A.1

Proposition A.1.
假设 ϕ : R → R \phi:{\mathbb R}→{\mathbb R} ϕ:RR 为严格递减凸函数。
T T T − ϕ -\phi ϕ 的值域,定义 g ϕ : R → R ‾ g_\phi: {\mathbb R}→\overline {\mathbb R} gϕ:RR ψ ϕ : R S × A → R ‾ ψ_\phi: {\mathbb R}^{\cal S\times A}→\overline {\mathbb R} ψϕ:RS×AR 为:
~  
g ϕ ( x ) = { − x + ϕ ( − ϕ − 1 ( − x ) ) if   x ∈ T + ∞ otherwise ( 40 ) g_\phi(x)=\begin{cases}-x+\phi(-\phi^{-1}(-x))&\text{if}~~x\in T\\ +\infty &\text{otherwise}\end{cases}~~~~~~~~~~(40) gϕ(x)={x+ϕ(ϕ1(x))+if  xTotherwise          (40)
~  
ψ ϕ ( c ) = { ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) ) if   c ( s , a ) ∈ T for all  s , a + ∞ otherwise \psi_\phi(c)=\begin{cases}\sum\limits_{s,a}\rho_{\pi_E}(s,a)\textcolor{blue}{g_\phi}(c(s,a))&\text{if}~~c(s,a)\in T~\text{for all} ~s,a\\ +\infty&\text{otherwise}\end{cases} ψϕ(c)= s,aρπE(s,a)gϕ(c(s,a))+if  c(s,a)T for all s,aotherwise
~  
那么, ψ ϕ ψ_\phi ψϕ 是 closed,proper,convex凸的,且 RL ∘ IRL ψ ϕ ( π E ) = arg ⁡ min ⁡ π − H ( π ) − R ϕ ( ρ π , ρ π E ) \text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E}) RLIRLψϕ(πE)=argminπH(π)Rϕ(ρπ,ρπE)

在这里插入图片描述

在这里插入图片描述
〔 proper 函数:必不为 − ∞ -\infty ,且存在有限值 〕

在这里插入图片描述

来自链接

证明:
为了验证第一个论断,只需检查 g ϕ ( x ) = − x + ϕ ( − ϕ − 1 ( − x ) ) g_\phi(x) =-x+\phi(-\phi^{-1}(-x)) gϕ(x)=x+ϕ(ϕ1(x)) 是 closed、proper 和 凸的就足够了。
凸性来源于 x ↦ ϕ ( − ϕ − 1 ( − x ) ) x\mapsto \phi(-\phi^{-1}(-x)) xϕ(ϕ1(x)) 是凸的事实,因为它是一个凹函数后面跟着一个非递增 凸函数。
此外,因为 T T T 是非空的,所以 g ϕ g_\phi gϕ 是 proper。
为了证明 g ϕ g_\phi gϕ 是 closed,注意因为 ϕ \phi ϕ 是严格递减且凸的,所以 ϕ \phi ϕ 的范围要么是 R \mathbb R R 的全部,要么是对于某些 b ∈ R b\in {\mathbb R} bR的一个开区间 ( b , ∞ ) (b, \infty) (b,)
如果 ϕ \phi ϕ 的范围是 R \mathbb R R,那么 g ϕ g_\phi gϕ 在任何地方都是有限的,因此是 closed。
另一方面,如果 ϕ \phi ϕ 的范围是 ( b , ∞ ) (b, \infty) (b,),那么当 x → ∞ x→\textcolor{blue}{\infty} x ϕ ( x ) → b \phi(x)→\textcolor{blue}{b} ϕ(x)b,且当 x → − ∞ x→\textcolor{blue}{-\infty} x ϕ ( x ) → ∞ \phi(x)→\infty ϕ(x)
因此,当 x → b x→b xb 时, ϕ − 1 ( − x ) → ∞ \phi^{-1}(-x)→\infty ϕ1(x),且 ϕ ( − ϕ − 1 ( − x ) ) → ∞ \phi (-\phi^{-1}(-x))→\infty ϕ(ϕ1(x)),这意味着 当 x → b x→b xb,有 g ϕ ( x ) → ∞ g_\phi(x)→\infty gϕ(x),这意味着 g ϕ g_\phi gϕ 是 closed。

现在证明第二个论断。
根据命题 3.2, 我们只需确认 − R ϕ ( ρ π , ρ π E ) = ϕ ϕ ∗ ( ρ π , ρ π E ) -R_\phi(\rho_\pi,\rho_{\pi_E})=\phi_\phi^*(\rho_\pi,\rho_{\pi_E}) Rϕ(ρπ,ρπE)=ϕϕ(ρπ,ρπE)

命题 3.2 RL ∘ IRL ψ ( π E ) = arg ⁡ min ⁡ π ∈ Π − H ( π ) + ψ ∗ ( ρ π − ρ π E ) ( 4 ) ~~~~~\text{RL}\circ\text{IRL}_\psi(\pi_E)=\arg\min_{\pi\in \Pi} -H(\pi)+\psi^*(\rho_\pi-\rho_{\pi_E})~~~~~~~~~~(4)      RLIRLψ(πE)=argminπΠH(π)+ψ(ρπρπE)          (4)
~  
论断 2: RL ∘ IRL ψ ϕ ( π E ) = arg ⁡ min ⁡ π − H ( π ) − R ϕ ( ρ π , ρ π E ) ~~~~~~\text{RL}\circ \text{IRL}_{ψ_\phi} (π_E) = \arg \min_\pi - H (π) - R_\phi(\rho_π, \rho_{\pi_E})       RLIRLψϕ(πE)=argminπH(π)Rϕ(ρπ,ρπE)

ψ ϕ ∗ ( ρ π − ρ π E ) = max ⁡ c ∈ C ∑ s , a ( ρ π ( s , a ) − ρ π E ( s , a ) ) c ( s , a ) − ∑ s , a ρ π E ( s , a ) g ϕ ( c ( s , a ) ) ( 41 ) 式  ( 31 ) ( 32 ) ( 40 ) = ∑ s , a max ⁡ c ∈ T ( ρ π ( s , a ) − ρ π E ( s , a ) ) c − ρ π E ( s , a ) [ − c + ϕ ( − ϕ − 1 ( − c ) ) ] ( 42 ) 式  ( 40 ) = ∑ s , a max ⁡ c ∈ T ρ π ( s , a ) c − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( − c ) ) ( 43 ) 合并,求和抵消 = ∑ s , a max ⁡ γ ∈ R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − ϕ − 1 ( ϕ ( γ ) ) ) ( 44 ) 令  c = − ϕ ( γ ) = ∑ s , a max ⁡ γ ∈ R ρ π ( s , a ) ( − ϕ ( γ ) ) − ρ π E ( s , a ) ϕ ( − γ ) ( 45 ) = − R ϕ ( ρ π , ρ π E ) ( 46 ) 式  ( 39 ) \begin{aligned}\psi_\phi^*(\rho_\pi-\rho_{\pi_E})&=\max\limits_{c~\in~{\cal C}}\sum_{s,a}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c(s,a)-\sum_{s,a}\rho_{\pi_E}(s,a)g_\phi(c(s,a))~~~~~~~~~~(41)~~~~~\textcolor{blue}{式~(31)(32)(40)}\\ &=\sum_{s,a}\max\limits_{c~\in~\textcolor{blue}{T}}\Big(\rho_\pi(s,a)-\rho_{\pi_E}(s,a)\Big)c-\rho_{\pi_E}(s,a)\Big[-c+\phi(-\phi^{-1}(-c))\Big]~~~~~~~~~~(42)~~~~~\textcolor{blue}{式~(40)}\\ &=\sum_{s,a}\max_{c~\in~T}\rho_\pi(s,a)c-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(-c))~~~~~~~~~~(43)~~~~~\textcolor{blue}{合并,求和抵消}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\phi^{-1}(\phi(\gamma)))~~~~~~~~~~(44)~~~~~\textcolor{blue}{令~c=-\phi(\gamma)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a)(-\phi(\gamma))-\rho_{\pi_E}(s,a)\phi(-\gamma)~~~~~~~~~~(45)\\ &=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(46)~~~~~~\textcolor{blue}{式~(39)}\end{aligned} ψϕ(ρπρπE)=c  Cmaxs,a(ρπ(s,a)ρπE(s,a))c(s,a)s,aρπE(s,a)gϕ(c(s,a))          (41)      (31)(32)(40)=s,ac  Tmax(ρπ(s,a)ρπE(s,a))cρπE(s,a)[c+ϕ(ϕ1(c))]          (42)      (40)=s,ac  Tmaxρπ(s,a)cρπE(s,a)ϕ(ϕ1(c))          (43)     合并,求和抵消=s,aγ  Rmaxρπ(s,a)(ϕ(γ))ρπE(s,a)ϕ(ϕ1(ϕ(γ)))          (44)      c=ϕ(γ)=s,aγ  Rmaxρπ(s,a)(ϕ(γ))ρπE(s,a)ϕ(γ)          (45)=Rϕ(ρπ,ρπE)          (46)       (39)
~  
我们做了变量 c → − ϕ ( γ ) c→-\phi(γ) cϕ(γ) 的变换,因为 T T T − ϕ - \phi ϕ 的取值范围。

展示了如何构造一个 cost function 正则器 ψ ϕ ψ_\phi ψϕ,作为推论,我们得到了一个逻辑损失的 cost function 正则器,其最优风险期望是 Jensen-Shannon 散度,up to 一个常数。

推论 A.1.1

Corollary A.1.1. The cost regularizer (13)
~  
ϕ GA ( c ) ≜ { E π E [ g ( c ( s , a ) ) ] if   c < 0 + ∞ otherwise \phi_\text{GA}(c)\triangleq\begin{cases}{\mathbb E}_{\pi_E}[g(c(s,a))]&\text{if}~~c<0\\ +\infty&\text{otherwise}\end{cases} ϕGA(c){EπE[g(c(s,a))]+if  c<0otherwise
~  
其中
g ( x ) = { − x − log ⁡ ( 1 − e x ) if   x < 0 + ∞ otherwise g(x)=\begin{cases}-x-\log(1-e^x)&\text{if}~~x<0\\ +\infty&\text{otherwise}\end{cases} g(x)={xlog(1ex)+if  x<0otherwise
~  
满足
~  
ψ GA ∗ ( ρ π − ρ π E ) = max ⁡ D ∈ ( 0 , 1 ) S × A E π [ log ⁡ ( D ( s , a ) ) ] + E π E [ log ⁡ ( 1 − D ( s , a ) ) ] ( 47 ) \psi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})=\max\limits_{D~\in~(0,1)^{\cal S\times A}}{\mathbb E}_\pi[\log(D(s,a))]+{\mathbb E}_{\pi_E}[\log(1-D(s,a))]~~~~~~~~~~(47) ψGA(ρπρπE)=D  (0,1)S×AmaxEπ[log(D(s,a))]+EπE[log(1D(s,a))]          (47)

证明:
使用逻辑损失 ϕ ( x ) = log ⁡ ( 1 + e − x ) \phi(x) = \log(1 + e^{−x}) ϕ(x)=log(1+ex),我们看到 Eq.(40) 简化为声明的 ψ GA ψ_\text{GA} ψGA
应用命题 A.1,我们得到
~  
ϕ GA ∗ ( ρ π − ρ π E ) = − R ϕ ( ρ π , ρ π E ) ( 48 ) 式  ( 46 ) = ∑ s , a max ⁡ γ ∈ R ρ π ( s , a ) log ⁡ ( 1 1 + e − γ ) + ρ π E ( s , a ) log ⁡ ( 1 1 + e γ ) ( 49 ) 式  ( 45 ) , 代入  ϕ = ∑ s , a max ⁡ γ ∈ R ρ π ( s , a ) log ⁡ ( 1 1 + e − γ ) + ρ π E ( s , a ) log ⁡ ( 1 − 1 1 + e − γ ) ( 50 ) = ∑ s , a max ⁡ γ ∈ R ρ π ( s , a ) log ⁡ ( σ ( γ ) ) + ρ π E ( s , a ) log ⁡ ( 1 − σ ( γ ) ) ( 51 ) 其中  σ ( x ) = 1 1 + e − x 是 sigmoid 函数,且  σ ∈ ( 0 , 1 ) = ∑ s , a max ⁡ d ∈ ( 0 , 1 ) ρ π ( s , a ) log ⁡ d + ρ π E ( s , a ) log ⁡ ( 1 − d ) ( 52 ) 令  d = σ ( γ ) = max ⁡ D ∈ ( 0 , 1 ) S × A ∑ s , a ρ π ( s , a ) log ⁡ ( D ( s , a ) ) + ρ π E ( s , a ) log ⁡ ( 1 − D ( s , a ) ) ( 53 ) D ( s , a ) 替换  d \begin{aligned}\phi_\text{GA}^*(\rho_\pi-\rho_{\pi_E})&=-R_\phi(\rho_\pi,\rho_{\pi_E})~~~~~~~~~~(48)~~~~~~\textcolor{blue}{式~(46)}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\frac{1}{1 + e^\gamma}\Big)~~~~~~~~~~(49)~~~~~~\textcolor{blue}{式~(45),代入 ~\phi}\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\frac{1}{1 + e^{−\gamma}}\Big)+\rho_{\pi_E}(s,a)\log\Big(\textcolor{blue}{1-\frac{1}{1 + e^{−\gamma}}}\Big)~~~~~~~~~~(50)\\ &=\sum_{s,a}\max_{\gamma~\in~{\mathbb R}}\rho_\pi(s,a) \log\Big(\sigma(\gamma)\Big)+\rho_{\pi_E}(s,a)\log\Big(1-\sigma(\gamma)\Big)~~~~~~~~~~(51)~~~~~~\textcolor{blue}{其中~\sigma(x)=\frac{1}{1+e^{-x}}~是~ \text{sigmoid}~函数,且~\sigma~\in~(0,1)}\\ &=\sum_{s,a}\max_{d~\in~(0,1)}\rho_\pi(s,a) \log d+\rho_{\pi_E}(s,a)\log (1-d) ~~~~~~~~~~(52)~~~~~~\textcolor{blue}{令~d=\sigma(\gamma)}\\ &=\max_{D~\in~(0,1)^{\cal S\times A}}\sum_{s,a}\rho_\pi(s,a) \log (D(s,a))+\rho_{\pi_E}(s,a)\log (1-D(s,a)) ~~~~~~~~~~(53)~~~~~~\textcolor{blue}{D(s,a)~替换~d}\end{aligned} ϕGA(ρπρπE)=Rϕ(ρπ,ρπE)          (48)       (46)=s,aγ  Rmaxρπ(s,a)log(1+eγ1)+ρπE(s,a)log(1+eγ1)          (49)       (45),代入 ϕ=s,aγ  Rmaxρπ(s,a)log(1+eγ1)+ρπE(s,a)log(11+eγ1)          (50)=s,aγ  Rmaxρπ(s,a)log(σ(γ))+ρπE(s,a)log(1σ(γ))          (51)      其中 σ(x)=1+ex1  sigmoid 函数,且 σ  (0,1)=s,ad  (0,1)maxρπ(s,a)logd+ρπE(s,a)log(1d)          (52)       d=σ(γ)=D  (0,1)S×Amaxs,aρπ(s,a)log(D(s,a))+ρπE(s,a)log(1D(s,a))          (53)      D(s,a) 替换 d
~  
这就是我们想要的表达式。

We conclude with a policy gradient formula for causal entropy.
我们得出因果熵的策略梯度公式。

引理 A.1 因果熵的策略梯度公式

Lemma A.1 因果熵梯度:
~  
∇ θ E π θ [ − log ⁡ π θ ( a ∣ s ) ] = E π θ [ ∇ θ log ⁡ π θ ( a ∣ s ) Q log ( s , a ) ] ( 54 ) \nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]={\mathbb E}_{\pi_\theta}[\nabla_\theta\log \pi_\theta(a|s)Q_\text{log}(s,a)]~~~~~~~~~~(54) θEπθ[logπθ(as)]=Eπθ[θlogπθ(as)Qlog(s,a)]          (54)
~  
其中 Q log ( s ˉ , a ˉ ) = E π θ [ − log ⁡ π θ ( a ∣ s ) ∣ s 0 = s ˉ , a 0 = a ˉ ] ~~Q_\text{log}(\bar s, \bar a)={\mathbb E}_{\pi_\theta}[-\log \pi_\theta(a|s)| s_0=\bar s, a_0=\bar a ]   Qlog(sˉ,aˉ)=Eπθ[logπθ(as)s0=sˉ,a0=aˉ]

证明: 对于占用度量 ρ ( s , a ) ρ(s, a) ρ(s,a),定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=aρ(s,a)。则
~  
∇ θ E π θ [ − log ⁡ π θ ( a ∣ s ) ] = − ∇ θ ∑ s , a ρ π θ ( s , a ) log ⁡ π θ ( a ∣ s ) 期望展开 = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log ⁡ π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) ∇ θ log ⁡ π θ ( a ∣ s ) 乘积的求导 + 补充推导 ① = − ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) log ⁡ π θ ( a ∣ s ) − ∑ s ρ π θ ( s ) ∑ a ∇ θ π θ ( a ∣ s ) 补充推导 ② 后一项中    ∑ a ∇ θ π θ ( a ∣ s ) = ∇ θ ∑ a π θ ( a ∣ s ) = ∇ θ 1 = 0 = ∑ s , a ( ∇ θ ρ π θ ( s , a ) ) ( − log ⁡ π θ ( a ∣ s ) ) \begin{aligned}\nabla_\theta{\mathbb E}_{\pi_\theta}[-\log\pi_\theta(a|s)]&=-\nabla_\theta \sum_{s,a}\rho_{\pi_\theta}(s,a)\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{期望展开}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)~~~~~~\textcolor{blue}{乘积的求导+补充推导 ~①}\\ &=-\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))\log \pi_\theta(a|s)-\sum_s\rho_{\pi_\theta}(s)\sum_a \nabla_\theta \pi_\theta(a|s)~~~~~~\textcolor{blue}{ 补充推导 ~②}\\ &~~~~~\textcolor{blue}{后一项中~~~\sum_a \nabla_\theta \pi_\theta(a|s)=\nabla_\theta \sum_a \pi_\theta(a|s)=\nabla_\theta 1=0}\\ &=\sum_{s,a}(\nabla_\theta \rho_{\pi_\theta}(s,a))(-\log \pi_\theta(a|s) )\end{aligned} θEπθ[logπθ(as)]=θs,aρπθ(s,a)logπθ(as)      期望展开=s,a(θρπθ(s,a))logπθ(as)sρπθ(s)aπθ(as)θlogπθ(as)      乘积的求导+补充推导 =s,a(θρπθ(s,a))logπθ(as)sρπθ(s)aθπθ(as)      补充推导      后一项中   aθπθ(as)=θaπθ(as)=θ1=0=s,a(θρπθ(s,a))(logπθ(as))
~  
它是 具有固定 cost function c log ( s , a ) ≜ − log ⁡ π θ ( a ∣ s ) c_\text{log}(s, a) \triangleq -\log \pi_\theta(a|s) clog(s,a)logπθ(as) 的 RL 的策略梯度。
所得公式由 c log c_\text{log} clog 的标准策略梯度公式给出

补充推导 ①:
由 定义 ρ ( s ) = ∑ a ρ ( s , a ) \rho(s) = \sum_aρ(s, a) ρ(s)=aρ(s,a)

π θ ( a ∣ s ) = ρ π θ ( s , a ) ∑ a ′ ρ π θ ( s , a ′ ) = ρ π θ ( s , a ) ρ π θ ( s ) \pi_\theta(a|s)=\frac{\rho_{\pi_\theta}(s,a)}{\sum_{a^\prime}\rho_{\pi_\theta}(s,a^\prime)}=\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)} πθ(as)=aρπθ(s,a)ρπθ(s,a)=ρπθ(s)ρπθ(s,a)

  • ∑ s , a ρ π θ ( s , a ) = ∑ s , a ρ π θ ( s ) π θ ( a ∣ s ) = ∑ s ρ π θ ( s ) ∑ a π θ ( a ∣ s ) \sum\limits_{s,a}\rho_{\pi_\theta}(s,a)=\sum\limits_{s,a}\rho_{\pi_\theta}(s)\pi_\theta(a|s)=\sum\limits_s\rho_{\pi_\theta}(s)\sum\limits_a\pi_\theta(a|s) s,aρπθ(s,a)=s,aρπθ(s)πθ(as)=sρπθ(s)aπθ(as)

  • ∑ a π θ ( a ∣ s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ∑ a ρ π θ ( s , a ) ρ π θ ( s ) = ρ π θ ( s ) ρ π θ ( s ) = 1 \sum\limits_a\pi_\theta(a|s)=\sum\limits_a\frac{\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac{\sum\limits_a\rho_{\pi_\theta}(s,a)}{\rho_{\pi_\theta}(s)}=\frac {\rho_{\pi_\theta}(s)}{\rho_{\pi_\theta}(s)}=1 aπθ(as)=aρπθ(s)ρπθ(s,a)=ρπθ(s)aρπθ(s,a)=ρπθ(s)ρπθ(s)=1

补充推导 ②:
π θ ( a ∣ s ) ∇ θ log ⁡ π θ ( a ∣ s ) = π θ ( a ∣ s ) ⋅ 1 π θ ( a ∣ s ) ∇ θ π θ ( a ∣ s ) = ∇ θ π θ ( a ∣ s ) \pi_\theta(a|s)\nabla_\theta\log \pi_\theta(a|s)=\pi_\theta(a|s)·\frac{1}{\pi_\theta(a|s)}\nabla_\theta\pi_\theta(a|s)=\nabla_\theta\pi_\theta(a|s) πθ(as)θlogπθ(as)=πθ(as)πθ(as)1θπθ(as)=θπθ(as)


http://www.mrgr.cn/news/68151.html

相关文章:

  • C++ 中的 JSON 序列化和反序列化:结构体与枚举类型的处理
  • 探索PickleDB:Python中的轻量级数据存储利器
  • 使用git lfs向huggingface提交较大的数据或者权重
  • Map函数与vector<pair<int,int>>函数的使用方法
  • Webserver(4.9)本地套接字的通信
  • 在 Mac 和 Windows 系统中快速部署 OceanBase
  • 大模型学习笔记------CLIP模型解读与思考
  • NAT网络工作原理和NAT类型
  • Docker启动gitlab后22端口被占用如何解决
  • Swift 开发教程系列 - 第9章:错误处理
  • 秒懂Linux之序列化及反序列化
  • 【VR】PICO 手部追踪 steamvr内无法识别,依旧识别手柄的解决方案
  • 羽星股份引领连锁业数智化转型,厦门羽星科技公司逆势增长剑指纳斯达克
  • 【Apache ECharts】<农作物病害发生防治面积>
  • win 查看显卡支持 CUDA版本
  • 如何找到捏蛋糕和修牛蹄类型的解压视频素材?
  • 什么是WebAssembly,有什么特点
  • FreeRTOS 13:FreeRTOS队列的读原理
  • Qt第三课 ----------容器类控件
  • 11.07学习
  • 泷羽sec学习打卡-shodan扫描7
  • 初识Java EE和Spring Boot
  • Java 类和对象(下)
  • windows安装nvm并配置换源
  • 机器学习4_支持向量机_核函数——MOOC
  • 深入理解 TCP 的握手与挥手机制:为何握手 3 次,挥手 4 次?