最小期望风险估计
最小期望风险估计(Minimum Expected Risk Estimation, MER)是一种在贝叶斯框架下,通过最小化期望损失(或风险)来选择最优估计值的方法。这种方法不仅考虑了参数的不确定性,还考虑了估计误差的代价。
基本概念
-
损失函数:
- 损失函数 L ( θ , θ ^ ) L(\theta, \hat{\theta}) L(θ,θ^)表示当参数的真实值为 θ \theta θ 时,估计值 θ ^ \hat{\theta} θ^ 所带来的损失。常见的损失函数包括:
- 平方损失: L ( θ , θ ^ ) = ( θ − θ ^ ) 2 L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 L(θ,θ^)=(θ−θ^)2
- 绝对损失: L ( θ , θ ^ ) = ∣ θ − θ ^ ∣ L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| L(θ,θ^)=∣θ−θ^∣
- 0-1损失: L ( θ , θ ^ ) = I ( θ ≠ θ ^ ) L(\theta, \hat{\theta}) = I(\theta \neq \hat{\theta}) L(θ,θ^)=I(θ=θ^),其中 I I I 是指示函数。
- 损失函数 L ( θ , θ ^ ) L(\theta, \hat{\theta}) L(θ,θ^)表示当参数的真实值为 θ \theta θ 时,估计值 θ ^ \hat{\theta} θ^ 所带来的损失。常见的损失函数包括:
-
期望风险:
- 期望风险(或期望损失)是指在给定观测数据 x x x的情况下,参数 θ \theta θ 的后验分布 p ( θ ∣ x ) p(\theta | x) p(θ∣x)下的平均损失。数学上,期望风险定义为:
R ( θ ^ ) = E [ L ( θ , θ ^ ) ∣ x ] = ∫ L ( θ , θ ^ ) p ( θ ∣ x ) d θ R(\hat{\theta}) = E[L(\theta, \hat{\theta}) | x] = \int L(\theta, \hat{\theta}) p(\theta | x) d\theta R(θ^)=E[L(θ,θ^)∣x]=∫L(θ,θ^)p(θ∣x)dθ
- 期望风险(或期望损失)是指在给定观测数据 x x x的情况下,参数 θ \theta θ 的后验分布 p ( θ ∣ x ) p(\theta | x) p(θ∣x)下的平均损失。数学上,期望风险定义为:
最小期望风险估计
为了找到最小期望风险的估计值,我们需要选择一个估计值 θ ^ \hat{\theta} θ^,使得期望风险 R ( θ ^ ) R(\hat{\theta}) R(θ^)达到最小。具体步骤如下:
-
定义损失函数:
- 选择一个合适的损失函数 L ( θ , θ ^ ) L(\theta, \hat{\theta}) L(θ,θ^)。不同的损失函数会导致不同的最优估计值。
-
计算期望风险:
- 对于给定的估计值 θ ^ \hat{\theta} θ^,计算期望风险 R ( θ ^ ) R(\hat{\theta}) R(θ^):
R ( θ ^ ) = ∫ L ( θ , θ ^ ) p ( θ ∣ x ) d θ R(\hat{\theta}) = \int L(\theta, \hat{\theta}) p(\theta | x) d\theta R(θ^)=∫L(θ,θ^)p(θ∣x)dθ
- 对于给定的估计值 θ ^ \hat{\theta} θ^,计算期望风险 R ( θ ^ ) R(\hat{\theta}) R(θ^):
-
最小化期望风险:
- 选择一个估计值 θ ^ ∗ \hat{\theta}^* θ^∗,使得期望风险最小:
θ ^ ∗ = arg min θ ^ R ( θ ^ ) \hat{\theta}^* = \arg\min_{\hat{\theta}} R(\hat{\theta}) θ^∗=argθ^minR(θ^)
- 选择一个估计值 θ ^ ∗ \hat{\theta}^* θ^∗,使得期望风险最小:
常见的最优估计值
-
平方损失:
- 当损失函数为平方损失 L ( θ , θ ^ ) = ( θ − θ ^ ) 2 L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 L(θ,θ^)=(θ−θ^)2时,最小期望风险的估计值是后验期望估计(Posterior Mean):
θ ^ ∗ = E [ θ ∣ x ] = ∫ θ p ( θ ∣ x ) d θ \hat{\theta}^* = E[\theta | x] = \int \theta p(\theta | x) d\theta θ^∗=E[θ∣x]=∫θp(θ∣x)dθ
- 当损失函数为平方损失 L ( θ , θ ^ ) = ( θ − θ ^ ) 2 L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 L(θ,θ^)=(θ−θ^)2时,最小期望风险的估计值是后验期望估计(Posterior Mean):
-
绝对损失:
- 当损失函数为绝对损失 L ( θ , θ ^ ) = ∣ θ − θ ^ ∣ L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| L(θ,θ^)=∣θ−θ^∣时,最小期望风险的估计值是后验中位数估计(Posterior Median):
θ ^ ∗ = median ( θ ∣ x ) \hat{\theta}^* = \text{median}(\theta | x) θ^∗=median(θ∣x)
- 当损失函数为绝对损失 L ( θ , θ ^ ) = ∣ θ − θ ^ ∣ L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| L(θ,θ^)=∣θ−θ^∣时,最小期望风险的估计值是后验中位数估计(Posterior Median):
-
0-1损失:
- 当损失函数为0-1损失 L ( θ , θ ^ ) = I ( θ ≠ θ ^ ) L(\theta, \hat{\theta}) = I(\theta \neq \hat{\theta}) L(θ,θ^)=I(θ=θ^)时,最小期望风险的估计值是后验众数估计(Maximum A Posteriori, MAP):
θ ^ ∗ = arg max θ p ( θ ∣ x ) \hat{\theta}^* = \arg\max_{\theta} p(\theta | x) θ^∗=argθmaxp(θ∣x)
- 当损失函数为0-1损失 L ( θ , θ ^ ) = I ( θ ≠ θ ^ ) L(\theta, \hat{\theta}) = I(\theta \neq \hat{\theta}) L(θ,θ^)=I(θ=θ^)时,最小期望风险的估计值是后验众数估计(Maximum A Posteriori, MAP):