当前位置：首页 > news >正文

【王木头】最大似然估计、最大后验估计

news 2025/4/26 19:10:20

一、最大似然估计（MLE）

二、最大后验估计（MAP）

三、MLE 和 MAP 的本质区别

四、当先验是均匀分布时，MLE 和 MAP 等价

五、总结

本文理论参考王木头的视频：

贝叶斯解释“L1和L2正则化”，本质上是最大后验估计。如何深入理解贝叶斯公式？_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from=333.999.0.0&vd_source=ecbdfcacb078d0e3626e61248866cdc7

一、最大似然估计（MLE）

先读文章，里面有最大似然估计的例子和分析。

【王木头·从感知机到神经网络】-CSDN博客https://blog.csdn.net/m0_56997192/article/details/142876334?spm=1001.2014.3001.5502在最大似然估计中，有两个不严谨的地方：

1、在上文抛硬币的例子中，已有结果 $X$ ，求某先验 $\theta _{i}$ 的概率 $P( \theta _{i}|X)$ ，在计算时我们把 $P( \theta _{i}|X)$ 假设为了 $P(X|\theta _{i})$ ，实际上 $P( \theta _{i}|X)\neq P(X|\theta _{i})$ ，但我们最大似然确认为他们相等了，我们想要求的是已确定某个结果，哪个先验的情况下概率最大；但我们实际求的是某个先验时发生事件的概率的最大值，

即目的是求 $max \ P( \theta _{i}|X)$ ，

但实际求的是 $max \ P(X| \theta _{i})$ ， $P(X| \theta _{i})$ 被称为似然值或似然函数，记为 $L( \theta _{i}|X)$ ，

似然函数为： $L_{X}(\theta )=L(\theta |X)=P(X|\theta )$

最大似然估计为： $\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )$

想到这，我似乎想到了”似然“两个字的起名原因，我们要解决问题，就要求出 $P( \theta _{i}|X)$ ，但 $P( \theta _{i}|X)$ 无法直接求出，所以我们选用了一个与 $P( \theta _{i}|X)$ “ 相似 ” 的 $P(X|\theta _{i})$ ，所以 $P(X|\theta _{i})$ 叫做似然值，“ 相似 ”的对象是 $P( \theta _{i}|X)$ 。

2、另一个王木头提到的是：

最大似然估计为： $\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )$ 中的 $\theta$ 是永远无法确定的，但我们把概率最大的 $\theta$ 跳出来人为规定他就是系统本来就有的属性，这个点我不理解，不过我感觉没什么用。

二、最大后验估计（MAP）

在最大似然估计中，有一个不严谨的地方是让 $P( \theta _{i}|X)= P(X|\theta _{i})$ ，实际上他们是不相等的，我们要求的是 $P( \theta _{i}|X)$ 但最大似然估计中求的是最大的 $P(X|\theta _{i})$ ，最大后验估计解决了这个不严谨的问题。即由贝叶斯公式：

将不能计算的 $P( \theta|X)$ 转化为

$p(\theta | X) = \frac{p(X | \theta) p(\theta)}{p(X)}$

其中：

$p(X | \theta)$ 是似然函数；
$p(\theta)$ 是先验分布；
p $p(X)$ 是边际似然（可以视为常数，与优化无关）。

因此，MAP估计的目标可以等价于最大化 $p(X | \theta) p(\theta)$ ：

$\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)$

在对数形式下，MAP可以写成：

$\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \left( \log p(X|\theta) + \log p(\theta) \right)$

最大后验估计MAP的特点：

考虑先验信息：MAP结合了观测数据和参数的先验知识。先验信息通过 $p(\theta)$ 反映了我们对参数可能取值的先验信念。
贝叶斯统计：MAP是贝叶斯估计方法的一种，将参数视为随机变量，通过观测数据更新我们对参数的信念。
适用于小样本数据：MAP可以在样本较少的情况下引入先验信息，提供稳定的估计。

三、MLE 和 MAP 的本质区别

从本质上来说，MLE 和 MAP 的主要区别在于：

先验的使用：
- MLE 只基于数据的似然函数进行参数估计，不考虑任何先验信息。
- MAP 则通过先验分布 $p(\theta)$ 将先验信息纳入估计中，因此 MAP 是贝叶斯估计的一种。
适用场景的差异：
- MLE 在大样本情况下表现很好，因为在大样本极限下，观测数据对估计的影响远大于先验。
- MAP 更适合小样本或需要引入先验信息的情况，因为先验可以在样本较少时提供稳定性，避免估计过于依赖有限的观测数据。
计算的差异：
- MLE 的目标是最大化似然函数 $p(X|\theta)$ 。
- MAP 的目标是最大化后验概率 $p(\theta|X)$ ，相当于最大化 $p(X|\theta) p(\theta)$ 。

四、当先验是均匀分布时，MLE 和 MAP 等价

值得注意的是，如果先验分布 $p(\theta)$ 是均匀的（即假设所有参数值的先验概率相同），则 $p(\theta)$ 是一个常数，这样 MAP 的目标函数就变为：

$\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) \times$ 常数

在这种情况下，最大化（ $p(X|\theta) \times$ 常数）等价于最大化 $p(X|\theta)$ ，因此 MAP 和 MLE 会得到相同的结果。

这意味着，在没有先验或先验均匀的情况下，MAP 退化为 MLE。因此，MAP 可以被视为 MLE 的一种推广，它允许我们在估计中融入先验信息。

五、总结

本质区别在于：

最大似然估计MLE 只依赖数据的似然，不使用先验，是一种频率派的估计方法。
最大后验估计MAP 同时考虑数据的似然和参数的先验信息，是一种贝叶斯派的估计方法。

总结公式：

最大似然估计MLE： $\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} p(X|\theta)$
最大后验估计MAP： $\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)$