【王木头】最大似然估计、最大后验估计
目录
一、最大似然估计(MLE)
二、最大后验估计(MAP)
三、MLE 和 MAP 的本质区别
四、当先验是均匀分布时,MLE 和 MAP 等价
五、总结
本文理论参考王木头的视频:
贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from=333.999.0.0&vd_source=ecbdfcacb078d0e3626e61248866cdc7
一、最大似然估计(MLE)
先读文章,里面有最大似然估计的例子和分析。
【王木头·从感知机到神经网络】-CSDN博客https://blog.csdn.net/m0_56997192/article/details/142876334?spm=1001.2014.3001.5502在最大似然估计中,有两个不严谨的地方:
1、在上文抛硬币的例子中,已有结果,求某先验 的概率 ,在计算时我们把 假设为了 ,实际上,但我们最大似然确认为他们相等了,我们想要求的是已确定某个结果,哪个先验的情况下概率最大;但我们实际求的是某个先验时发生事件的概率的最大值,
即目的是求 ,
但实际求的是 ,被称为似然值或似然函数,记为,
似然函数为:
最大似然估计为:
想到这,我似乎想到了”似然“两个字的起名原因,我们要解决问题,就要求出,但无法直接求出,所以我们选用了一个与 “ 相似 ” 的 ,所以叫做似然值,“ 相似 ”的对象是 。
2、另一个王木头提到的是:
最大似然估计为:中的 是永远无法确定的,但我们把概率最大的 跳出来人为规定他就是系统本来就有的属性,这个点我不理解,不过我感觉没什么用。
二、最大后验估计(MAP)
在最大似然估计中,有一个不严谨的地方是让 ,实际上他们是不相等的,我们要求的是 但最大似然估计中求的是最大的 ,最大后验估计解决了这个不严谨的问题。即由贝叶斯公式:
将不能计算的 转化为
其中:
- 是似然函数;
- 是先验分布;
- p 是边际似然(可以视为常数,与优化无关)。
因此,MAP估计的目标可以等价于最大化 :
在对数形式下,MAP可以写成:
最大后验估计MAP的特点:
- 考虑先验信息:MAP结合了观测数据和参数的先验知识。先验信息通过 反映了我们对参数可能取值的先验信念。
- 贝叶斯统计:MAP是贝叶斯估计方法的一种,将参数视为随机变量,通过观测数据更新我们对参数的信念。
- 适用于小样本数据:MAP可以在样本较少的情况下引入先验信息,提供稳定的估计。
三、MLE 和 MAP 的本质区别
从本质上来说,MLE 和 MAP 的主要区别在于:
-
先验的使用:
- MLE 只基于数据的似然函数进行参数估计,不考虑任何先验信息。
- MAP 则通过先验分布 将先验信息纳入估计中,因此 MAP 是贝叶斯估计的一种。
-
适用场景的差异:
- MLE 在大样本情况下表现很好,因为在大样本极限下,观测数据对估计的影响远大于先验。
- MAP 更适合小样本或需要引入先验信息的情况,因为先验可以在样本较少时提供稳定性,避免估计过于依赖有限的观测数据。
-
计算的差异:
- MLE 的目标是最大化似然函数 。
- MAP 的目标是最大化后验概率 ,相当于最大化 。
四、当先验是均匀分布时,MLE 和 MAP 等价
值得注意的是,如果先验分布 是均匀的(即假设所有参数值的先验概率相同),则 是一个常数,这样 MAP 的目标函数就变为:
常数
在这种情况下,最大化 ( 常数) 等价于最大化 ,因此 MAP 和 MLE 会得到相同的结果。
这意味着,在没有先验或先验均匀的情况下,MAP 退化为 MLE。因此,MAP 可以被视为 MLE 的一种推广,它允许我们在估计中融入先验信息。
五、总结
本质区别在于:
- 最大似然估计MLE 只依赖数据的似然,不使用先验,是一种频率派的估计方法。
- 最大后验估计MAP 同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法。
总结公式:
- 最大似然估计MLE:
- 最大后验估计MAP:
在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。