DataWhale X 南瓜书学习笔记 task03笔记
对数几率回归
- 使用场景:分类任务。
- 根据广义线性模型,分类任务构建模型的基本思想:找到一个单调可微函数将分类任务的真实标记(值)与线性回归模型的预测值联系起来。
对数几率回归的引入
二分类任务
- 输出标记:y{0,1}
- 线性模型产生的预测值(实数值)=>二分类任务的输出标记,我们需要单位阶跃函数
- 单位阶跃函数如下:
从图3.2可看出,单位阶跃函数不连续,而广义线性模型中的g(.)是连续函数,如果要构建线性模型,单位阶跃函数肯定是不行的,但是我们又特别需要单位阶跃函数的特性,故而找到了对数几率函数。
对数几率函数的正篇
- 对数几率函数的原始形式:
- 对数几率函数的特性:
- 将z值=>接近0/1的y值
- y值在z=0附近变化很陡
- 任意阶可导的凸函数
- 对数几率函数作为g(.)代入广义线性函数:
- (3.18 )式变成严格的线性函数形式:
我们可视为样本x作为正例的可能性,则1-y是其反例可能性,2者的比值:
(3.20)式称为”几率“,再取对就是(3.19)的左式。
确定(3.18)中的w和b:
若将式(3.18)中的y视为类后验概率估计p(y = 1| x),则式(3.19)可重写为:
通过”极大似然法“估计w和b:
在对率回归模型最大化“对数似然”如下:
由(3.25)式,我们可知令每个样本属于其真实标记的概率越大越好。
为了便于讨论,令=(w:b),
- 对数几率函数的优点:
- 直接对分类可能性进行建模,无需事先假设数据分布。
- 不仅是预测出”类别“,而且是得到近似概率预测,对利用概率辅助决策的任务很有用。