当前位置：首页 > news >正文

《XGBoost算法的原理推导》12-7损失函数经验损失项二阶泰勒展开式公式解析

news 2025/4/26 17:46:07

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析，便于初学者更好的理解。

我们可以将公式 (12-7) 的损失函数经验损失项部分对照标准的二阶泰勒展开式的形式。
$\approx f(a) + f'(a) (x - a) + \frac{f''(a)}{2} (x - a)^2$

在公式 (12-7) 中，我们的目标是对损失函数 $l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i))$ 进行二阶泰勒展开，在点 $\hat{y}_i^{(t-1)}$ 附近展开。公式 (12-7) 中的损失函数部分可以写为：

$l\left(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)\right) \approx l\left(y_i, \hat{y}_i^{(t-1)}\right) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)$

根据标准的二阶泰勒展开，我们可以逐项对应：

$f (a)$ ：
- 在这里，相当于 $l(y_i, \hat{y}_i^{(t-1)})$ ，即在点 $\hat{y}_i^{(t-1)}$ 处的损失函数值。
- 这相当于泰勒展开中的常数项 $f (a)$ 。
一阶导数项 $f^{'} (a) (x - a)$ ：
- 这里的一阶导数项是 $g_i f_t(x_i)$ ，其中 $g_i = \frac{\partial l(y_i, \hat{y}_i^{(t-1)})}{\partial \hat{y}_i^{(t-1)}}$ 是损失函数在点 $\hat{y}_i^{(t-1)}$ 处的一阶导数。
- 对应的增量 $(x - a)$ 相当于 $f_t(x_i)$ ，表示第 $t$ 轮新模型的预测值。
- 因此，一阶项可以表示为 $g_i f_t(x_i)$ 。
二阶导数项 $\frac{f''(a)}{2} (x - a)^2$ ：
- 这里的二阶导数项是 $\frac{1}{2} h_i f_t^2(x_i)$ ，其中 $h_i = \frac{\partial^2 l(y_i, \hat{y}_i^{(t-1)})}{\partial (\hat{y}_i^{(t-1)})^2}$ 是损失函数在点 $\hat{y}_i^{(t-1)}$ 处的二阶导数。
- 二阶项的形式为 $\frac{1}{2} h_i f_t^2(x_i)$ ，对应于二阶泰勒展开中的二阶导数项 $\frac{f''(a)}{2} (x - a)^2$ 。