线性判别分析 (LDA)中目标函数的每个部分的具体说明
公式:
F = ∥ w T μ 0 − w T μ 1 ∥ 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w F = \frac{\left\| w^T \mu_0 - w^T \mu_1 \right\|_2^2}{w^T \Sigma_0 w + w^T \Sigma_1 w} = \frac{w^T (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T w}{w^T (\Sigma_0 + \Sigma_1) w} F=wTΣ0w+wTΣ1w wTμ0−wTμ1 22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw
符号说明:
-
F F F:
这是目标函数,代表我们要最大化的值。LDA 的核心目标是找到一个投影向量 w w w,使得类间距离最大化、类内散度最小化。这个函数的最大化表示最佳投影方向。 -
w w w:
投影向量(或称权重向量),它是我们要优化的对象。这个向量定义了将高维数据投影到低维(通常是一维)时的方向。通过选择合适的 w w w,我们能够更好地区分不同的类。 -
μ 0 \mu_0 μ0 和 μ 1 \mu_1 μ1:
分别是类 0 和类 1 的均值向量。这些向量表示每个类样本的中心点或平均位置。- μ 0 \mu_0 μ0:类 0 的样本均值(一个列向量)。
- μ 1 \mu_1 μ1:类 1 的样本均值(一个列向量)。
-
Σ 0 \Sigma_0 Σ0 和 Σ 1 \Sigma_1 Σ1:
分别是类 0 和类 1 的协方差矩阵,它们表示类内散布的情况。协方差矩阵描述了类内样本的分散性和相关性。- Σ 0 \Sigma_0 Σ0:类 0 的协方差矩阵。
- Σ 1 \Sigma_1 Σ1:类 1 的协方差矩阵。
-
w T w^T wT:
w T w^T wT 是 w w w 的转置,它是一个行向量(1×n),与列向量相乘时可以计算出标量。转置表示将列向量 w w w 转化为行向量。 -
w T μ 0 − w T μ 1 w^T \mu_0 - w^T \mu_1 wTμ0−wTμ1:
这是类 0 和类 1 的均值向量在方向 w w w 上的投影差,表示两类中心在投影方向上的距离。通过找到最合适的 w w w,我们希望这个投影差(类间差异)尽可能大。 -
∥ w T μ 0 − w T μ 1 ∥ 2 2 \left\| w^T \mu_0 - w^T \mu_1 \right\|_2^2 wTμ0−wTμ1 22:
这是类 0 和类 1 均值投影差的欧氏距离的平方。它表示两个类中心在投影方向上的差异,用于度量类间散度。 ∥ ⋅ ∥ 2 \left\| \cdot \right\|_2 ∥⋅∥2 是 L2 范数(欧氏距离)。 -
( μ 0 − μ 1 ) (\mu_0 - \mu_1) (μ0−μ1) 和 ( μ 0 − μ 1 ) T (\mu_0 - \mu_1)^T (μ0−μ1)T:
- μ 0 − μ 1 \mu_0 - \mu_1 μ0−μ1 是类 0 和类 1 的均值向量差,它表示两个类的中心点之间的差异。
- ( μ 0 − μ 1 ) T (\mu_0 - \mu_1)^T (μ0−μ1)T 是该差向量的转置,它与 w w w 的乘积用于表示类间差异的矩阵形式。
-
w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w^T (\mu_0 - \mu_1)(\mu_0 - \mu_1)^T w wT(μ0−μ1)(μ0−μ1)Tw:
这表示的是类间散度的矩阵形式。通过这个表达式,我们能够将类间的中心差异转化为矩阵运算,以方便后续的优化计算。 -
w T Σ 0 w w^T \Sigma_0 w wTΣ0w 和 w T Σ 1 w w^T \Sigma_1 w wTΣ1w:
这是类 0 和类 1 的协方差矩阵在方向 w w w 上的投影,表示类内散度。通过找到合适的 w w w,我们希望类内散度尽可能小。 -
w T ( Σ 0 + Σ 1 ) w w^T (\Sigma_0 + \Sigma_1) w wT(Σ0+Σ1)w:
这是类内散度的总和(类 0 和类 1 的协方差矩阵之和),它表示了数据在方向 w w w 上的总散度。我们希望这个值最小,以确保同类数据尽可能聚集在一起。
总结:
- 分子部分:表示类间差异,目的是最大化两类中心在投影方向上的距离。
- 分母部分:表示类内散布,目的是最小化每类数据在投影方向上的分散性。
这个公式是线性判别分析(LDA)的优化目标函数。通过最大化该函数,我们能够找到一个最佳的投影方向 w w w,使得不同类之间的区分度最大,而类内的样本尽可能聚集。