当前位置：首页 > news >正文

分类算法——支持向量机详解

news 2025/12/27 21:16:46

支持向量机（Support Vector Machine, SVM）的底层原理

支持向量机是一种用于分类和回归的强大机器学习算法，最常见的是用于二分类任务。SVM 的核心思想是通过找到一个最优超平面，将数据集划分成不同的类别。SVM 尤其擅长处理高维数据，且能在数据少的情况下提供较好的分类效果。

1. SVM 的基本概念

在 SVM 中，主要有几个核心概念：

超平面（Hyperplane）：在特征空间中划分数据的决策边界。对于二维数据来说，超平面是一条线；对于三维数据来说，超平面是一个平面。
支持向量（Support Vector）：离决策边界最近的样本点。支持向量是定义超平面位置和方向的关键数据点。
间隔（Margin）：支持向量与超平面之间的距离。SVM 通过最大化间隔来优化超平面，使得分类更具泛化能力。

2. 线性可分的情况

在数据线性可分的情况下，支持向量机旨在找到一个超平面来将不同类别的数据完全分开，且间隔最大化。对于一个线性可分的数据集，我们可以用以下决策函数来表示：

$f(x)=w*x+b$

其中， $w$ 是法向量， $b$ 是偏置。我们的目标是使得正负类样本点满足以下条件：

$y_{i}\left ( w*x_{i} + b \right ) \geqslant 1$

为了最大化间隔，我们要最小化 $\left \| w \right \|$ ，即解决以下优化问题：

$min\frac{1}{2}\left \| w \right \|^{2}$

同时满足约束条件：

$y_{i}\left ( w*x_{i} + b \right ) \geqslant 1,i=1, ...,N$

这个优化问题可以通过 拉格朗日乘子法 转化为对偶问题，并使用 SMO 算法或其它优化算法求解。

3. 线性不可分的情况：软间隔与惩罚项

在实际应用中，数据往往并非线性可分。为此，我们引入 软间隔（Soft Margin） 和 惩罚项，允许少量样本出现在错误的分类区域内。

定义松弛变量 ξiξi，表示每个样本点偏离其正确分类的程度。
优化目标变为最小化 $\left \| w \right \|$ 和 $\sum_{i=1}^{N}\xi _{i}$ 的加权和。

优化问题变为：

其中， $C$ 是惩罚系数，平衡间隔最大化与分类错误之间的关系。

4. 核函数（Kernel Function）

当数据在低维空间中不可分时，SVM 通过核函数将数据映射到更高维空间，在更高维度下寻找线性可分的超平面。常用的核函数包括：

线性核：K(x,x′)=x⋅x′
多项式核： $K(x,{x}')=\left ( x*{x}' + c \right )^{d}$
高斯核（RBF 核）：K(x,x′)=exp⁡( $-\gamma \left \| x-{x}' \right \|^{2}$ )
Sigmoid 核：K(x,x′)=tanh⁡(αx⋅x′+c)

核函数的作用是避免直接在高维空间中计算数据点的坐标，通过核技巧（Kernel Trick），可以在低维空间进行计算，降低计算复杂度。

5. SVM 的优化算法

SVM 的优化问题通常会通过 拉格朗日对偶 转换为对偶问题，从而简化求解过程。对于大规模数据集，SMO（Sequential Minimal Optimization） 是常用的优化算法，其基本思想是每次只优化两个变量，使得复杂的约束条件转换为二元约束问题，从而高效求解。

SVM 实现细节：Python 源码分析

在 scikit-learn 中，SVM 算法使用 SVC（支持向量分类）类实现，以下是基于 scikit-learn 的 SVC 类的代码示例：

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np# 加载数据集
iris = datasets.load_iris()
X = iris.data[:, :2]  # 只取两个特征方便可视化
y = iris.target
y = y[y != 2]  # 仅使用两类样本进行二分类
X = X[y != 2]# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 构建 SVM 模型
clf = SVC(kernel='linear', C=1.0)
clf.fit(X_train, y_train)# 打印支持向量
print("支持向量：", clf.support_vectors_)# 预测测试集
y_pred = clf.predict(X_test)# 可视化决策边界
def plot_decision_boundary(clf, X, y):x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),np.arange(y_min, y_max, 0.01))Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])Z = Z.reshape(xx.shape)plt.contourf(xx, yy, Z, alpha=0.8)plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')plt.xlabel('Feature 1')plt.ylabel('Feature 2')plt.title('SVM Decision Boundary')plt.show()plot_decision_boundary(clf, X, y)