当前位置: 首页 > news >正文

[机器学习] 监督学习之线性回归与逻辑回归

这里写目录标题

    • 一、监督学习概述
    • 二、线性回归
      • (一)模型表示
      • (二)损失函数
      • (三)梯度下降算法
      • 导入所需库
      • 生成模拟数据(可替换为真实数据)
      • 初始化参数并进行训练
      • 可视化损失函数随迭代次数的变化情况(可选,用于查看训练效果)
      • 使用训练好的模型进行预测(示例预测新的样本,这里可根据实际需求调整)
    • 三、逻辑回归
      • (一)模型表示
      • (二)损失函数
      • (三)梯度下降与参数更新
    • 四、模型评估指标
      • (一)回归问题评估指标
      • (二)分类问题评估指标
    • 五、过拟合与欠拟合
    • 六、正则化

一、监督学习概述

监督学习是利用有标记的数据进行模型训练,使模型能够对未知数据进行预测。训练数据包含输入特征(通常用 (x) 表示)和对应的输出标签(通常用 (y) 表示)。其主要任务可分为回归(预测连续值)和分类(预测离散类别)。

二、线性回归

(超爽中英!) 2024公认最好的【吴恩达机器学习】教程!附课件代码 Machine Learning Specialization

(一)模型表示

单变量线性回归模型: h θ ( x ) = θ 0 + θ 1 x h_{\theta}(x)=\theta_{0}+\theta_{1}x hθ(x)=θ0+θ1x,其中 θ 0 \theta_{0} θ0 为截距, θ 1 \theta_{1} θ1 为斜率。

from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt# 生成模拟数据(这里简单地使用线性关系加一些噪声来模拟)
np.random.seed(0)
x = np.linspace(0, 10, 100).reshape(-1, 1)  # 生成100个在0到10之间均匀分布的x值,并转换为列向量
theta_0_true = 2  # 真实的截距
theta_1_true = 3  # 真实的斜率
y_true = theta_0_true + theta_1_true * x
y = y_true + np.random.normal(0, 2, size=(100, 1))  # 添加一些正态分布的噪声模拟实际观测值# 创建线性回归模型对象并拟合数据
model = LinearRegression()
model.fit(x, y)# 获取拟合的参数
theta_0_fit = model.intercept_[0]
theta_1_fit = model.coef_[0][0]# 定义预测函数(其实可以直接使用model.predict方法进行预测,这里只是为了形式统一展示)
def h_theta(x, theta_0, theta_1):"""根据拟合的参数进行预测"""return theta_0 + theta_1 * x# 使用拟合的模型进行预测
y_pred = h_theta(x, theta_0_fit, theta_1_fit)# 可视化数据和拟合的直线
plt.scatter(x, y, label='Observed Data')
plt.plot(x, y_pred, color='r', label='Fitted Line')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Linear Regression')
plt.legend()
plt.show()

代码中,使用了 sklearn 库中的 LinearRegression 类来拟合线性回归模型,它内部已经实现了高效的最小二乘法计算等逻辑,通过调用 fit 方法传入输入特征 x 和目标值 y 就可以完成模型的拟合,然后可以通过 intercept_ 属性获取截距(对应 theta_0),通过 coef_ 属性获取系数(对应 theta_1)
在这里插入图片描述

多变量线性回归模型: h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n = θ T x h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\cdots+\theta_{n}x_{n}=\theta^{T}x hθ(x)=θ0+θ1x1+θ2x2++θnxn=θTx,这里 x = [ 1 x 1 x 2 ⋮ x n ] x = \begin{bmatrix} 1 \\ x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} x= 1x1x2xn , θ = [ θ 0 θ 1 θ 2 ⋮ θ n ] \theta = \begin{bmatrix} \theta_{0} \\ \theta_{1} \\ \theta_{2} \\ \vdots \\ \theta_{n} \end{bmatrix} θ= θ0θ1θ2θn

(二)损失函数

损失函数衡量了当前模型预测值与真实目标值之间的差异程度。

均方误差损失函数: J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta)=\frac{1}{2m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2} J(θ)=2m1i=1m(hθ(x(i))y(i))2,其中 (m) 为训练样本数量, x ( i ) x^{(i)} x(i) y ( i ) y^{(i)} y(i) 分别是第 (i) 个训练样本的特征和标签。

def compute_loss(x, y, theta):"""计算均方误差损失函数。参数:x: 特征矩阵,形状为 (m, n+1),m是样本数量,n是特征数量(包含常数项1对应的列)y: 目标值向量,形状为 (m, 1)theta: 参数向量,形状为 (n+1, 1)返回:loss: 计算得到的均方误差损失值"""m = x.shape[0]predictions = np.dot(x, theta)loss = np.sum((predictions - y) ** 2) / (2 * m)return loss

(三)梯度下降算法

梯度下降算法,在每次迭代中,根据当前参数下预测值与真实值的误差来计算梯度,进而按照学习率alpha更新参数theta,同时记录每次迭代的损失值到loss_history列表中,这样可以后续查看损失函数的收敛情况。

参数更新公式: θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}} θj:=θjαθjJ(θ)

对于单变量线性回归:
∂ J ( θ ) ∂ θ 0 = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) \frac{\partial J(\theta)}{\partial\theta_{0}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)}) θ0J(θ)=m1i=1m(hθ(x(i))y(i))
∂ J ( θ ) ∂ θ 1 = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) \frac{\partial J(\theta)}{\partial\theta_{1}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x^{(i)} θ1J(θ)=m1i=1m(hθ(x(i))y(i))x(i)

对于多变量线性回归:
∂ J ( θ ) ∂ θ j = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)} θjJ(θ)=m1i=1m(hθ(x(i))y(i))xj(i) j = 0 , 1 , ⋯ , n j = 0, 1,\cdots,n j=0,1,,n,其中 α \alpha α为学习率,控制每次参数更新的步长。

定义梯度下降训练函数(多变量)

def gradient_descent(x, y, theta, alpha, num_iters):"""使用梯度下降算法来更新线性回归的参数theta。参数:x: 特征矩阵,形状为 (m, n+1),m是样本数量,n是特征数量(包含常数项1对应的列)y: 目标值向量,形状为 (m, 1)theta: 参数向量,初始值,形状为 (n+1, 1)alpha: 学习率,控制每次更新的步长num_iters: 迭代次数返回:theta: 经过多次迭代更新后的参数向量loss_history: 每次迭代对应的损失值历史记录,用于查看训练过程损失变化情况"""m = x.shape[0]loss_history = []for _ in range(num_iters):error = np.dot(x, theta) - ygradient = np.dot(x.T, error) / mtheta -= alpha * gradientloss = compute_loss(x, y, theta)loss_history.append(loss)return theta, loss_history

实践
以下是使用Python实践多变量线性回归模型(通过梯度下降法训练参数θ)的完整示例代码,包含了数据生成、模型训练以及预测的过程。

导入所需库

import numpy as np
import matplotlib.pyplot as plt

生成模拟数据(可替换为真实数据)

# 设置随机种子,保证结果可复现
np.random.seed(0)
# 样本数量
m = 100
# 特征数量(不包含截距项对应的特征,这里设为2个特征)
n = 2
# 生成特征矩阵,添加一列全为1的列作为截距项对应的特征
x = np.column_stack((np.ones(m), np.random.rand(m, n)))
# 真实的参数(用于生成模拟的目标值,实际中是未知的)
true_theta = np.array([[2], [3], [4]])
# 生成目标值,添加一些随机噪声模拟真实情况
y = np.dot(x, true_theta) + np.random.randn(m, 1) * 0.5

初始化参数并进行训练

# 初始化theta参数,初始化为全0向量(形状要与特征数量对应,包含截距项对应的参数)
theta_initial = np.zeros((n + 1, 1))
# 学习率
alpha = 0.01
# 迭代次数
num_iters = 1000
# 执行梯度下降训练
theta_trained, loss_history = gradient_descent(x, y, theta_initial, alpha, num_iters)

可视化损失函数随迭代次数的变化情况(可选,用于查看训练效果)

plt.plot(loss_history)
plt.xlabel('Iterations')
plt.ylabel('Loss')
plt.title('Loss Function Convergence')
plt.show()

在这里插入图片描述
迭代次数达到一个值后, 预测值与真实目标值之间的差异程度出现拐点。后面的迭代没有什么成效了。

使用训练好的模型进行预测(示例预测新的样本,这里可根据实际需求调整)

# 生成新的样本数据(这里简单示例,可按需修改)
new_x = np.array([[1, 0.5, 0.6]])
# 进行预测
prediction = np.dot(new_x, theta_trained)
print("预测结果:", prediction)

预测结果: [[5.78208147]]

在上述代码中:

  1. 首先通过numpy库生成了模拟的特征矩阵x和对应的目标值y,模拟了一个多变量线性回归的数据场景,其中真实的参数true_theta是我们自己设定的,但实际应用中是未知的,需要通过训练去估计。
  2. 接着定义了计算损失函数(均方误差)的函数compute_loss,它衡量了当前模型预测值与真实目标值之间的差异程度,是评估模型好坏以及指导梯度下降训练的重要指标。
  3. 然后定义了gradient_descent函数,它实现了梯度下降算法,在每次迭代中,根据当前参数下预测值与真实值的误差来计算梯度,进而按照学习率alpha更新参数theta,同时记录每次迭代的损失值到loss_history列表中,这样可以后续查看损失函数的收敛情况。
  4. 之后初始化了参数theta,设定了学习率和迭代次数,调用gradient_descent函数进行训练,得到训练好的参数theta_trained以及损失值的变化记录loss_history,并通过matplotlib库可视化了损失值随迭代次数的变化,直观查看训练的收敛效果。
  5. 最后,使用训练好的模型对新的样本数据进行预测,展示了模型的应用过程。

三、逻辑回归

(一)模型表示

逻辑回归用于二分类问题,模型假设函数: h θ ( x ) = 1 1 + e − θ T x h_{\theta}(x)=\frac{1}{1 + e^{-\theta^{T}x}} hθ(x)=1+eθTx1,其输出值表示样本属于正类的概率。

(二)损失函数

对数损失函数: J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) ln ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) ln ⁡ ( 1 − h θ ( x ( i ) ) ) ] J(\theta)=-\frac{1}{m}\sum_{i = 1}^{m}[y^{(i)}\ln(h_{\theta}(x^{(i)}))+(1 - y^{(i)})\ln(1 - h_{\theta}(x^{(i)}))] J(θ)=m1i=1m[y(i)ln(hθ(x(i)))+(1y(i))ln(1hθ(x(i)))]

(三)梯度下降与参数更新

参数更新同样使用梯度下降算法,其梯度计算为:
∂ J ( θ ) ∂ θ j = 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J(\theta)}{\partial\theta_{j}}=\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)} θjJ(θ)=m1i=1m(hθ(x(i))y(i))xj(i)),然后按照 θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_{j}:=\theta_{j}-\alpha\frac{\partial J(\theta)}{\partial\theta_{j}} θj:=θjαθjJ(θ) 更新参数。

四、模型评估指标

(一)回归问题评估指标

  • 均方误差(MSE) M S E = 1 m ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 MSE=\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2} MSE=m1i=1m(ypred(i)y(i))2
  • 均方根误差(RMSE) R M S E = 1 m ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 RMSE=\sqrt{\frac{1}{m}\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}} RMSE=m1i=1m(ypred(i)y(i))2
  • 平均绝对误差(MAE) M A E = 1 m ∑ i = 1 m ∣ y p r e d ( i ) − y ( i ) ∣ MAE=\frac{1}{m}\sum_{i = 1}^{m}\vert y_{pred}^{(i)}-y^{(i)}\vert MAE=m1i=1mypred(i)y(i)
  • (R^{2}) 分数 R 2 = 1 − ∑ i = 1 m ( y p r e d ( i ) − y ( i ) ) 2 ∑ i = 1 m ( y ( i ) − y ˉ ) 2 R^{2}=1-\frac{\sum_{i = 1}^{m}(y_{pred}^{(i)}-y^{(i)})^{2}}{\sum_{i = 1}^{m}(y^{(i)}-\bar{y})^{2}} R2=1i=1m(y(i)yˉ)2i=1m(ypred(i)y(i))2,其中 y ˉ \bar{y} yˉ y ( i ) y^{(i)} y(i) 的均值。

(二)分类问题评估指标

  • 准确率(Accuracy) A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN,其中 T P TP TP(True Positive)为真阳性, T N TN TN(True Negative)为真阴性,(FP)(False Positive)为假阳性,(FN)(False Negative)为假阴性。
  • 精确率(Precision) P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP + FP} Precision=TP+FPTP
  • 召回率(Recall) R e c a l l = T P T P + F N Recall=\frac{TP}{TP + FN} Recall=TP+FNTP
  • (F1) 分数 F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1=\frac{2\times Precision\times Recall}{Precision + Recall} F1=Precision+Recall2×Precision×Recall
  • ROC 曲线与 AUC 值:ROC 曲线以假阳性率( F P R = F P T N + F P FPR=\frac{FP}{TN + FP} FPR=TN+FPFP)为横轴,真阳性率( T P R = T P T P + F N TPR=\frac{TP}{TP + FN} TPR=TP+FNTP)为纵轴绘制。AUC(Area Under the Curve)值是 ROC 曲线下的面积,AUC 值越大,模型分类性能越好。

五、过拟合与欠拟合

  • 过拟合:模型过于复杂,在训练数据上表现很好,但在测试数据上表现不佳,泛化能力差,可能是对训练数据中的噪声和细节过度拟合。
  • 欠拟合:模型过于简单,无法捕捉数据中的模式和规律,在训练数据上表现就不理想。

六、正则化

  • L1 正则化 J ( θ ) = J 0 ( θ ) + λ ∑ j = 1 n ∣ θ j ∣ J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\vert\theta_{j}\vert J(θ)=J0(θ)+λj=1nθj,其中 J 0 ( θ ) J_{0}(\theta) J0(θ) 是原始损失函数, λ \lambda λ 为正则化参数。L1 正则化可导致部分参数为 0,实现特征选择,使模型稀疏。
  • L2 正则化(岭回归) J ( θ ) = J 0 ( θ ) + λ ∑ j = 1 n θ j 2 J(\theta)=J_{0}(\theta)+\lambda\sum_{j = 1}^{n}\theta_{j}^{2} J(θ)=J0(θ)+λj=1nθj2。L2 正则化能防止过拟合,使参数值相对较小,模型更平滑。

正则化后的梯度下降更新公式,对于 L1 正则化:
θ j : = θ j − α ( 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) + λ m sgn ( θ j ) ) \theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{\lambda}{m}\text{sgn}(\theta_{j})\right) θj:=θjα(m1i=1m(hθ(x(i))y(i))xj(i)+mλsgn(θj)) sgn ( θ j ) \text{sgn}(\theta_{j}) sgn(θj) θ j \theta_{j} θj 的符号函数。

对于 L2 正则化:
θ j : = θ j − α ( 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) + 2 λ m θ j ) \theta_{j}:=\theta_{j}-\alpha\left(\frac{1}{m}\sum_{i = 1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}+\frac{2\lambda}{m}\theta_{j}\right) θj:=θjα(m1i=1m(hθ(x(i))y(i))xj(i)+m2λθj)


http://www.mrgr.cn/news/79465.html

相关文章:

  • MySQL 内置函数
  • 微信小程序开发之tcp客户端开发
  • Qwen 论文阅读记录
  • bash 判断内存利用率是否高于60%
  • 期权懂|如何用第三方平台开通期权?
  • 从零用java实现 小红书 springboot vue uniapp (2)主页优化
  • C++ 完美转发和左值右值
  • 利用高德地图API,如何在PHP与vue3中实现地图缩放功能
  • UE5.5 Geometry库平面切割原理分析
  • Vue3+Vite+ElementPlus 构建 笔记
  • 深入理解 Spring MVC 中的 @RequestBody 注解
  • AI职位对项目经验有哪些具体要求?
  • 【力扣】647.回文子串
  • 【论文相关】期刊/会议 信息检索——IEEE各期刊投稿要求(待完善)
  • leetcode399:除法求值
  • AGCRN论文解读
  • 【调试工具】USB 转 UART 适配器(USB 转 TTL)
  • 【数字电路与逻辑设计】实验五 4人表决器
  • Javascript Clipper library, v6(介绍目录)
  • 代码整洁之道学习
  • 「Mac玩转仓颉内测版44」小学奥数篇7 - 二元一次方程组求解
  • C#加速Bitmap存图
  • Linux网络编程之---组播和广播
  • 【数字电路与逻辑设计】实验一 序列检测器
  • 阻塞队列详解
  • 文件IO——01