当前位置: 首页 > news >正文

模型的评估与选择——交叉验证(基于Python实现)

模型的评估与选择——交叉验证

1. 交叉验证-模拟1

交叉验证是一种用于估计机器学习模型性能的统计方法。它涉及将数据划分为子集,在一些子集上训练模型,并在剩余的子集上验证模型。这个过程会重复多次,以确保模型的性能是一致的,并且不依赖于特定的数据子集。

以下是最常见的交叉验证技术的简要概述:

  1. K折交叉验证:将数据分成k个大小相等的折叠。模型在k-1个折叠上训练,并在剩余的一个折叠上验证。这个过程重复k次,每个折叠恰好用一次作为验证数据。

  2. 留一法交叉验证(LOOCV):k折交叉验证的一种特殊情况,其中k等于数据点的数量。每个数据点恰好用一次作为验证集,模型在剩余的数据上训练。

  3. 分层K折交叉验证:类似于k折交叉验证,但折叠的创建方式使得每个折叠中的类别比例与原始数据集中的比例相同。这对于不平衡数据集特别有用。

  4. 时间序列交叉验证:用于时间序列数据,其中数据点的顺序很重要。数据被分成训练和验证集,方式是尊重时间顺序。

以下是使用scikit-learn在Python中进行k折交叉验证的示例:

import numpy as np
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 样本数据
X = np.random.rand(100, 5)
y = np.random.rand(100)# K折交叉验证
kf = KFold(n_splits=5)
model = LinearRegression()
mse_scores = []for train_index, test_index in kf.split(X):X_train, X_test = X[train_index], X[test_index]y_train, y_test = y[train_index], y[test_index]model.fit(X_train, y_train)y_pred = model.predict(X_test)mse_scores.append(mean_squared_error(y_test, y_pred))print("每个折叠的均方误差:", mse_scores)
print("平均均方误差:", np.mean(mse_scores))

这段代码演示了如何执行k折交叉验证来评估线性回归模型的性能。

#生成数据
# 模拟1
import random
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifiernq=5000
Q=np.empty((50,nq))
for i in range(50):for j in range(nq):Q[i,j]=random.gauss(0,1)
N1=np.zeros(25)
N2=np.ones(25)
N=np.hstack((N1,N2))
random.shuffle(N) #打乱成数组或列表
# 交叉验证
b=np.empty(nq)
nc=100
for i in range(nq):b[i]=np.corrcoef(N,Q[:,i]

http://www.mrgr.cn/news/77769.html

相关文章:

  • git提交
  • 机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构
  • 汽车基础软件AutoSAR自学攻略(四)-AutoSAR CP分层架构(3) (万字长文-配21张彩图)
  • 阿里云Qwen系列大模型:多领域AI应用的创新利器
  • 【Leetcode 每日一题 - 补卡】3298. 统计重新排列后包含另一个字符串的子字符串数目 I
  • Spring Boot3 配合ProxySQL实现对 MySQL 主从同步的读写分离和负载均衡
  • PID运动控制
  • Next.js 独立开发教程(三):CSS 样式的完整指南
  • slab分配器
  • 游戏引擎学习第20天
  • RTPS通信使用的socket和端口
  • Linux各种并发服务器优缺点
  • 12 —— Webpack中向前端注入环境变量
  • 2024 APMCM亚太数学建模C题 - 宠物行业及相关产业的发展分析和策略(详细解题思路)
  • IDEA算法的详细介绍及Python实现
  • 2024 APMCM亚太数学建模C题 - 宠物行业及相关产业的发展分析和策略 (python 代码+matlab代码)
  • 乐理的学习(和弦)
  • c++11的动态类型
  • 二叉树相关OJ题练习
  • 2024 APMCM亚太数学建模C题 - 宠物行业及相关产业的发展分析和策略 完整参考论文(1)
  • DrissionPage爬虫工具教程
  • Node基本使用
  • java学习记录12
  • <OS 有关> ubuntu 24 不同版本介绍 安装 Vmware tools
  • 项目实践----springboot中设计基于Redisson的分布式锁注解
  • 实用功能,觊觎(Edge)浏览器的内置截(长)图功能