当前位置: 首页 > news >正文

李沐_动手学深度学习_模型选择

目录

模型复杂度和拟合程度

模型复杂度:

欠拟合:

过拟合:

优化训练方法:

参数优化算法:

权重衰退和暂退法:解决过拟合问题

前向传播和反向传播和计算图

数值稳定性和模型初始化

环境和分布偏移


模型选择:机器学习科学家,我们的目标是发现模式(pattern)

模型复杂度和拟合程度

模型复杂度:

模型中的参数数量

高阶多项式函数比低阶多项式函数复杂得多。 高阶多项式的参数较多,模型函数的选择范围较广。 因此在固定训练数据集的情况下, 高阶多项式函数相对于低阶多项式的训练误差应该始终更低(最坏也是相等)。

欠拟合:

训练误差和验证误差都很严重, 但它们之间仅有一点差距。 如果模型不能降低训练误差,这可能意味着模型过于简单(即表达能力不足)。、

过拟合:

当我们的训练误差明显低于验证误差时要小心, 这表明严重的过拟合(overfitting)。 注意,过拟合并不总是一件坏事。 特别是在深度学习领域,众所周知, 最好的预测模型在训练数据上的表现往往比在保留(验证)数据上好得多。 最终,我们通常更关心验证误差,而不是训练误差和验证误差之间的差距。

  • 欠拟合是指模型无法继续减少训练误差。过拟合是指训练误差远小于验证误差。

  • 由于不能基于训练误差来估计泛化误差,因此简单地最小化训练误差并不一定意味着泛化误差的减小。机器学习模型需要注意防止过拟合,即防止泛化误差过大。

  • 验证集可以用于模型选择,但不能过于随意地使用它。

  • 我们应该选择一个复杂度适当的模型,避免使用数量不足的训练样本。

优化训练方法:

k折计算:解决训练集合不足的问题

参数优化算法:

基础:梯度下降算法,优化模型参数,手动设置学习率。

其他算法:torch.optim.Adam算法,每个参数都有自己的学习率,

权重衰退和暂退法:解决过拟合问题

weight_decay: 0,1,2 ,表示

dropout:随机减少传播的节点,

前向传播和反向传播和计算图

前向传播:由X计算各个层的节点,

反向传播:计算loss对各层参数(w,b)的梯度的过程叫做反向传播。利用链式求导法则,方向累乘

梯度是一个向量,它描述了多元函数在某一点处的最大变化率的方向。

例子,σw1是对w1的偏导数,(cosα,cosβ)是一个方向,两个参数σw1*cosα+σw2*cosβ就是方向导数,方向导数就是某一方向的导数(变化率),方向导数的最大的方向就是梯度的方向。

数值稳定性和模型初始化

解决:梯度消失和梯度爆炸:

一般中等规模的问题:用正态分布初始化参数(w,b)

其他的初始化方法:Xavier初始化,尽量让输入与输出的方差为相同为1,

Xavier初始化表明,对于每一层,输出的方差不受输入数量的影响,任何梯度的方差不受输出数量的影响

环境和分布偏移

协变量偏移:特征偏移,不同的特征对应同一的标签。

lable偏移:同一输入,标签改变

概念偏移:同一标签对应不同的特征。


http://www.mrgr.cn/news/57195.html

相关文章:

  • 如何开启华为交换机 http
  • 如何解决JMeter响应数据乱码?
  • LeetCode53:最大子数组和
  • 机器学习4
  • 【京准电钟】“安全卫士”:卫星时空安全隔离防护装置
  • Docker基础部署
  • 算法学习5
  • 【Linux】磁盘文件系统(inode)、软硬链接
  • js面试问题笔记(一)
  • HTTPS讲解
  • 基于Springboot的在线考试与学习交流平台的设计与实现
  • Token的组成部分
  • 基于Django的推荐系统、人脸识别登录、微信支付Demo、打卡门禁系统
  • vue3项目开发一些必备的内容,该安装安装,该创建创建
  • 错误0x80070522:客户端没有所需的特权
  • Docker容器间链路管理
  • 物理安全(Physical Security)
  • Vlan和Trunk
  • aeo认证需要什么材料
  • 字节跳动研究人员提出机器人大模型GR-2,具备世界建模和强大泛化能力
  • Java并发编程实战指南:JUC核心类、线程池、线程安全集合与死锁破解
  • HarmonyOS 模块化设计
  • 信息安全工程师(64)其他恶意代码分析与防护
  • Qt/C++学习系列之简单记录1
  • 华为鸿蒙 NEXT系统为什么这么火,招聘岗位有这些可以参考,由于贸易战,技术隔离,技术壁垒等原因,鸿蒙势必与IOS平风秋色!
  • 【Verilog】CRC-24