当前位置: 首页 > news >正文

模型训练二三事:参数个数、小批量、学习率衰减、输入形状

目录

获取torch参数总数

方法一:使用torch.nn.Module的parameters()方法

方法二:使用state_dict()方法

迷你batch

什么是Mini-Batch?

如何在PyTorch中使用Mini-Batch?

不指定batchsize

没有标签ytrain

即使没有标签(y_train),

与epoch兼容

学习率的衰减

1. 使用torch.optim.lr_scheduler模块

StepLR

ExponentialLR

StepLR

ExponentialLR

对比

ReduceLROnPlateau

2. 自定义学习率衰减

输入形状


获取torch参数总数

在PyTorch中,要获取一个模型的参数总数,可以使用以下命令:

total_params = sum(p.numel() for p in model.parameters())

这里,model 是你的模型实例。model.parameters() 返回模型中所有参数的迭代器,p.numel() 返回单个参数的元素总数。sum 函数用来将这些数目加起来得到总的参数个数。

如果你还想要区分可训练参数和固定参数(比如批量归一化的统计量),可以分别计算:

trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
non_trainable_params = sum(p.numel() for p in model.parameters() if not p.requires_grad)

这样你就能得到模型中可训练参数和不可训练参数的数量。

第二个答案

在PyTorch中,计算一个模型的参数数量可以通过以下几种方式:

方法一:使用torch.nn.Moduleparameters()方法

import torch
import torch.nn as nn# 定义一个简单的模型
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.conv1 = nn.Conv2d(1, 10, kernel_size=5)self.conv2 = nn.Conv2d(10, 20, kernel_size=5)self.fc1 = nn.Linear(320, 50)self.fc2 = nn.Linear(50, 10)def forward(self, x):x = torch.relu(torch.max_pool2d(self.conv1(x), 2))x = torch.relu(torch.max_pool2d(self.conv2(x), 2))x = x.view(-1, 320)x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 实例化模型
model = SimpleModel()# 计算参数数量
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"模型参数数量: {num_params}")

方法二:使用state_dict()方法

# 计算参数数量
num_params = sum(p.numel() for p in model.state_dict().values() if p.requires_grad)
print(f"模型参数数量: {num_params}")

以上两种方法都可以正确计算出模型中可训练参数的数量。requires_grad参数用于判断是否为可训练的参数。如果你想要计算所有的参数(包括不可训练的参数),可以去掉if p.requires_grad这部分条件判断。

迷你batch

在深度学习中,mini-batch是一种常用的数据处理方法,它涉及将整个数据集分成多个较小的批次(batches),然后逐个批次地训练模型。PyTorch是一个流行的开源深度学习框架,它支持mini-batch的实现。

什么是Mini-Batch?

  • 定义:Mini-batch是指将数据集分割成较小的子集,每个子集包含一定数量的样本。这些子集通常远小于整个数据集的大小。
  • 目的:使用mini-batch的主要目的是为了内存效率和计算效率。如果一次性处理整个数据集,可能会因为内存不足而无法进行训练。同时,使用mini-batch可以利用矩阵运算的并行化,加速训练过程。

如何在PyTorch中使用Mini-Batch?

以下是使用PyTorch进行mini-batch训练的基本步骤:

  1. 准备数据集:首先,你需要一个数据集。PyTorch提供了torch.utils.data.Dataset类,你可以通过继承这个类来创建自己的数据集。

  2. 数据加载器:使用torch.utils.data.DataLoader类来创建一个数据加载器。这个类负责将数据集分割成mini-batches,并提供一个迭代器,可以用来在训练循环中遍历这些批次。

下面是一个使用PyTorch进行mini-batch训练的简单例子:

import torch
from torch.utils.data import DataLoader, TensorDataset# 假设我们有一些数据和标签
X_train = torch.randn(100, 3, 32, 32)  # 100个样本,每个样本3x32x32
y_train = torch.randint(0, 10, (100,))  # 100个样本的标签# 创建一个TensorDataset对象
train_dataset = TensorDataset(X_train, y_train)# 创建DataLoader。这里设置batch_size为10,意味着每个mini-batch将包含10个样本
train_loader = DataLoader(dataset=train_dataset, batch_size=10, shuffle=True)# 训练模型
for epoch in range(num_epochs):for batch_idx, (data, target) in enumerate(train_loader):# 在这里进行模型的训练,例如:# output = model(data)# loss = loss_function(output, target)# optimizer.zero_grad()# loss.backward()# optimizer.step()pass  # 替换为实际的训练代码

在上面的代码中,DataLoaderbatch_size参数决定了每个mini-batch的大小。shuffle=True表示在每个epoch开始时,数据会被重新打乱,以确保模型不会在训练过程中记住数据的顺序。

通过这种方式,你可以有效地利用PyTorch进行基于mini-batch的深度学习模型训练。

不指定batchsize

在PyTorch中,如果你不指定DataLoaderbatch_size参数,它的默认值是1。这意味着如果没有指定batch_sizeDataLoader将默认每次迭代返回一个样本的数据和标签,而不是一次处理整个数据集或随机选取一个样本。

以下是DataLoader的默认参数:

  • batch_size: 默认为1
  • shuffle: 默认为False,即不会在每个epoch开始时打乱数据
  • sampler: 默认为None,但如果指定了sampler,那么shuffle必须为False
  • batch_sampler: 默认为None,如果指定了batch_sampler,则batch_sizeshufflesampler, 和 drop_last都不会起作用

因此,如果你不指定batch_size,你的训练循环将一次处理一个样本,这通常是不高效的,因为深度学习模型通常从并行处理多个样本中获益。以下是一个例子,展示了如果不指定batch_sizeDataLoader的行为:

import torch
from torch.utils.data import DataLoader, TensorDataset# 假设我们有一些数据和标签
X_train = torch.randn(100, 3, 32, 32)  # 100个样本,每个样本3x32x32
y_train = torch.randint(0, 10, (100,))  # 100个样本的标签# 创建一个TensorDataset对象
train_dataset = TensorDataset(X_train, y_train)# 创建DataLoader,没有指定batch_size
train_loader = DataLoader(dataset=train_dataset)# 训练模型
for epoch in range(num_epochs):for batch_idx, (data, target) in enumerate(train_loader):# 在这里,data和target将只包含一个样本# ...pass  # 替换为实际的训练代码

在上面的例子中,datatarget在每个迭代中都会包含一个样本。如果你希望一次处理多个样本,你应该显式地设置batch_size参数。

没有标签ytrain

在PyTorch中,如果你想要构造一个没有标签的TensorDataset,你可以只传入数据(x_train)而不需要标签。以下是如何操作的步骤:

  1. 首先,确保你的数据x_train是一个torch.Tensor

  2. 使用torch.utils.data.TensorDataset来创建一个数据集。由于你不需要标签,你可以传入x_train和一个与x_train相同形状的全零张量作为占位符。

下面是一个示例代码:

import torch
from torch.utils.data import TensorDataset, DataLoader# 假设 x_train 是你的数据,它是一个形状为 [num_samples, num_features] 的张量
x_train = torch.randn(100, 10)  # 示例数据# 创建一个与 x_train 相同形状的全零张量作为占位符
no_labels = torch.zeros(100, 10)  # 假设你不需要标签,这里只是占位# 创建 TensorDataset,这里 no_labels 不会被使用
dataset = TensorDataset(x_train, no_labels)# 创建 DataLoader
dataloader = DataLoader(dataset, batch_size=10, shuffle=True)# 使用 DataLoader
for data in dataloader:# data 是一个元组,包含数据和标签,但由于没有标签,你可以忽略第二个元素inputs = data[0]  # 这就是你的 x_train 数据# 进行你的模型训练或其他操作

在这个例子中,no_labels张量不会被实际使用,它仅仅是为了构造TensorDataset实例。在迭代DataLoader时,你可以直接使用data[0]来获取你的输入数据。如果你确定不需要标签,也可以通过切片操作来只获取数据部分:

for inputs in dataloader:# inputs 直接是你的 x_train 数据# 进行你的模型训练或其他操作

这样,你就可以在不使用标签的情况下使用TensorDatasetDataLoader了。

即使没有标签(y_train),

你也可以在PyTorch中实现迷你批次(mini-batch)训练。以下是如何使用DataLoader来创建一个只有输入数据(x_train)的迷你批次的过程:

  1. 首先,确保你的输入数据x_train是一个torch.Tensor

  2. 使用torch.utils.data.TensorDataset来创建一个数据集,传入x_train和一个与x_train相同形状的全零张量作为占位符(如果你不想使用标签)。

  3. 使用DataLoader来包装你的TensorDataset,并通过设置batch_size参数来定义每个批次的大小。

下面是一个示例代码:

import torch
from torch.utils.data import TensorDataset, DataLoader# 假设 x_train 是你的输入数据,它是一个形状为 [num_samples, num_features] 的张量
x_train = torch.randn(100, 10)  # 示例数据# 创建一个与 x_train 相同形状的全零张量作为占位符
# 如果你不需要标签,这个张量实际上不会被使用
no_labels = torch.zeros(100, 10)# 创建 TensorDataset,这里 no_labels 不会被使用
dataset = TensorDataset(x_train, no_labels)# 创建 DataLoader,设置 batch_size 来定义每个批次的大小
batch_size = 32  # 你可以根据需要调整批次大小
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)# 使用 DataLoader 来进行迷你批次训练
for inputs in dataloader:# 由于没有标签,inputs 将只包含输入数据# inputs 的形状将是 [batch_size, num_features]# 这里是模型训练的伪代码# outputs = model(inputs)  # 前向传播# loss = loss_function(outputs)  # 计算损失(这里没有标签,所以损失函数需要自行定义)# loss.backward()  # 反向传播# optimizer.step()  # 更新权重

在这个例子中,DataLoader会自动将x_train分成指定大小的迷你批次,并且每个批次都会在训练循环中被迭代。由于没有标签,你可能需要定义一个不需要标签的损失函数,例如自编码器(autoencoder)中的重构误差,或者使用无监督学习的方法。

注意,如果你不打算使用标签,并且不需要第二个元素,你可以简化for循环中的代码,直接从DataLoader中获取输入数据:

 input,占位符_

for inputs, _ in dataloader:# 这里只使用 inputs,忽略 _# 进行模型训练或其他操作

在这个简化的版本中,下划线(_)是一个常见的Python约定,用于表示一个不需要的变量。

与epoch兼容

要在训练过程中同时实现多个epoch和mini-batch,你可以使用PyTorch的DataLoader来处理mini-batch,并在一个外部循环中迭代多个epoch。以下是一个示例代码,展示了如何实现这个过程:

import torch
from torch.utils.data import TensorDataset, DataLoader# 假设 x_train 和 y_train 是你的输入数据和标签
# x_train = torch.randn(batch_size, num_features)
# y_train = torch.randn(batch_size, num_targets)# 创建 TensorDataset
dataset = TensorDataset(x_train, y_train)# 创建 DataLoader
batch_size = 32  # 你可以根据需要设置batch_size
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)# 初始化你的模型
# model = YourModel()# 选择一个优化器
# optimizer = torch.optim.Adam(model.parameters(), lr=0.001)# 选择一个损失函数
# loss_function = torch.nn.MSELoss()  # 例如,对于回归问题# 训练模型
for epoch in range(1000):for inputs, targets in dataloader:# 前向传播outputs = model(inputs)# 计算损失loss = loss_function(outputs, targets)# 反向传播和优化optimizer.zero_grad()  # 清空过往梯度loss.backward()        # 反向传播,计算当前梯度optimizer.step()       # 根据梯度更新网络参数# 在每个epoch后可以打印损失,进行验证等print(f'Epoch {epoch+1}/{1000}, Loss: {loss.item()}')

在这个例子中,外层循环 for epoch in range(1000): 负责迭代1000个epochs。内层循环 for inputs, targets in dataloader: 负责在每个epoch内进行mini-batch的训练。

注意,这里假设你已经有了 x_train 和 y_train 数据,并且已经定义了模型、优化器和损失函数。你需要根据你的具体任务来调整这些组件。此外,shuffle=True 参数确保在每个epoch开始时数据会被重新打乱,这有助于模型的泛化能力。

学习率的衰减

可以自己写模块,也可以掉包

在训练深度学习模型时,学习率的衰减是一种常用的策略,可以帮助模型在训练过程中更好地收敛。学习率衰减意味着随着训练的进行,学习率会逐渐减小,这有助于模型在训练初期快速学习,并在训练后期精细调整参数以避免过拟合。

在PyTorch中,可以使用以下几种方法来实现学习率的衰减:

1. 使用torch.optim.lr_scheduler模块

lr_scheduler模块旗下有指数衰减、等策略

PyTorch提供了lr_scheduler模块,其中包含了几种预定义的学习率衰减策略。以下是一些常用的学习率衰减方法:

StepLR

v

import torch.optim as optim# 初始化优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)# 初始化学习率调度器
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)# 训练循环
for epoch in range(num_epochs):# 训练代码...scheduler.step()  # 更新学习率

StepLR中,step_size是学习率衰减的周期,gamma是衰减率。

ExponentialLR

scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.98)

ExponentialLR会以指数方式衰减学习率,gamma是衰减率。

就是是否要等待多少步的区别

ExponentialLRStepLR是PyTorch中两种不同的学习率衰减策略,它们的主要区别在于学习率衰减的方式:

StepLR

  • 衰减方式StepLR按照固定的间隔(步长)来减少学习率。在每个指定的步长结束后,学习率会乘以一个固定的衰减因子(gamma)。
  • 参数
    • step_size:学习率更新的周期,即每过多少个epoch后学习率乘以gamma
    • gamma:学习率衰减的乘数因子。
  • 特点:学习率的衰减是离散的,即在特定的epoch数之后学习率会突然减少。

ExponentialLR

  • 衰减方式ExponentialLR则是连续地按照指数衰减的方式减少学习率。在每个epoch结束后,学习率都会乘以一个固定的衰减因子(gamma)。
  • 参数
    • gamma:每个epoch结束后学习率乘以的衰减因子。
  • 特点:学习率的衰减是连续的,每次更新都会按照指数规律减少,而不是在特定的epoch数之后突然减少。

对比

  • 更新频率StepLR在每隔step_size个epoch后更新一次学习率,而ExponentialLR在每个epoch后都会更新学习率。
  • 衰减模式StepLR的衰减是阶梯式的,而ExponentialLR的衰减是平滑的,逐渐减小。
  • 使用场景StepLR适用于那些需要在不同阶段使用不同学习率的情况,而ExponentialLR适用于需要平滑过渡到更小学习率的情况。

以下是一个简单的例子来说明两者的区别:

import torch.optim as optim# 假设有一个简单的模型和优化器
model = ...
optimizer = optim.SGD(model.parameters(), lr=0.1)# StepLR 示例
scheduler_step = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)# ExponentialLR 示例
scheduler_exp = optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.99)# 假设训练100个epoch
for epoch in range(1, 101):# 训练代码...# StepLR 更新if epoch % 30 == 0:scheduler_step.step()# ExponentialLR 更新scheduler_exp.step()

在这个例子中,StepLR每30个epoch将学习率乘以0.1,而ExponentialLR每个epoch都将学习率乘以0.99。随着时间的推移,ExponentialLR的学习率会逐渐减小,而StepLR的学习率会在每个指定的epoch突然减小。

ReduceLROnPlateau

scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', factor=0.1, patience=10)# 训练循环
for epoch in range(num_epochs):# 训练代码...val_loss = ...  # 验证集损失scheduler.step(val_loss)  # 根据验证集损失更新学习率

ReduceLROnPlateau会在指标停止改进时减少学习率,factor是衰减率,patience是在更新学习率之前等待的epoch数。

2. 自定义学习率衰减

如果你想要自定义学习率衰减策略,可以直接在训练循环中更新优化器的学习率:

initial_lr = 0.001
decay_rate = 0.1
decay_steps = 30for epoch in range(num_epochs):# 训练代码...if epoch % decay_steps == 0 and epoch != 0:for param_group in optimizer.param_groups:param_group['lr'] *= decay_rate

在这个例子中,每30个epoch,学习率就会乘以衰减率decay_rate

使用这些方法之一,你可以在训练过程中实现学习率的衰减,帮助模型更好地收敛。记得在选择学习率衰减策略时,需要根据你的具体问题和模型调整参数。

输入形状

在监督学习中,x_train(输入数据)和 y_train(标签或目标数据)的形状关系取决于具体的学习任务和数据组织方式。以下是一些常见的情况:

  1. 回归任务

    • x_train 的形状通常是 [num_samples, num_features],其中 num_samples 是样本数量,num_features 是每个样本的特征数量。
    • y_train 的形状通常是 [num_samples, 1](如果目标是单个连续值)或者 [num_samples, num_targets](如果有多个连续目标值)。

    例如,对于单个目标值的回归问题:

    • x_train[100, 10](100个样本,每个样本10个特征)
    • y_train[100, 1](100个样本的单一目标值)
  2. 分类任务

    • x_train 的形状同样是 [num_samples, num_features]
    • y_train 的形状可以是 [num_samples](如果任务是二分类或多分类的单标签问题,并且标签是整数编码的)或者 [num_samples, num_classes](如果任务是多标签问题或者使用one-hot编码的多分类问题)。

    例如,对于一个多分类问题:

    • x_train[100, 10](100个样本,每个样本10个特征)
    • y_train[100](100个样本的类别标签,如果使用整数编码)
    • 或者 y_train[100, num_classes](100个样本的one-hot编码类别标签)
  3. 序列模型

    • 对于序列模型(如RNN、LSTM),x_train 的形状通常是 [num_samples, sequence_length, num_features]
    • y_train 的形状可以是 [num_samples, sequence_length](如果每个时间步都有预测目标)或者 [num_samples, 1](如果整个序列有一个预测目标)。

    例如,对于时间序列预测:

    • x_train[100, 50, 10](100个样本,每个样本序列长度为50,每个时间步10个特征)
    • y_train[100, 1](100个样本的未来时间步预测值)

总之,x_train 和 y_train 的形状必须兼容,以便在训练过程中正确地进行批量处理和矩阵运算。具体的关系取决于模型的输入和输出要求。


http://www.mrgr.cn/news/82625.html

相关文章:

  • Linux文件系统权限
  • 小R的蛋糕分享
  • 安卓触摸对焦
  • 计算机缺失x3daudio1 7.dll怎么修复?
  • 【QED】kouki与阶乘之间的那些事?
  • mysql error:1071 -Specified key was too long; max key length is 767 bytes
  • SCAU期末笔记 - 数据库系统概念往年试卷解析
  • MyBatis执行一条sql语句的流程(源码解析)
  • 域上的多项式环,整除,相通,互质
  • 【精读电影】至暗时刻
  • unity-入门查漏补缺0.2.02.07
  • RocketMQ场景使用
  • window11 wsl mysql8 错误分析:1698 - Access denied for user ‘root‘@‘kong.mshome.net‘
  • RocketMQ使用场景问题
  • Eplan 项目结构(高层代号、安装地点、位置代号)
  • MySQL Binlog 监听方案
  • 智能工厂的设计软件 应用场景的一个例子: 为AI聊天工具添加一个知识系统 之20 再次重建 之5 项目文件三大部 整“拼”项目文档总述
  • 保姆级教程Docker部署ClickHouse镜像
  • 2025/1/1 路由期末复习作业二
  • Golang 入门基础知识
  • 【前序、中序、后序遍历递归栈的实现】
  • 计算机组成原理期末复习
  • 基于STM32环境温湿度监测系统设计(附项目代码zip)
  • Android Studio学习笔记
  • SpringBoot入门之创建一个Hello World项目
  • 服务器信息整理:用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统