当前位置：首页 > news >正文

YOLO11结构

news 2025/3/19 9:31:14

图片来源：（侵删）

YOLO11 沉浸式讲解 YOLOV11网络结构以及代码剖析-CSDN博客

深入浅出之SPP、SPPF、SPPCSPC与ASPP模块（YOLO）-CSDN博客

主体结构：

Backbone(骨干)、 Neck(颈部)、 Head(头部)

contact----concat

CBS模块主要由Conv（卷积层）、BN（Batch Normalization，批归一化层）和SiLU（激活函数）三个部分组成

通过参数 c3k 控制模块内部结构。当 c3k=True 时，使用 C3K2 模块；当 c3k=False 时，退化为标准的 Bottleneck 模块（C2F）。

先来看看SPP

SPP和SPPF都旨在解决模型处理不同尺寸图像问题。（通过卷积池化等）

SPP图中MaxPool是不同尺寸的池化（也可以换成其他池化方式），然后结合不同尺寸的信息。

SPPF（主要通过调整池化策略，加快了计算速度）

Cross-Level Pyramid Slice Attention（跨层级金字塔切片注意力）

C2PSA结合了PSA(Pointwise Spatial Attention)块，用于增强特征提取和注意力机制。通过在标准 C2f 模块中引入 PSA 块，实现了更强大的注意力机制，从而提高了模型对重要特征的捕捉能力。

Split操作是将输入张量沿指定维度拆分为多个子张量，比如将一个64通道拆分为4个16通道。（可以指定每个子张量的维度，可以不同）

Attention使用多头注意力

上采样就不多说了，什么池化等等。

拼接层，主要是把多个张量（通常是特征图）沿某个维度（通常是通道维度）拼接在一起。这个主要作用是信息整合。

还有一个信息整合 add ，这个是把多个张量按元素相加起来。

同骨干网络的结构

同骨干网络的结构

深度可分离卷积层(Depthwise Separable Convolution)

先深度卷积，再逐点卷积。

卷积

核心训练超参数：

lr0 (初始学习率):
- 决定了模型权重更新的初始步长。
- 影响收敛速度和稳定性。
- 建议：通常在0.01到0.001之间，根据数据集和模型大小调整。
lrf (最终学习率):
- 训练结束时的学习率，通常远小于lr0。
- 有助于模型在后期进行微调。
- 建议：通常设置为lr0的十分之一或更小。
batch (批次大小):
- 每次迭代处理的图像数量。
- 影响梯度估计的准确性和内存消耗。
- 建议：根据GPU内存调整，尽可能使用较大的批次大小。
epochs (训练轮数):
- 模型遍历整个训练数据集的次数。
- 影响模型的训练程度。
- 建议：根据数据集大小和模型复杂度调整。
imgsz (图像尺寸):
- 输入图像的大小。
- 影响模型的检测精度和速度。
- 建议：根据目标大小和计算资源调整。
optimizer (优化器):
- 用于更新模型权重的算法。
- 影响收敛速度和稳定性。
- 建议：常用的有Adam、SGD等，Adam通常是较好的默认选择。
device (设备):
- 指定用于训练或推理的设备（例如，GPU或CPU）。
- 建议：尽可能使用GPU进行训练。
weight_decay (权重衰减):
- 用于防止过拟合，通过在损失函数中添加正则化项。
momentum (动量):
- 在SGD优化器中，用于加速收敛并防止陷入局部最小值。