当前位置：首页 > news >正文

计算机视觉：VGGNet网络详解

news 2025/10/19 5:40:44

计算机视觉：VGGNet网络详解及Python实现

VGGNet（Visual Geometry Group Network）是由牛津大学的视觉几何组在2014年提出的深度学习模型，它在ILSVRC 2014竞赛中取得了显著的成绩。VGGNet的核心特点是其均一的网络结构，它通过重复使用小的3x3卷积核和2x2的最大池化层来构建深层网络。这种设计不仅提高了网络的深度，而且减少了模型的参数数量，提高了计算效率。

VGGNet网络结构

VGGNet的网络结构由多个卷积层和池化层组成，最后接三个全连接层。VGGNet有多个变种，包括VGG11、VGG13、VGG16和VGG19，数字代表网络的层数。其中，VGG16和VGG19是最常用的两个版本。

VGG16网络结构

VGG16网络包含13个卷积层和5个池化层，其配置如下：

输入层：224x224x3
卷积层1：64个3x3的卷积核，步长为1，后接ReLU激活函数
卷积层2：64个3x3的卷积核，步长为1，后接ReLU激活函数
池化层1：2x2的最大池化，步长为2
卷积层3：128个3x3的卷积核，步长为1，后接ReLU激活函数
卷积层4：128个3x3的卷积核，步长为1，后接ReLU激活函数
池化层2：2x2的最大池化，步长为2
卷积层5-7：256个3x3的卷积核，步长为1，后接ReLU激活函数
池化层3：2x2的最大池化，步长为2
卷积层8-10：512个3x3的卷积核，步长为1，后接ReLU激活函数
池化层4：2x2的最大池化，步长为2
卷积层11-13：512个3x3的卷积核，步长为1，后接ReLU激活函数
池化层5：2x2的最大池化，步长为2
全连接层1：4096个神经元，后接ReLU激活函数
全连接层2：4096个神经元，后接ReLU激活函数
全连接层3：1000个神经元（或根据任务需求调整），后接softmax激活函数

Python代码实现

以下是使用PyTorch实现VGG16网络结构的示例代码：

import torch
import torch.nn as nn
import torch.nn.functional as Fclass VGG(nn.Module):def __init__(self, features, num_classes=1000, init_weights=True):super(VGG, self).__init__()self.features = featuresself.classifier = nn.Sequential(nn.Dropout(p=0.5),nn.Linear(512 * 7 * 7, 4096),nn.ReLU(True),nn.Dropout(p=0.5),nn.Linear(4096, 4096),nn.ReLU(True),nn.Linear(4096, num_classes))if init_weights:self._initialize_weights()def forward(self, x):x = self.features(x)x = torch.flatten(x, start_dim=1)x = self.classifier(x)return xdef _initialize_weights(self):for m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')if m.bias is not None:nn.init.constant_(m.bias, 0)elif isinstance(m, nn.BatchNorm2d):nn.init.constant_(m.weight, 1)nn.init.constant_(m.bias, 0)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.constant_(m.bias, 0)def _make_layers(cfg, batch_norm=False):layers = []in_channels = 3for v in cfg:if v == 'M':layers += [nn.MaxPool2d(kernel_size=2, stride=2)]else:conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)if batch_norm:layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]else:layers += [conv2d, nn.ReLU(inplace=True)]in_channels = vreturn nn.Sequential(*layers)cfg = {'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M']
}model = VGG(_make_layers(cfg['vgg16']), num_classes=1000)