当前位置: 首页 > news >正文

ECCV‘24 | WTConv:小参数大感受野,基于小波变换的新型卷积

前言 近年来,人们尝试增加卷积神经网络(CNN)的卷积核大小,以模拟视觉Transformer(ViTs)自注意力模块的全局感受野。然而,这种方法很快就遇到了上限,并在实现全局感受野之前就达到了饱和。论文证明通过利用小波变换(WT),实际上可以获得非常大的感受野,而不会出现过参数化的情况。例如,对于一个  的感受野,所提出方法中的可训练参数数量仅以  进行对数增长。所提出的层命名为WTConv,可以作为现有架构中的替换,产生有效的多频响应,且能够优雅地随着感受野大小的变化而扩展。论文在ConvNeXt和MobileNetV2架构中展示了WTConv层在图像分类中的有效性,以及作为下游任务的主干网络,并且展示其具有其它属性,如对图像损坏的鲁棒性以及对形状相较于纹理的增强响应。

论文: Wavelet Convolutions for Large Receptive Fields

  • 论文地址:https://arxiv.org/abs/2407.05848v2

  • 论文代码:https://github.com/BGU-CS-VIL/WTConv

Introduction


在过去十年中,卷积神经网络(CNN)在许多计算机视觉领域占主导地位。尽管如此,随着视觉TransformerViTs)的出现(这是一种用于自然语言处理的Transformer架构的适应),CNN面临着激烈的竞争。具体而言,ViTs目前被认为相较于CNN具有优势的原因,主要归功于其多头自注意力层。该层促进了特征的全局混合,而卷积在结构上仅局限于特征的局部混合。因此,最近几项工作尝试弥补CNNViTs之间的性能差距。有研究重构了ResNet架构和其训练过程,以跟上Swin Transformer。“增强”的一个重要改进是增加卷积核的大小。然而,实证研究表明,这种方法在7*7的卷积核大小处就饱和了,这意味着进一步增加卷积核并没有帮助,甚至在某个时候开始出现性能恶化。虽然简单地将大小增加到超过  并没有用,但RepLKNet的研究已经表明,通过更好的构建可以从更大的卷积核中获益。然而,即便如此,卷积核最终仍然会变得过参数化,性能在达到全局感受野之前就会饱和。

RepLKNet分析中,一个引人入胜的特性是,使用更大的卷积核使得卷积神经网络(CNN)对形状的偏向性更强,这意味着它们捕捉图像中低频信息的能力得到了增强。这个发现有些令人惊讶,因为卷积层通常倾向于对输入中的高频部分作出响应。这与注意力头不同,后者已知对低频更加敏感,这在其他研究中得到了证实。

上述讨论引发了一个自然的问题:能否利用信号处理工具有效地增加卷积的感受野,而不至于遭受过参数化的困扰?换句话说,能否使用非常大的滤波器(例如具有全局感受野的滤波器),同时提升性能?论文提出的方法利用了小波变换(WT),这是来自时频分析的一个成熟工具,旨在有效扩大卷积的感受野,并通过级联的方式引导CNN更好地响应低频信息。论文将解决方案基于小波变换(与例如傅里叶变换不同),因为小波变换保留了一定的空间分辨率。这使得小波域中的空间操作(例如卷积)更加具有意义。

更具体地说,论文提出了WTConv,这是一个使用级联小波分解的层,并执行一组小卷积核的卷积,每个卷积专注于输入的不同频率带,并具有越来越大的感受野。这个过程能够在输入中对低频信息给予更多重视,同时仅增加少量可训练参数。实际上,对于一个k*k的感受野,可训练参数数量只随着k的增长而呈对数增长。而WTConv与常规方法的参数平方增长形成对比,能够获得有效的卷积神经网络(CNN),其有效感受野(ERF)大小前所未有,如图1所示。

WTConv作为深度可分离卷积的直接替代品,可以在任何给定的卷积神经网络(CNN)架构中直接使用,无需额外修改。通过将WTConv嵌入到ConvNeXt中进行图像分类,验证了WTConv的有效性,展示了其在基本视觉任务中的实用性。在此基础上,进一步利用ConvNeXt作为骨干网络,扩展评估到更复杂的应用中:在UperNet中进行语义分割,以及在Cascade Mask R-CNN中进行物体检测。此外,还分析了WTConvCNN提供的额外好处。

论文的贡献总结如下:

  1. 一个新的层WTConv,利用小波变换(WT)有效地增加卷积的感受野。

  2. WTConv被设计为在给定的卷积神经网络(CNN)中作为深度可分离卷积的直接替代。

  3. 广泛的实证评估表明,WTConv在多个关键计算机视觉任务中提升了卷积神经网络(CNN)的结果。

  4. WTConv在卷积神经网络(CNN)的可扩展性、鲁棒性、形状偏向和有效感受野(ERF)方面贡献的分析。

Method


Preliminaries: The Wavelet Transform as Convolutions

在这项工作中,采用Haar小波变换,因为它高效且简单。其他小波基底也可以使用,尽管计算成本会有所增加。

 

Convolution in the Wavelet Domain

增加卷积层的核大小会使参数数量呈平方级增加,为了解决这个问题,论文提出以下方法。

 首先,使用小波变换(WT)对输入的低频和高频内容进行过滤和下采样。然后,在不同的频率图上执行小核深度卷积,最后使用逆小波变换(IWT)来构建输出。换句话说,过程由以下给出:

 

 The Benefits of Using WTConv

 Computational Cost

Results


图片

 


http://www.mrgr.cn/news/53705.html

相关文章:

  • Unity学习记录-API
  • 嵌入式入门学习——6Protues点亮数码管,认识位码和段码,分辨共阴还是共阳(数字时钟第一步)
  • Python将Excel文件转换为JSON格式
  • 安卓在windows连不上fastboot问题记录
  • Grafana+ Node+ Prometheus对服务器进行性能监控
  • 拥抱云开发的未来:腾讯云数据库、云模板与AI智能化的应用场景探索
  • 一款能让产品兼容所有快充协议的快充取电芯片
  • IRMV Lab新作:Mamba Diffusion模型实现高精度2D手部轨迹预测
  • 【最新华为OD机试E卷-支持在线评测】找单词(200分)多语言题解-(Python/C/JavaScript/Java/Cpp)
  • cefsharp 84.4.10(Chromium 84.0.4147.105)支持H264视频播放-PDF预览 老版本回顾系列体验
  • vue3处理货名的拼接
  • 腾讯云短信服务(Java)
  • MicroPython rp2-LVGL 固件编译记录
  • python-PyQt项目实战案例:制作一个视频播放器
  • Windows 内核层内存泄漏查看工具
  • 利用GPU训练
  • 浏览器实时更新esp32-c3 Supermini http server 数据
  • Spring的起源与发展
  • python办公:批量PDF合并—通用版
  • 【最新华为OD机试E卷-支持在线评测】模拟目录管理 (200分)多语言题解-(Python/C/JavaScript/Java/Cpp)
  • React入门简介
  • Win11电脑快捷键大全
  • Python配合yolov11开发对象检测软件
  • 青城山道观:清幽之境,心灵之旅
  • 银河麒麟(debian)下安装postgresql、postgis
  • Turn-it:调整它:优化线材重构雕塑制造