当前位置: 首页 > news >正文

【论文笔记】Perceiver: General Perception with Iterative Attention

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Perceiver: General Perception with Iterative Attention
作者: Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira
发表: ICML 2021
arXiv: https://arxiv.org/abs/2103.03206

基本信息

摘要

生物系统通过同时处理来自视觉、听觉、触觉、本体感觉等多样化模态的高维输入来感知世界。

另一方面,深度学习中使用的感知模型是为单个模态设计的,通常依赖于特定领域的假设,例如几乎所有现有视觉模型所利用的局部网格结构。

这些先验引入了有用的归纳偏差,但也使模型局限于单个模态。

在本文中,我们介绍了Perceiver——一个基于Transformer构建的模型,它对输入之间的关系几乎没有架构假设,但也能扩展到处理数以万计的输入,就像卷积神经网络。

该模型利用非对称注意力机制,通过迭代地将输入蒸馏到一个紧凑的潜在瓶颈中,从而能够扩展以处理非常大的输入。

我们表明,这种架构在各种模态的分类任务上与强大、专业的模型具有竞争力或优于它们:图像、点云、音频、视频以及视频+音频。

Perceiver在ImageNet上直接关注50,000个像素,其性能与ResNet-50和ViT相当,而不使用二维卷积。

在AudioSet的所有模态中,它也具有竞争力。

模型架构

模型架构

用一组可训练的Latent array来查询Byte array中的特征。

实验

Top-1 validation accuracy (in %) on ImageNet

Top-1 validation accuracy (in %) on standard (raw) and permuted ImageNet (higher is better)

Attention maps from the first, second, and eighth (final) cross-attention layers of a model on ImageNet with 8 cross-attention modules

Perceiver performance on AudioSet, compared to state-of-the-art models (mAP, higher is better)

Top-1 test-set classification accuracy (in %) on ModelNet40

总结

我们提出了Perceiver,这是一个基于Transformer的模型,可以扩展到超过十万个输入。

这为对输入假设较少且能够处理任意传感器配置的通用感知架构开辟了新的途径,同时能够实现所有层次的信息融合。

随着灵活性的提高,过拟合的风险也随之增大,我们许多设计决策都是为了减轻这一风险。

在未来工作中,我们希望在非常大规模的数据上预训练我们的图像分类模型。

我们在包含1.7百万个示例的大型AudioSet数据集上取得了强大的结果,其中Perceiver在音频、视频以及两者结合方面与最新的最先进方法竞争。

在ImageNet上,该模型的表现与ResNet-50和ViT相当。

当比较论文中考虑的所有不同模态和组合时,Perceiver在整体上表现最佳。

虽然我们减少了模型中模态特定先验知识的使用量,但我们仍然采用了模态特定的增强和位置编码。

端到端的模态无关学习仍然是一个有趣的研究方向。


http://www.mrgr.cn/news/59791.html

相关文章:

  • C#,自动驾驶,《OpenDRIVE 1.8.0规范摘要》及 1.8/1.7/1.6/1.5/1.4 各版本的C#解释器(Parser)源代码
  • 影刀RPA实战:常见实用功能指令
  • Nature 正刊丨褐藻转录组沙漏
  • ThreadPoolExecutor可以创建哪是哪三种线程池呢?
  • 第二章 I O 输入输出简介 - Open 命令
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22
  • 【次小生成树】
  • 十八、【智能体】数据库:未来科技的大脑
  • word使用小技巧
  • 【MySQL】实战篇—应用开发:使用MySQL与编程语言(如Python、Java、PHP等)进行交互
  • 企业数字化转型和智能制造体系
  • 利用编程思维做题之判断回文字符串
  • 第13次CCF CSP认证真题解
  • 【设计模式系列】迭代器模式
  • XXE进阶
  • 前缀和算法 | 计算分矩阵的和
  • 【Chapter 11】中断时间序列分析:政策变化的因果推断
  • 【Chapter 5】因果推断中的倾向得分和双重稳健估计
  • Sampling采样与Virtual Columns虚拟列
  • 2024年最新Java毕业设计选题题目参考,2000+ Java毕业设计题目,值得收藏
  • 使用Python进行办公楼电能消耗数据的机器学习分析与预测
  • 【Qt】系统相关——多线程、Qt多线程介绍、常用函数、线程安全、网络、UDP Socket、TCP Socket
  • 2024年汽车修理工(高级)证模拟考试题库及汽车修理工(高级)理论考试试题
  • 逆向破解真随机数系统的思路
  • Axure设置文本——元件动作三
  • 算法|牛客网华为机试10-20C++