当前位置: 首页 > news >正文

第四十六篇 Vision Transformer论文翻译

image-20220323164916607
论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer

摘要

虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉中的应用仍然有限。在计算机视觉中,注意力机制要么与卷积网络结合使用,要么在保持卷积网络整体结构不变的情况下,用于替换卷积网络的某些组件。我们证明了对卷积神经网络(CNN)的这种依赖是不必要的,直接应用于图像块序列的纯Transformer在图像分类任务中可以表现得非常好。当在大量数据上进行预训练并迁移到多个中型或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,与最先进的卷积网络相比,视觉Transformer(Vision Transformer,ViT)取得了出色的结果,同时所需的训练计算资源大大减少。

1 引言

基于自注意力机制的架构,特别是Transformer(Vaswani等,2017


http://www.mrgr.cn/news/79593.html

相关文章:

  • 【开源】A065—基于SpringBoot的库存管理系统的设计与实现
  • java中的抽象类
  • Redis安装和Python练习(Windows11 + Python3.X + Pycharm社区版)
  • 人工智能大模型LLM开源资源汇总(持续更新)
  • 【光电倍增管】-打拿极 PMT
  • SpringBoot3整合Druid数据源
  • 配置新电脑设置的脚本
  • 嵌入式入门Day26
  • android NumberPicker隐藏分割线或修改颜色
  • android notification
  • Python 检验项目分析与历次报告比对
  • SpringBoot3整合SpringMVC
  • 制造业信息化系统:构建高效生产与管理的数字化基石
  • 阿里云 云产品流转(实现设备与小程序交互)
  • c++ 学习笔记 函数进阶
  • Python知识分享第二十二天-数据结构入门
  • LEGO-GraphRAG框架-图谱检索增强生成框架介绍
  • Ubuntu 安装 web 服务器
  • 11—增加/移除OrCAD的Xnet(保姆级)
  • [HDCTF 2023]LoginMaster