当前位置：首页 > news >正文

VIT：论文关键点解读与常见疑问

news 2024/10/22 15:39:54

VIT贡献点：

1. 首次将 Transformer 应用于图像识别任务

核心贡献：ViT 论文的最大贡献是提出将原本用于自然语言处理（NLP）的 Transformer 架构成功应用于图像任务。传统的计算机视觉模型主要依赖卷积神经网络（CNN），而 ViT 证明了 Transformer 模型也可以在图像分类任务上取得优异的性能，特别是在大规模数据集上。
意义：这打破了人们对 CNN 在图像处理领域的长期垄断，展示了 Transformer 模型的泛用性，使其不仅在 NLP 中表现出色，也能胜任视觉任务。

2. 提出图像分块（Image Patch Embedding）的新方法

核心贡献：ViT 提出了一种新颖的将图像处理成小块的方法。具体来说，ViT 将输入图像分成固定大小（如 16x16 像素）的图像块（patch），每个图像块被展平为一个向量，然后作为 Transformer 的输入。每个图像块相当于一个 “token”，类似于 NLP 中的单词。
意义：这种图像分块的方式消除了卷积操作，直接将图像作为输入序列处理，并通过自注意力机制建模图像块之间的关系，从而提升了模型对全局信息的捕捉能力。相比 CNN 局部卷积核的限制，Transformer 的全局自注意力可以处理更远的依赖关系。

3. 展示了在大规模数据集上训练 ViT 的潜力

核心贡献：ViT 展示了 Transformer 架构在计算机视觉中能够取得优异性能的前提是使用大规模数据集进行训练。在 ImageNet-1k 等较小数据集上，ViT 的表现不如传统 CNN，如 ResNet；但在更大规模的数据集（如 ImageNet-21k 和 JFT-300M）上，ViT 显示了极强的性能。
意义：这表明 Transformer 架构对大规模数据集的依赖性较强，但一旦有充足的数据，Transformer 可以超越 CNN。ViT 的成功也推动了计算机视觉领域更多地使用大规模数据集和预训练方法。

4. 减少对图像处理领域特有的归纳偏置的依赖

核心贡献：传统的 CNN 模型依赖卷积操作，这种操作带有很强的图像领域的归纳偏置（如局部感受野、平移不变性等）。ViT 则不同，它并没有明确设计图像领域特有的归纳偏置，而是依靠 Transformer 的自注意力机制来学习图像块之间的关系。
意义：减少归纳偏置使 ViT 更加通用，它不仅能处理图像任务，也能够适用于其他视觉任务，而不需要根据任务定制模型的设计。ViT 的通用性更符合通用人工智能的发展方向。

5. ViT 在性能和计算效率上的权衡

核心贡献：虽然 ViT 的性能在大规模数据集上表现出色，但其计算复杂度和资源消耗也相对较高。ViT 论文详细分析了模型在不同规模数据集和不同大小的输入图像上的表现，探讨了模型大小、训练时间、数据规模等因素的权衡，并展示了通过增加数据规模或模型规模，Transformer 模型可以进一步提高性能。
意义：这为未来的研究者提供了重要的指导，尤其是在大模型的训练和应用时如何平衡性能和计算资源。

6. 探索了与卷积神经网络 (CNN) 的对比

核心贡献：ViT 论文详细比较了 Transformer 与卷积神经网络（CNN）在图像处理上的优劣。它展示了 Transformer 不需要卷积层的平移不变性等先验信息，依赖自注意力机制可以捕获更长距离的依赖关系，弥补 CNN 只能处理局部特征的不足。
意义：通过对比，ViT 证明了 Transformer 模型不仅可以替代 CNN，还可以在合适的数据和计算资源下超越 CNN。这为视觉任务开辟了新方向，即视觉任务不再仅限于卷积网络，Transformer 可以成为主力模型。

7. 展现了 Transformer 在多任务学习中的潜力

核心贡献：ViT 展示了 Transformer 模型在处理多个视觉任务上的潜力，ViT 不仅可以用于图像分类，还能够扩展到其他视觉任务，如目标检测、图像分割等。其架构的灵活性和通用性，使其成为更广泛的视觉任务解决方案。
意义：ViT 推动了研究人员将 Transformer 应用于其他视觉任务的探索，证明了其在计算机视觉领域的广泛应用潜力，甚至激发了跨领域的多任务学习研究。

关键问题：

1 Patch怎么转化为向量的？

利用卷积，这个块上总的像素个数就是卷积这一块patch的卷积核个数。

2 转化后的这么多向量是如何用来做分类任务的？

借用BERT中的CLS思想，因为在transformer中，自注意力机制是可以是各个向量看到其他任意一个向量的，假设有196个patch，CLS就取与他们相同的长度，变成197个向量,CLS，就可以同时学到其他196个向量的信息，所以CLS身上负载了整个图片信息，最后经过MLP层进行降维就可以用来做分类任务了。

查看全文

http://www.mrgr.cn/news/54059.html