当前位置：首页 > news >正文

【论文速看】DL最新进展20241023-多模态、无监督学习、多任务、图像修复

news 2024/10/24 1:13:00

【多模态】

[2024] Rethinking VLMs and LLMs for Image Classification

论文链接：https://arxiv.org/pdf/2410.14690

代码链接：无

视觉语言模型（VLMs）现在越来越多地与大型语言模型（LLMs）结合，以实现新的能力，特别是在提高互动性和开放式响应方面。虽然这些能力非常了不起，但LLM在解决长期以来的关键问题——即在一组选择中分类图像的贡献仍然不明确。通过涉及七个模型、十个视觉理解数据集以及每个数据集的多个提示变体的广泛实验，作者发现，对于物体和场景识别，不利用LLM的VLMs比利用LLM的VLMs表现更好。然而，与此同时，利用LLM可以改善需要推理和外部知识的任务的性能。针对这些挑战，作者提出了一个实用的解决方案：一个轻量级的修复方案，包括一个相对较小但能够高效地将视觉任务路由到最适合该任务的模型的LLM路由器。该LLM路由器使用一个由超过250万个视觉任务和模型准确性对构成的数据集进行训练。结果显示，这种轻量级修复方案在准确性上超过了或匹配了最先进的替代方案，包括GPT-4V和HuggingGPT，同时还提高了成本效益。

在这里插入图片描述

[ICLR2024]

机构：Meta（facebook）

论文链接：https://arxiv.org/pdf/2309.16671](https://arxiv.org/pdf/2309.16671)

代码链接：https://github.com/facebookresearch/MetaCLIP

对比语言-图像预训练（CLIP）是一种推进了计算机视觉研究和应用领域的方法，推动了现代识别系统和生成模型的发展。作者认为，CLIP成功的主要成分在于其数据，而非模型架构或预训练目标。然而，CLIP关于其数据及其收集方式提供的信息非常有限，导致一些研究试图通过其模型参数来复制CLIP的数据。这项工作希望揭示CLIP的数据策划方法，并在追求将其开放给社区的过程中引入元数据策划语言-图像预训练（MetaCLIP）。MetaCLIP采用原始数据池和元数据（源自CLIP的概念），并生成一个在元数据分布上平衡的子集。实验研究严格隔离了模型和训练设置，仅关注数据。将MetaCLIP应用于CommonCrawl的4亿图像文本数据对，在多个标准基准测试中超越了CLIP的数据。在零样本ImageNet分类中，MetaCLIP达到了70.8%的准确率，超过了CLIP在ViT-B模型上的68.3%。扩展到10亿数据，同时保持相同的训练预算，达到了72.4%。在不同规模的模型上都得到了验证，例如ViT-bigG实现了82.1%。

在这里插入图片描述

【无监督学习、多任务】

[2024] Group Diffusion Transformers are Unsupervised Multitask Learners

论文链接：https://arxiv.org/pdf/2410.15027

代码链接：无

尽管大型语言模型（LLMs）因其任务无关的能力彻底改变了自然语言处理，但诸如图像翻译、风格迁移和角色定制等视觉生成任务仍然严重依赖于有监督的、特定任务的数据集。这项工作引入了组扩散Transformer（GDTs），这是一个通过将各种视觉生成任务重新定义为组生成问题来统一它们的新框架。在这种方法中，一组相关图像同时生成，可以选择性地以组中的一个子集为条件。GDTs基于扩散Transformer构建，只需进行最小的架构修改，通过跨图像连接自注意力token来实现。这允许模型通过基于标题的相关性隐式捕捉跨图像关系（例如，身份、风格、布局、周围环境以及配色方案）。该设计使得可以使用来自多模态网络文章、图片画廊和视频帧的大量图像组合集合进行可扩展的、无监督的、任务无关的预训练。在一个包含200多个指令的综合基准上评估GDTs，涵盖30个不同的视觉生成任务，包括图画书创作、字体设计、风格迁移、素描、着色、绘图序列生成和角色定制。所提模型在没有任何额外微调或梯度更新的情况下取得了具有竞争力的零样本性能。此外，消融研究证实了数据规模、组大小和模型设计等关键组件的有效性。这些结果表明，GDTs作为可扩展的通用视觉生成系统的潜力。

在这里插入图片描述

【图像修复】

论文链接：https://arxiv.org/pdf/2410.15067v1

代码链接：https://github.com/Harbinzzy/All-in-One-Image-Restoration-Survey

图像复原（IR）是指通过去除图像中的退化现象（如噪声、模糊、天气影响等）来提高图像视觉质量的过程。传统IR方法通常针对特定类型的退化，这在复杂失真的现实场景中限制了它们的有效性。为了应对这一挑战，“全能型图像复原”（AiOIR）范式应运而生，提供了一种能够熟练处理多种退化类型的统一框架。这些创新模型通过自适应学习特定退化的特征，同时利用不同类型失真中的共享知识，提高了便利性和通用性。这篇综述深入探讨了AiOIR方法，重点介绍了其架构创新和学习范式，并对现有方法进行了系统回顾。作者系统地分类了常见的方法，并批判性评估了这些模型所面临的挑战，提出了推动这一动态领域发展的未来研究方向。本文首先介绍了AiOIR模型的基本概念，然后基于先验知识和泛化能力等因素对前沿设计进行了分类。接下来，突出了AiOIR的关键进展，旨在激发社区内进一步的探索和创新。为了便于对现有方法进行稳健评估，整理并总结了常用的数据集、实现细节和评估指标。此外，还对开源方法进行了客观比较，为研究人员和实践者提供了宝贵的见解。本文是首篇全面且富有洞察力的AiOIR综述。