当前位置：首页 > news >正文

Paper 0 | Visual Instruction Tuning

news 2025/4/26 18:40:10

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力，但这个想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，我们引入了 LLaVA：大型语言和视觉助手，这是一个端到端训练的大型多模态模型，它连接视觉编码器和 LLM，用于通用视觉和语言理解。为了促进未来对视觉指令跟踪的研究，我们构建了两个具有多样化和具有挑战性的面向应用任务的评估基准。我们的实验表明，LLaVA 表现出令人印象深刻的多模态聊天能力，有时在看不见的图像/指令上表现出多模态 GPT-4 的行为，并且在合成的多模态指令跟踪数据集上与 GPT-4 相比获得了 85.1% 的相对分数。在 Science QA 上进行微调时，LLaVA 与 GPT-4 的协同作用实现了 92.53% 的最新最佳准确率。我们将 GPT-4 生成的视觉指令调整数据、我们的模型和代码公开。

首次尝试使用纯语言 GPT-4 生成多模态语言图像指令遵循数据【instruction-following data】

我理解Instruction Generation【文章的主要贡献】 :通过我们给出的一些描述对GPT进行提问，通过这种对话将image转化为instruction

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

推出了端到端训练的大型多模态模型**（Large Language and Vision Assistant，LLaVA）**。

连接视觉编码器【CLIP】和 LLM 【LLaMA】以实现通用视觉和语言理解。

【WHY】

跟传统的文本指令/text-only GPT 那类的区别？
- 简单描述=》深层理解
- 设计专门视觉模块-》构建数据集进行微调

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这个与prompt engine的区别？

note that visual instruction tuning is different from visual prompt tuning [23]: the former aims to improve the model’s instruction following abilities, while the latter aims to improve the parameter-efficiency in model adaptation.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【HOW?】

构建视觉指令数据集【instruction-following data】

将image的视觉特征进行符号化表示，再送入GPT

model

CLIP的encoder+LLaMA

dataset送入model

train部分目前未进行深入了解

怎样做实验去验证效果？
- 指标？
- 跟谁比？
为什么这些微调方式可以提高视觉语言模型的推理性能？

refer：

LLaVa: 《Visual Instruction Tuning》论文讲解 - 知乎 (zhihu.com)
多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning - 陈城南 - 博客园 (cnblogs.com)
论文详细解读——【LLAVA】Visual Instruction Tuning - 知乎 (zhihu.com)

Ques：

我现在还是有点懵逼到底是 Language-only/Text-only的ChatGPT/GPT-4模型

Language-only/Text-only有什么区别？？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.introduction

人类通过视觉和语言等多种渠道与世界互动，因为每个渠道在表达和传达某些概念方面都有独特的优势，从而有助于更好地理解世界。人工智能的核心愿望之一是开发一种通用助手，能够有效地遵循多模态视觉和语言指令，与人类意图保持一致，在野外完成各种现实世界的任务 [4, 27, 26]。

为此，社区已经看到了对开发语言增强基础视觉模型 [27, 16] 的浓厚兴趣，这些模型在开放世界视觉理解方面具有强大的能力，例如分类 [40, 21, 57, 54, 39]、检测 [29, 62, 33]、分割 [25, 63, 58] 和字幕 [50, 28]，以及视觉生成和编辑 [42, 43, 56, 15, 44, 30]。我们建议读者参阅《Computer Vision in the Wild》阅读清单，以获取最新的文献汇编 [12]。在这项工作中，每个任务都由一个大型视觉模型独立解决，任务指令在模型设计中隐式考虑。此外，语言仅用于描述图像内容。虽然这使得语言在将视觉信号映射到语言语义（人类交流的常用渠道）方面发挥了重要作用，但它导致模型通常具有固定的界面(???我现在感觉就是描述和深层理解的区别)，交互性和对用户指令的适应性有限。

另一方面，大型语言模型 (LLM) 表明语言可以发挥更广泛的作用：通用助手的通用界面，其中各种任务指令可以用语言明确表示，并指导端到端训练的神经助手切换到感兴趣的任务来解决它。例如，ChatGPT [35] 和 GPT-4 [36] 最近的成功证明了对齐的 LLM 在遵循人类指令方面的强大功能，并激发了人们对开发开源 LLM 的极大兴趣。其中，LLaMA [49] 是一个开源 LLM，其性能与 GPT-3 相媲美。Alpaca [48]、Vicuna [9]、GPT-4-LLM [38] 利用各种机器生成的高质量指令跟踪样本来提高 LLM 的对齐能力，与专有 LLM 相比，其性能令人印象深刻。重要的是，这项工作仅限于文本。

在本文中，我们提出了视觉指令调整，这是将指令调整扩展到语言-图像多模态空间的首次尝试，为构建通用视觉助手铺平了道路。具体来说，我们的论文做出了以下贡献：

多模态指令跟踪数据。一个关键挑战是缺乏视觉语言指令跟踪数据。我们提出了一种数据重组视角和流程，使用 ChatGPT/GPT-4 将图像-文本对转换为适当的指令跟踪格式。
大型多模态模型。我们通过将 CLIP [40] 的开放集视觉编码器与语言解码器 Vicuna [9] 连接起来，并在我们生成的教学视觉语言数据上进行端到端微调，开发了一个大型多模态模型 (LMM)。我们的实证研究验证了使用生成的数据进行 LMM 指令调整的有效性，并为构建通用指令跟踪视觉代理提出了实用技巧。当与 GPT-4 结合时，我们的方法在 Science QA [34] 多模态推理数据集上实现了 SoTA。
多模态指令跟踪基准。我们向 LLaVA-Bench 展示了两个具有挑战性的基准，以及多种成对图像、指令和详细注释的选择。
开源。我们向公众发布以下资产：生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。

2.Related Work

Multimodal Instruction-following Agents

在计算机视觉领域，现有的构建指令遵循代理的研究大致可以分为两类：

（i）端到端训练模型，针对每个特定的研究主题分别进行探索。例如，视觉语言导航任务 [3, 19] 和 Habitat [47] 要求具身 AI 代理遵循自然语言指令并采取一系列操作来完成视觉环境中的目标。在图像编辑领域，给定一个输入图像和一个告诉代理该做什么的书面指令，InstructPix2Pix [6] 会按照人类的指令编辑图像。

（ii）通过 LangChain [1] / LLM [35] 协调各种模型的系统，例如 Visual ChatGPT [53]、X-GPT [63]、MM-REACT [55]、VisProg [18] 和 ViperGPT [46]。在构建指令遵循代理方面有着共同的目标，但我们专注于开发用于多项任务的端到端训练的语言视觉多模态模型。

Instruction Tuning

在自然语言处理 (NLP) 社区中，为了使 GPT-3 [7]、T5 [41]、PaLM [10] 和 OPT [60] 等 LLM 能够遵循自然语言指令并完成现实世界的任务，研究人员探索了 LLM 指令调整的方法 [37, 52, 51]，从而分别产生了经过指令调整的对应产品，例如 InstructGPT [37]/ChatGPT [35]、FLAN-T5 [11]、FLAN-PaLM [11] 和 OPT-IML [22]。事实证明，这种简单的方法可以有效提高 LLM 的零样本和小样本泛化能力。**因此，将 NLP 中的这个想法借用到计算机视觉中是很自然的。**更广泛地说，基于基础模型的师生蒸馏思想已在其他主题（如图像分类 [14]）中得到研究。Flamingo [2] 可以看作是多模态领域的 GPT-3 时刻，因为它在零样本任务迁移和上下文学习方面表现出色。其他在图像文本对上训练的 LMM 包括 BLIP-2 [28]、FROMAGe [24] 和 KOSMOS-1 [20]。PaLM-E [13] 是用于具身 AI 的 LMM。基于最近“最佳”开源 LLM LLaMA，OpenFlamingo [5] 和 LLaMA-Adapter [59] 是开源成果，使 LLaMA 能够使用图像输入，为构建开源多模态 LLM 铺平了道路。虽然这些模型表现出了良好的任务迁移泛化性能，但它们并未明确针对视觉语言教学数据进行调整，并且它们在多模态任务中的表现通常与纯语言任务相比有所欠缺。本文旨在填补这一空白并研究其有效性。最后，请注意，视觉指令调整不同于视觉提示调整 [23]：前者旨在提高模型的指令遵循能力，而后者旨在提高模型自适应中的参数效率。【解决WHY 2】

3.GPT-assisted Visual Instruction Data Generation

社区已经见证了公共多模态数据（例如图像-文本对）数量的激增，从 CC [8] 到 LAION [45]。然而，当涉及到多模态指令跟踪数据时，可用的数据量是有限的，部分原因是当考虑到人类众包搜索时，创建此类数据的过程非常耗时且定义不太明确。受到最近 GPT 模型在文本注释任务中成功的启发 [17]，我们建议利用 ChatGPT/GPT-4 进行多模态指令跟踪数据收集，基于广泛存在的图像对数据。

对于图像外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传及其相关标题，很自然地会创建一组问题，目的是指导助手描述图像内容。我们提示 GPT-4 整理这样一份问题列表（请参阅附录中的详细信息)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，将图像-文本对扩展为其指令跟踪版本【instruction-following version】的一种简单方法为：

Human：外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Assistant：。

【STOP就是结束点】

虽然构建成本低，但这个简单的扩展版本在指令和响应方面都缺乏多样性和深入的推理。

为了缓解这个问题，我们利用纯语言的 GPT-4 或 ChatGPT 作为强教师（两者均仅接受文本作为输入），来创建涉及视觉内容的指令跟踪数据。具体来说，为了将图像编码为其视觉特征以提示纯文本 GPT，我们使用两种类型的符号表示：

（i）**文字说明【Captions】**通常从各个角度描述视觉场景；

（ii）边界框通常定位场景中的对象，每个框都编码对象概念及其空间位置。表 14 的顶部块显示了一个示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种符号表示使我们能够将图像编码为 LLM 可识别的序列。我们使用 COCO 图像 [31] 并生成三种类型【就是说，图片/描述/边界框来自COCO数据集】的指令跟踪数据。表 14 的底部块显示了每种类型一个示例。对于每种类型，我们首先手动设计一些示例。它们是我们在数据收集期间拥有的唯一的人工注释，并用作情境学习中查询 GPT-4 的种子示例。

Conversation.我们设计了助手与询问有关这张照片的问题的人之间的对话。答案的语气就好像助手正在看到图像并回答问题一样。会询问有关图像视觉内容的多种问题，包括对象类型、对象计数、对象动作、对象位置、对象之间的相对位置。只有有明确答案的问题才会被考虑。有关详细提示，请参阅附录。

【设计一系列丰富的对话问题来询问GPT，以对话数据】
Detailed description.为了对图像进行丰富而全面的描述，我们创建了一个具有此类意图的问题列表。我们提示 GPT-4，然后整理列表（请参阅附录中的详细提示和整理过程）。对于每张图像，我们从列表中随机抽取一个问题，让 GPT-4 生成详细描述。

【鼓励GPT生成尽可能详细的描述】

Complex reasoning.以上两种类型侧重于视觉内容本身，在此基础上我们进一步创建深入的推理问题。答案通常需要遵循严格逻辑的逐步推理过程。

【进行一步步推理，并返回结果】

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【

简单来说，

就是通过Captions、Box的LLM可识别的符号表示，将视觉内容转化为视觉特征传达给大模型。

=》手工设计三种方法：对话、细节、复杂推理，利用GPT-4进行生成和扩充

】

以对话为例，作者采用了下图的方式生成更多的对话标签：

sample[test]–上文说的设计好的对话样例
- context[user]
- response[assistant]
message 在记录一个完整的对话框，包括user与ai的。就像GPT的一个会话。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最终。我们总共收集了 158K 个独特的语言-图像指令遵循样本，其中对话 58K 个，详细描述 23K 个，复杂推理 77K 个。我们在早期实验中减少了 ChatGPT 和 GPT-4 的使用，发现 GPT-4 始终提供更高质量的指令遵循数据，例如空间推理。

4.Visual Instruction Tuning

4.1 Architecture

主要目标是有效利用预训练的 LLM 和视觉模型的功能。网络架构如图 1 所示。我们选择 Vicuna [9] 作为我们的 LLM 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传，由参数化，因为它在公开可用的检查点中具有语言任务中最佳的指令遵循能力 [48, 9, 38]。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于输入图像外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传，我们考虑预训练的 CLIP 视觉编码器 ViT-L/14 [40]，它提供视觉特征。在我们的实验中考虑了最后一个 Transformer 层之前和之后的网格特征。我们考虑一个简单的线性层来将图像特征连接到词嵌入空间。具体来说，我们应用可训练的投影矩阵外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传将转换为语言嵌入标记，其具有与语言模型中的词嵌入空间相同的维数：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，我们有一系列视觉标记外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传。请注意，我们的简单投影方案是轻量级的【Ques:映射层W可以替换为更复杂的网络来提升性能?】，这使我们能够快速迭代以数据为中心的实验。还可以考虑使用更复杂的方案来连接图像和语言表示，例如 Flamingo [2] 中的门控交叉注意和 BLIP-2 [28] 中的 Q-former。我们将在未来的工作中探索 LLaVA 更有效、更复杂的架构设计。

【

作者设计了多模态大模型任务中规中矩的网络框架，即将视觉编码器通过projection模块和大型语言模型进行连接：

视觉编码器：CLIP视觉编码器ViT-L/14，取其最后一个transformer层前后的特征使用

Projection：一个简单的线性层，实现视觉编码到语言模型输入token的映射

大型语言模型：采用Vicuna作为语言解码器，接收token化的视觉编码以及语言指令的token，输出语言回应

】

4.2 Training

【

简单来说。

使用的数据是使用GPT生成的视觉Instruction数据，该数据集是对话的形式。

模型在训练时只预测assistant应该如何回答和终止的信息

】

对于每个图像外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传，我们生成多轮对话数据，其中是总轮数。我们将它们组织成一个序列，将所有答案视为助手的响应，并将第 t 轮的指令表示为：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这导致了表 2 中所示的多模态指令跟随序列的统一格式。我们使用其原始的自回归训练目标对预测标记上的 LLM 执行指令调整。具体而言，对于长度为外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传的序列，我们通过以下方式计算目标答案的概率：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传其中是可训练参数，和分别是当前预测token 之前所有轮次的指令和答案标记。请参阅表 2 了解预测标记的说明。对于 (3) 中的条件，我们明确添加 Xv 来强调图像是所有答案的基础，并且我们省略了外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传和所有前面的以提高可读性。对于 LLaVA 模型训练，我们考虑一个两阶段指令调整过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表2：用于训练模型的输入序列。这里仅举两个会话话轮；在实际应用中，轮数会根据指令跟随数据的不同而变化。在我们目前的实现中，我们遵循Vicuna - v0 [ 9 ]来设置系统消息外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传，我们设置。该模型通过训练来预测辅助答案和停止地点，因此在自回归模型中仅使用来计算损失。

**Stage 1: Pre-training for Feature Alignment.**为了在概念覆盖率和训练效率之间取得平衡，我们将 CC3M 过滤为 595K 个图像-文本对。有关过滤过程的详细信息，请参阅附录。使用第 3 节中描述的朴素扩展方法将这些对转换为指令跟踪数据。每个样本都可以被视为单轮对话。为了构造 (2) 中的输入 Xinstruct，对于图像 Xv，随机抽取一个问题 Xq，这是一个语言指令，用于要求助手简要描述图像。真实预测答案 Xa 是原始标题。在训练中，我们保持视觉编码器和 LLM 权重不变，并仅使用可训练参数 θ = W（投影矩阵）最大化 (3) 的似然。这样，图像特征 Hv 就可以与预训练的 LLM 词嵌入对齐。这个阶段可以理解为为冻结的 LLM 训练一个兼容的视觉标记器。

【这一阶段中固定CLIP视觉编码器和Vicuna语言解码器，只训练Projection模块。】

**Stage 2: Fine-tuning End-to-End.**我们始终保持视觉编码器权重不变，并继续更新 LLaVA 中投影层和 LLM 的预训练权重；即 (3) 中的可训练参数为 θ = {W, φ}。我们考虑两种特定的用例场景：

多模态聊天机器人。我们通过在第 3 节中对 158K 语言图像指令遵循数据进行微调来开发聊天机器人。在三种类型的响应中，对话是多轮的，而其他两种是单轮的。它们在训练中是均匀采样的。
科学问答。我们在 ScienceQA 基准 [34] 上研究了我们的方法，这是第一个大规模多模态科学问题数据集，它用详细的讲座和解释来注释答案。每个问题都以自然语言或图像的形式提供上下文。助手以自然语言提供推理过程，并在多个选项中选择答案。对于 (2) 中的训练，我们将数据组织为单轮对话，问题和上下文为 Xinstruct，推理和答案为 Xa。

【这一阶段固定CLIP视觉编码器，将Projection模块和Vicuna语言解码器采用更小的学习率进行联合训练。】

5.experiment

我们通过两个主要的实验设置来评估LLaVA在指令跟随和视觉推理能力上的表现：

多模态聊天机器人
Science QA数据集。

我们使用8 × A100s训练所有模型，遵循Vicuna的超参数[ 9 ]。我们在过滤后的CC - 595K数据集上进行了1轮的预训练，学习率为2e - 3，批大小为128；在LLaVA - Instruct - 158K数据集上进行了3轮的微调，学习率为2e - 5，批大小为32。更多训练细节见附录。

5.1Multimodal Chatbot

我们开发了一个聊天机器人演示程序来展示LLaVA的图像理解和对话能力，并研究LLaVA如何很好地消化视觉输入并表现出instruction follow能力。我们首先使用了原始GPT - 4论文[ 36 ]中的例子，如表3 (附录中更多的例子)所示，这些例子需要进行深入的图像理解。

为了比较，我们引用了他们论文中多模态GPT - 4的提示和响应，并查询BLIP - 2和OpenFlamingo模型检查点来得到他们的响应。

根据这个unusual的instruction follow提示去理解图片，可以看到：

llava解释出这个行为出现场合不适宜，
其他的模型只是在简单的描述现在的场景。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

令人惊讶的是，尽管LLaVA是在一个小型的多模态遵循指令数据集( 80K独特的图像)上训练的，但在这些例子上，LLaVA表现出与多模态GPT - 4相当相似的推理结果。值得注意的是，虽然这些图像对于LLaVA来说是不领域的，但LLaVA仍然能够理解场景并遵循提问指令提供合理的答案。

相比之下，BLIP - 2和OpenFlamingo专注于描述图像，而不是遵循用户指令以适当的方式回答。

**Quantitative Evaluation.**为了系统地了解 LLaVA 的性能，我们提出了一个定量指标来衡量模型在多模态数据上的指令遵循能力。受 [9] 的启发，我们利用 GPT-4 来衡量生成的响应的质量。具体来说，我们创建了由图像、真实文本描述和问题组成的三元组。候选模型（例如 LLaVA）根据问题和图像预测答案。为了提供近似的理论上限，我们使用纯文本 GPT-4 基于问题和真实文本描述创建参考预测。在获得两个模型的响应后，我们将问题、视觉信息（以文本描述的格式）和两个助手生成的响应提供给评委（即纯文本 GPT-4）。它评估助手回答的有用性、相关性、准确性和详细程度，并给出 1 到 10 分的总体评分，分数越高，整体表现越好。它还被要求对评估结果提供全面的解释，以便我们更好地理解模型。我们报告了相对于纯文本 GPT-4 模型的相对分数，该模型使用纹理基本事实描述作为视觉输入。我们创建了两个基准来评估模型的性能。

【

[GPT通过完整的描述生成GT，然后自己的模型通过微调数据集做预测，查看二者之间的差异]

评估方法：采用GPT-4来衡量模型生成响应的质量，通过创建包含图像、真实文本描述和问题的三元组。
使用GPT-4和真实文本描述生成参考预测，作为一个近似的理论上限。[GT]
通过仅文本的GPT-4评判响应的帮助性、相关性、准确性和细节水平，并在1到10的范围内给出总体评分。更高分数表示更好的性能。
设置两个基准测试来评估模型性能。

】

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表 4：具有不同训练数据的 LLAAVA-Bench (COCO) 消融。我们报告了使用GT图像标题和边界框作为视觉输入的纯文本 GPT-4 模型的相对分数 w.r.t。我们用模型输出的答案和 GPT-4**（纯文本）的答案提示 GPT-4**，并让它在两个响应之间进行比较，并用解释给出评级。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表5：使用LLaVA-Bench（野外环境）上的相对分数比较指令遵循能力。结果以平均值±标准差的格式报告。对于前三行，我们报告了三次推理运行。LLaVA的表现显著优于其他模型。†对于一组给定的LLaVA解码序列，我们通过查询GPT-4三次来评估；GPT-4给出了一致的评估。

**LLaVA-Bench (COCO).**我们从 COCO-Val-2014 中随机选择了 30 张图像，对于每张图像，我们使用第 3 节中提出的数据生成管道生成三类问题（对话、详细描述、复杂推理），共 90 个问题。该基准研究了模型在一致视觉输入下的对齐行为和能力。我们改变训练数据集来研究不同类型的指令跟踪数据的有效性，并在表 4 中显示结果。首先，通过指令调整，模型遵循用户指令的能力显著提高了 50 多分。其次，添加少量的详细描述和复杂推理问题有助于将模型的整体能力提高 7 分。此外，它还提高了模型在对话问题上的表现，表明推理能力的提高是对对话能力的补充。最后，我们表明，拥有这三种类型的数据可获得最佳性能，达到 85.1%。

LLaVA-Bench (In-the-Wild).为了评估模型在更具挑战性的任务中的能力以及在新领域的通用性，我们收集了一组不同的图像，共 24 张，包含 60 个问题，包括室内和室外场景、模因、绘画、素描等，并将每张图片与高度详细的手动描述和适当选择的问题相关联。我们在表 5 中比较了 LLaVA、BLIP 和 OpenFlamingo。**得益于视觉指令调整，LLaVA 的性能明显优于 BLIP-2 (+29%) 和 OpenFlamingo (+48%)。**与可以访问真实标签的纯文本 GPT-4 相比，LLaVA 在复杂推理问题上取得了令人印象深刻的 81.7% 的表现，总分为 67.3%。

**Limitations.**这个 LLaVA-Bench（In-the-Wild）旨在具有挑战性并揭示模型的弱点。我们在表 6 中提供了两个示例以及相关的标题和问题。对于拉面示例（左），要正确回答餐厅名称，需要模型具有广泛的知识覆盖范围和多语言理解能力；要正确描述配菜，模型可能需要从互联网上检索相关的多模态信息。对于冰箱示例（右），要感知正确的酸奶品牌，模型需要处理高分辨率图像并拥有广泛的知识覆盖范围。我们还观察到 LLaVA 的一个有趣的失败，**因为当被问及是否有草莓味酸奶时，它会回答是，即使冰箱里只有酸奶和草莓。**这表明，有时 LLaVA 将图像视为“bag of patches”，无法掌握图像中复杂的语义。我们希望 LLaVA 可以作为基准的坚实基线，我们的研究结果可以在此基础上启发未来开发更强大的 LMM 的工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.2 ScienceQA

ScienceQA [34] 包含 21,000 个多模态多项选择题，涉及 3 个科目、26 个主题、127 个类别和 379 个技能，具有丰富的领域多样性。基准数据集分为训练、验证和测试部分，分别有 12726、4241 和 4241 个示例。我们考虑了两种代表性方法，包括带有和不带有思维链 (CoT) 的 GPT-3.5 模型 (text-davinci-002)、LLaMA-Adapter [59]，以及多模态思维链 (MM-CoT) [61]，这是该数据集上的当前 SoTA 方法。有关更多基线数字，请参阅 [34]。结果报告在表 7 中。对于 LLaVA，我们在最后一层之前使用视觉特征，要求模型先预测原因然后预测答案，并训练 12 个 epoch。它的准确率为 90.92%，非常接近 SoTA 的 91.68%。为了探索 LLM 的极限，我们还使用 2 次上下文学习提示 GPT-4 并实现 82.69% 的准确率，与 GPT-3.5 的 75.17% 相比，绝对提高了 7.52%。对于大量问题，我们注意到 GPT-4 失败的原因仅仅是它报告图像或情节等上下文不足。我们考虑了两种方案来结合我们的模型和 GPT-4 的结果。（i）GPT-4 补充。每当 GPT-4 无法提供答案时，我们都会使用我们方法的预测。该方案的准确率为 90.97%，几乎与单独应用我们的方法相同。（ii）GPT-4 作为评判者。每当 GPT-4 和 LLaVA 给出不同的答案时，我们都会再次提示 GPT-4，要求它根据问题和两个结果提供自己的最终答案。其精神与 CoT 类似，但借助了来自其他模型的外部知识。令人惊讶的是，该方案能够在所有问题类别上提供持续的改进，并实现了 92.53% 的新 SoTA 准确率。有趣的是，无法处理图像的纯文本 GPT-4 提高了模型在以图像为背景的问题上的整体性能。这是因为其中一些问题实际上并不需要图像上下文来得到正确答案。GPT-4 判断器可以识别此类情况并纠正 LLaVA 所犯的一些错误。请参阅附录中的示例。据我们所知，这是 GPT-4 首次用于模型集成。我们希望这一发现可以鼓励未来的研究探索更有效的方法来利用 LLM 进行模型集成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

【

GPT-4作为裁判。每当GPT-4和LLaVA产生不同答案时，我们再次提示GPT-4，要求它基于问题和两个结果提供自己的最终答案

如下：】

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**Ablations.**我们在表 8 中列出了 ScienceQA 的几种设计选择。

（i）视觉特征。我们尝试使用 CLIP 视觉编码器的最后一层特征，其准确率为 89.96%，比最后一层之前的特征低 0.96%。我们假设这是因为 CLIP 的最后一层特征可能比它之前的层更关注全局和抽象的图像属性，而它之前的层可以更关注有助于理解特定图像细节的局部属性。

（ii）思路链。为了确定模型预测中答案和推理过程之间的顺序，我们运行了两种变体，并观察到答案优先在 12 个 epoch 中报告了最佳的 89.77% 的准确率，而推理优先可以在 6 个 epoch 中快速达到 89.77% 的准确率，但经过更多训练后没有进一步提高。对模型进行 24 个 epoch 的训练并不能提高性能。我们得出结论，类似 CoT 的推理优先策略可以大大提高收敛性，但对最终性能的贡献相对较小。

（iii）预训练。我们跳过预训练，直接从头开始训练 Science QA——性能下降到 85.81% 的准确率。5.11% 的绝对退化表明我们的预训练阶段在对齐多模态特征的同时保留大量预训练知识的重要性。（iv）模型大小。我们将所有配置保持与我们最好的 13B 模型相同，并训练一个 7B 模型。这产生了 89.84% 的准确率，比 90.92% 低 1.08%，证明了模型规模的重要性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6 Conclusion

本文展示了视觉指令调优的有效性。我们提出了一种automatic pipeline来创建语言图像指令跟踪数据，并在此基础上训练 LLaVA，这是一种多模态模型，可遵循人类意图完成视觉任务。它在 ScienceQA 上进行微调时实现了新的 SoTA 准确率，在多模态聊天数据上进行微调时实现了出色的视觉聊天能力。此外，我们提出了第一个基准来研究多模态指令跟踪能力。本文是视觉指令调优的第一步，主要关注现实生活中的任务。有关 LLaVA 在学术基准上的更多定量结果，请参阅使用视觉指令调优改进的基线 [32]。我们希望我们的工作能够启发未来构建更强大的多模态模型的研究。

低 1.08%，证明了模型规模的重要性。

[外链图片转存中…(img-wenNZZx7-1727166804008)]