NLP论文速读(NeurIPS2024)|使用视觉增强的提示来增强视觉推理
论文速读|Enhancing LLM Reasoning via Vision-Augmented Prompting
论文信息:
简介:
这篇论文试图解决的问题是大型语言模型(LLMs)在处理包含视觉和空间线索的推理问题时的局限性。尽管基于LLMs的推理框架(如Chain-of-Thought及其变体)在纯文本任务上取得了显著进展,但它们主要关注语言维度,导致在涉及视觉和空间解释的任务(例如几何问题或网格谜题)上存在局限。本文的动机源于人类认知系统中处理语言和视觉空间信息的两个专门子系统,这两个子系统激活不同的大脑区域,并经常协同工作以进行认知推理。作者提出,模仿人类这种双模态处理能力可以显著提升LLMs的推理能力。因此,本文提出了一种新的双模态推理框架,旨在通过结合视觉增强提示(Vision-Augmented Prompting,简称VAP)来增强LLMs的推理能力。
论文方法:
第一步:规划
VAP接收文本问题描述作为输入,首先生成一个高层次的推理计划。这包括选择合适的绘图工具和创建初始图像。利用外部绘图工具的API文档作为LLM的上下文,以促进绘图工具的选择和图形合成。
第二步:迭代推理
VAP迭代地对图像进行推理、更新,并在每次迭代中生成相应的文本思考。这个过程产生了图像和文本模态的思考链。每次迭代都由MLLM指导,根据部分完成的图像和之前的思考轨迹生成更新图像的API调用指令,并生成伴随的“思考”。
第三步:结论性推理
当迭代推理终止时,VAP将使用合成的图像、原始问题和迭代思考的轨迹来得出最终答案。为了增强鲁棒性,本文引入了一种名为自我对齐的技术,MLLM首先描述图像内容,如果自我描述与初始高层次计划不一致,则丢弃图像并重新启动推理过程。
论文实验:
本文的实验部分旨在评估所提出的Vision-Augmented Prompting(VAP)框架在处理包含视觉和空间线索的复杂推理任务中的有效性。
实验涉及四个不同的任务:几何交集计数、数独谜题、时间序列预测和旅行商问题(TSP)。这些任务被选为它们在视觉和空间解释上的要求各不相同,从而能够全面评估VAP的性能。
实验结果表明,VAP通过结合视觉输入显著提高了LLMs在处理视觉和空间线索的推理任务中的性能。特别是在复杂场景下,VAP的优势更加明显,这验证了将视觉信息与文本信息结合对于提升推理能力的重要性。
论文链接:
https://neurips.cc/virtual/2024/poster/95453
原文来自:
NLP论文速读(NeurIPS2024)|使用视觉增强的提示来增强视觉推理