当前位置：首页 > news >正文

NLP论文速读（NeurIPS2024）|使用视觉增强的提示来增强视觉推理

news 2025/7/10 14:29:12

论文速读|Enhancing LLM Reasoning via Vision-Augmented Prompting

论文信息：

简介:

这篇论文试图解决的问题是大型语言模型（LLMs）在处理包含视觉和空间线索的推理问题时的局限性。尽管基于LLMs的推理框架（如Chain-of-Thought及其变体）在纯文本任务上取得了显著进展，但它们主要关注语言维度，导致在涉及视觉和空间解释的任务（例如几何问题或网格谜题）上存在局限。本文的动机源于人类认知系统中处理语言和视觉空间信息的两个专门子系统，这两个子系统激活不同的大脑区域，并经常协同工作以进行认知推理。作者提出，模仿人类这种双模态处理能力可以显著提升LLMs的推理能力。因此，本文提出了一种新的双模态推理框架，旨在通过结合视觉增强提示（Vision-Augmented Prompting，简称VAP）来增强LLMs的推理能力。

论文方法:

第一步：规划
VAP接收文本问题描述作为输入，首先生成一个高层次的推理计划。这包括选择合适的绘图工具和创建初始图像。利用外部绘图工具的API文档作为LLM的上下文，以促进绘图工具的选择和图形合成。

第二步：迭代推理
VAP迭代地对图像进行推理、更新，并在每次迭代中生成相应的文本思考。这个过程产生了图像和文本模态的思考链。每次迭代都由MLLM指导，根据部分完成的图像和之前的思考轨迹生成更新图像的API调用指令，并生成伴随的“思考”。

第三步：结论性推理
当迭代推理终止时，VAP将使用合成的图像、原始问题和迭代思考的轨迹来得出最终答案。为了增强鲁棒性，本文引入了一种名为自我对齐的技术，MLLM首先描述图像内容，如果自我描述与初始高层次计划不一致，则丢弃图像并重新启动推理过程。

论文实验:

本文的实验部分旨在评估所提出的Vision-Augmented Prompting（VAP）框架在处理包含视觉和空间线索的复杂推理任务中的有效性。

实验涉及四个不同的任务：几何交集计数、数独谜题、时间序列预测和旅行商问题（TSP）。这些任务被选为它们在视觉和空间解释上的要求各不相同，从而能够全面评估VAP的性能。

实验结果表明，VAP通过结合视觉输入显著提高了LLMs在处理视觉和空间线索的推理任务中的性能。特别是在复杂场景下，VAP的优势更加明显，这验证了将视觉信息与文本信息结合对于提升推理能力的重要性。

论文链接：

https://neurips.cc/virtual/2024/poster/95453

原文来自：

NLP论文速读（NeurIPS2024）|使用视觉增强的提示来增强视觉推理

http://www.mrgr.cn/news/70795.html

相关文章：

SQLite Where 子句

从2D到3D：MoGe——微软的单目3D几何重建模型

Python CSV文件列合并实战：从基础到进阶

[数组二分查找] 0374. 猜数字大小

知名开源项目官宣停更，太痛了！

（66）RLS均衡器和LMS均衡器作用于通过频率选择性衰落信道的16-QAM信号的性能对比MATLAB仿真

Python函数专题：偏函数

halcon拉普拉斯算子

【优选算法】探索双指针之美（一）: 同向双指针缔造滑动窗口

SpringBoot（十二）SpringBoot配置redis

使用金鸣识别在线网页版将行驶证转为结构化Excel教程

C#画图板的详细示例代码

【linux】CentOS 的软件源（Repository）学习

C++ | Leetcode C++题解之第559题N叉树的最大深度

【Linux】获得同一子网下当前在线设备IP/Latency/MAC 通过nmap指定CIDR扫描当前在线设备

启动QT时，出现找不到python27.dll的问题报错

后端：Aop 面向切面编程

Springboot配置全局异常通用返回

Golang | Leetcode Golang题解之第559题N叉树的最大深度

初识Linux · 共享内存