当前位置: 首页 > news >正文

NLP论文速读|Describe-then-Reason: 通过视觉理解训练来提升多模态数学的推理

论文速读|Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Compre- hension Training

论文信息:

图片

简介:

      该论文试图解决的问题是开源多模态大型语言模型(MLLMs)在复杂多模态数学推理任务中的表现不佳的问题。尽管这些模型在处理涉及文本和视觉输入的任务时表现出了令人印象深刻的推理能力,但它们在解决数学相关的多模态问题时,相较于专有模型(如GPT-4V和Gemini-Pro)仍有较大差距。这种性能差距限制了开源MLLMs在教育内容生成和统计数据分析等领域的应用潜力。本文的动机在于,尽管通过中间步骤(即理由)的微调可以激发MLLMs的一些数学推理能力,但现有模型在视觉理解方面仍然存在不足,导致对数学图形的解释不准确。为了提高MLLMs在多模态数学推理中的表现,研究者们提出了一种新的训练流程,强调视觉理解训练的重要性,以期通过提升视觉理解能力来增强模型的整体推理能力。

论文方法:

图片

      本文提出了一个名为VCAR(Visual Comprehension training in Addition to mathematical Reasoning learning)的两步训练流程,旨在提升MLLMs的视觉理解和数学推理能力。具体分为以下两步:

      第一步:视觉理解训练。通过图像描述生成任务来增强MLLMs的视觉理解能力。这一步骤类似于MLLMs的预训练阶段,使用图像描述来对视觉特征和语言表示空间进行初步对齐,从而生成高质量的描述,为后续的数学推理能力发展提供支持。

      第二步:数学推理训练。在第一步的基础上,训练MLLMs基于描述生成推理步骤。通过图像描述提供的文本形式的上下文,将数学推理训练从视觉理解的需求中分离出来,使得模型能够在理解视觉内容的同时,专注于数学推理能力的提升。

此外,为了获取上述两步训练的监督信号,研究者们利用Gemini-Pro模型收集了描述性内容和理由,分别用于理解图像和推理答案。为了优化每个训练步骤,本文采用了两个低秩适应(LoRA)模块,分别增强视觉理解和数学推理能力,而无需重新优化所有模型参数。

论文实验:

图片

      VCAR在MathVista和MathVerse两个基准测试中的表现均优于其他基线方法。这表明VCAR在提升MLLMs的多模态数学推理能力方面是有效的。在MathVista上,VCAR在所有问题类型(FQA、GPS、MWP、TQA、VQA)上的平均准确率比基线方法高出显著。例如,与直接训练(Direct)方法相比,VCAR的平均准确率从26.1%提高到了33.7%。在MathVerse上,VCAR在不同问题类别(TD、TL、VI、VD、VO)上也显示出了一致的性能提升。特别是在视觉需求较高的“visual-only”和“visual-dominant”类别上,VCAR相对基线方法实现了更大的改进。

论文链接:

https://arxiv.org/abs/2404.14604

原文来自:

NLP论文速读|Describe-then-Reason: 通过视觉理解训练来提升多模态数学的推理


http://www.mrgr.cn/news/68878.html

相关文章:

  • 苍穹外卖 数据可视化
  • [CKS] K8S AppArmor Set Up
  • 优化Mac的鼠标使用体验超简单方法
  • 自闭症机构推荐:让孩子找回快乐与自信
  • 机器学习(七)——集成学习(个体与集成、Boosting、Bagging、随机森林RF、结合策略、多样性增强、多样性度量、Python源码)
  • InnoDB存储引擎
  • 用 Python搭建一个微型的HTTP服务器用于传输 2024/11/9
  • 985研一学习日记 - 2024.11.8
  • 寡头垄断模型
  • OpenEuler 下 Docker 安装、配置与测试实例
  • 【51蛋骗鸡按键控制流水速度快慢数码管显示;按键切换流水方向3则】2022-3-7
  • isc-dhcp-server
  • 经典双指针--合并升序链表
  • Linux基础
  • 闯关leetcode——3194. Minimum Average of Smallest and Largest Elements
  • c++17文件系统
  • 什么是 eCPRI,它对 5G 和 Open RAN 有何贡献?
  • 计算机毕业设计Python流量检测可视化 DDos攻击流量检测与可视化分析 SDN web渗透测试系统 网络安全 信息安全 大数据毕业设计
  • PyQt入门指南四十六 性能优化策略
  • Day 56 || 99.岛屿数量、100.岛屿的最大面积
  • 【鉴权】深入了解 Cookie:Web 开发中的客户端存储小数据
  • 计算机毕业设计Python+Neo4j中华古诗词可视化 古诗词智能问答系统 古诗词数据分析 古诗词情感分析 PyTorch Tensorflow LSTM
  • RK3568平台开发系列讲解(设备树篇)设备树中CPU描述
  • //二维数组的遍历方式
  • pandas习题 054:将两个 DataFrame 导出到 Excel 的不同表
  • 【系统集成项目管理工程师】英语词汇对照表-项目管理类