大模型日报|7 篇必读的大模型论文
大家好,今日必读的大模型论文来啦!
1.大模型玩《黑神话:悟空》,完成 90% 简单、中等水平战斗
最近,基于大语言模型(LLM)的智能体在各个领域都取得了重大进展。最热门的研究领域之一是将这些智能体应用于视频游戏中。这些方法通常依赖于游戏 API 来访问游戏中的环境和动作数据。然而,这种方法受限于 API 的可用性,无法反映人类玩游戏的方式。
随着视觉语言模型(VLM)的出现,智能体现在拥有了更强的视觉理解能力,使其能够仅使用视觉输入与游戏进行交互。尽管取得了这些进步,但目前的方法在面向动作的任务中仍面临挑战,特别是在动作角色扮演游戏(ARPG)中,强化学习方法非常普遍,但通用性差,需要大量训练。
为了解决这些局限性,阿里团队选择以《黑神话:悟空》作为研究平台,探索现有 VLM 在需要纯视觉输入和复杂动作输出的场景中的能力边界。他们在游戏中定义了 12 项任务,其中 75% 以战斗为主,并将几种 SOTA 视觉语言模型纳入这一基准。此外,他们还将发布一个人工操作数据集,其中包含录制的游戏视频和操作日志,包括鼠标和键盘操作。他们还提出了一个 VARP(视觉动作角色扮演)智能体框架,由动作规划系统和视觉轨迹系统组成。这一框架展示了执行基本任务的能力,并在 90% 的简单和中等水平的战斗场景中取得了成功。这项研究旨在为在复杂的动作游戏环境中应用多模态智能体提供新的见解和方向。
论文链接:
https://arxiv.org/abs/2409.12889
GitHub 地址:
https://varp-agent.github.io
2.小红书推出 StoryMaker:实现“文生图”的特征整体一致
无需额外微调(Tuning-free)的个性化图像生成方法在保持面部一致性方面取得了巨大成功。然而,在有多个角色的场景中,缺乏整体一致性阻碍了这些方法创造连贯叙事的能力。
在这项工作中,小红书团队推出了一种个性化解决方案——StoryMaker,它不仅能保持面部的一致性,还能保持服装、发型和身体的一致性,从而通过一系列图像促进故事的创作。StoryMaker 融合了基于面部身份的条件和裁剪后的人物图像。具体来说,他们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪后的人物图像整合在一起,从而获得鲜明的人物特征。为了防止多个人物和背景混杂在一起,他们使用带有分割掩码的 MSE 损失分别限制不同人物和背景的交叉注意力影响区域。此外,他们以姿势为条件训练生成网络,从而促进与姿势的解耦。他们还采用了 LoRA 来提高保真度和质量。
论文链接:
https://arxiv.org/abs/2409.12576
GitHub 地址:
https://github.com/RedAIGC/StoryMaker
3.字节、中科院团队推出多模态数学预训练数据集 InfiMM-WebMath-40B
在大规模、高质量的数据集上进行预训练对于提高大语言模型(LLM)的推理能力至关重要,尤其是在数学等专业领域。尽管多模态大语言模型(MLLMs)的重要性已得到公认,但该领域目前仍缺乏专门针对数学推理的全面开源预训练数据集。
为了填补这一空白,来自字节跳动和中科院的研究团队推出了一个高质量的交错图像-文本文档数据集——InfiMM-WebMath-40B。该数据集由 2400 万个网页、8500 万个相关图片 URL 和 400 亿个文本 token 组成。为了证明 InfiMM-WebMath-40B 的鲁棒性,他们在纯文本和多模态环境中进行了评估。在纯文本基准上的评估结果表明,尽管只使用了 400 亿个 token,但数据集显著提高了 1.3B 参数模型的性能,其结果可与 DeepSeekMath-1.3B 相媲美,后者在相同的模型规模下使用了 1200 亿个 token。
尽管如此,随着多模态数学预训练数据集的引入,他们的模型在多模态数学基准(如 MathVerse 和 We-Math)上创造了达到了开源模型 SOTA。
论文链接:
https://arxiv.org/abs/2409.12568
4.综述:语言、语音和视觉任务中的偏好微调
偏好微调是使深度生成模型与人类偏好相一致的关键过程。在这项工作中,来自 Capital One 和哥伦比亚大学的研究团队全面概述了偏好微调和人类反馈整合方面的最新进展。分为三个主要部分:1)引言和前言:介绍强化学习框架、偏好微调任务、模型和各种模式的数据集:语言、语音和视觉,以及不同的策略方法;2)深入研究每种偏好微调方法:详细分析偏好微调中使用的方法;3)应用、讨论和未来方向:探讨偏好微调在下游任务中的应用,包括不同模态的评估方法,以及对未来研究方向的展望。
论文链接:
https://arxiv.org/abs/2409.11564
5.微软提出 MoE 训练新方法 GRIN
混合专家模型(MoE)通过专家路由进行稀疏计算,只选择性地激活一小部分专家模块,因此比稠密模型更能有效扩展。然而,稀疏计算对传统的训练方法提出了挑战,因为离散的专家路由会阻碍标准反向传播,从而阻碍基于梯度的优化,而梯度优化是深度学习的重要一环。
为了更好地发挥 MoE 的扩展能力,微软团队提出了 GRIN(GRadient-INformed MoE training),它将稀疏梯度估计用于专家路由,并配置模型并行性以避免 token 丢失。将 GRIN 应用于自回归语言建模,他们开发出了一个 top-2 16×3.8B MoE 模型。这一模型仅有 6.6B 激活参数,其性能超过了 7B 稠密模型,并与在相同数据上训练的 14B 密集模型不相上下。
对不同任务的广泛评估表明,GRIN 有潜力提高 MoE 的效率,在 MMLU、HellaSwag、HumanEval 和 MATH 上分别取得了 79.4、83.7、74.4 和 58.9 的分数。
论文链接:
https://arxiv.org/abs/2409.12136
6.JourneyBench:多模态大语言模型的视觉理解评估基准
最近的多模态大语言模型只能依靠背景语言偏差,在浅层视觉理解的基础上实现良好的性能。因此,在基准测试中表现优异并不一定与视觉理解能力强有关。
来自哥伦比亚大学、弗吉尼亚理工大学和加州大学洛杉矶分校的研究团队,推出了一个由人类标注的生成图像的综合基准——JourneyBench,旨在评估模型在以下五项任务中的细粒度多模态推理能力:互补多模态思维链、多图像 VQA、虚构图像描述、带有幻觉触发器的 VQA,以及带有特定样本干扰项的细粒度检索。与现有基准不同的是,JourneyBench 明确要求在不寻常的想象场景中进行细粒度多模态推理,而在这些场景中,语言偏差和整体图像要点是不够的。
他们在 JourneyBench 上对 SOTA 模型进行了基准测试,并从多个细粒度维度对性能进行了分析。所有五项任务的结果表明,即使对 SOTA 来说,JourneyBench 也极具挑战性,这表明模型的视觉推理能力并不像最初看起来那么强。
论文链接:
https://arxiv.org/abs/2409.12953
7.Promptriever:首个能够像 LM 一样进行提示的检索模型
经过指令微调的语言模型(LM)能够响应指令性命令,进而提供比基础模型更自然的用户界面。在这项工作中,来自约翰霍普金斯大学和 Samaya AI 的研究团队提出了首个能够像 LM 一样进行提示的检索模型——Promptriever。为了训练 Promptriever,他们从 MS MARCO 收集并发布了一个新的实例级指令训练集,涵盖近 50 万个实例。Promptriever 不仅在标准检索任务中表现出色,而且还能跟随指令。
他们观察到:(1)在跟随详细的相关性指令方面取得了巨大进步(达到了 SoTA)(FollowIR 上 +14.3 p-MRR / +3.1 nDCG),(2)对查询、指令中词汇选择/措辞的鲁棒性显著提高(InstructIR 上 +12.9 Robustness@10),(3)能够通过提示执行超参数搜索,从而可靠地提高检索性能(BEIR 上平均提高 +1.4)。Promptriever 证明了检索模型可以在每次查询的基础上通过提示进行控制,为今后将 LM 提示技术与信息检索相结合的工作奠定了基础。
论文链接:
https://arxiv.org/abs/2409.11136