当前位置: 首页 > news >正文

大模型日报|12 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

谷歌推出生成式无限游戏 Unbounded

来自谷歌和北卡罗来纳大学的研究团队推出了“生成式无限游戏”(generative infinite game)的概念,即通过使用生成式模型,超越传统的有限、硬编码系统界限的视频游戏。

受 James P. Carse 区分有限游戏和无限游戏的启发,他们利用生成式人工智能的最新进展,创建了 Unbounded:一款完全由生成式模型封装的角色生活模拟游戏。Unbounded 从沙盘生活模拟中汲取灵感,可以让玩家在虚拟世界中通过喂养、玩耍和引导自主虚拟角色与之互动——由 LLM 生成开放式机制,其中一些机制可能是“涌现”的。

为了开发 Unbounded,他们在 LLM 和视觉生成领域提出了技术创新。具体来说,他们提出了:(1)一个专门的、经过提炼的大语言模型(LLM),可实时动态生成游戏机制、叙事和角色互动;(2)一个用于视觉模型的新型动态区域图像提示适配器(IP-Adapter),可确保在多个环境中一致而灵活地生成角色的视觉效果。他们通过定性和定量分析对系统进行了评估,结果表明,与传统的相关方法相比,该系统在角色生活模拟、用户指令遵循、叙事连贯性以及角色和环境的视觉一致性方面都有显著改进。

论文链接:
https://arxiv.org/abs/2410.18975
GitHub 地址:
https://generative-infinite-game.github.io/

Meta 推出 LongVU:用于长视频语言理解的时空自适应压缩技术

多模态大语言模型(MLLM)在理解和分析视频内容方面取得了可喜的进展。然而,受限于 LLM 的上下文长度,处理长视频仍然是一项重大挑战。为了解决这一限制,Meta 联合阿卜杜拉国王科技大学和高丽大学的研究团队推出了一种时空自适应压缩机制 LongVU,它可以减少视频 tokens 的数量,同时保留长视频的视觉细节。

他们的想法是利用跨模态查询和帧间依赖关系,自适应地减少视频中的时空冗余。具体来说,他们利用 DINOv2 特征来删除相似度高的冗余帧。然后,利用文本引导的跨模态查询来选择性地减少帧特征。此外,他们还根据帧与帧之间的时间依赖关系对帧进行空间 tokens 缩减。他们的自适应压缩策略能有效处理大量帧,在给定的上下文长度内几乎不会损失视觉信息。在各种视频理解基准测试中,LongVU 始终超越现有方法,尤其是在长达一小时的视频理解任务(如 VideoMME 和 MLVU)中。在轻量级 LLM 的情况下,LongVU 还能有效地扩展到更小的规模,并在视频理解性能方面达到 SOTA。

论文链接:
https://arxiv.org/abs/2410.17434
GitHub 地址:
https://github.com/Vision-CAIR/LongVU

V-GPS:通过价值引导改进机器人基础模型

在各种演示数据集上训练的大型通用机器人策略已被证明对在各种不同场景中控制各种机器人和掌握广泛的操作技能非常有效。然而,这些策略训练所依据的数据通常质量参差不齐,不仅人类收集的演示不可能完美地完成任务,而且数据集越大,就越难筛选出高质量的示例。此外,来自一个具身的数据对另一个具身的最佳训练效果如何也仍不清楚。

基于此,来自加州大学伯克利分校和卡内基梅隆大学的研究团队推出了一种通用且广泛适用的方法,该方法根据通过离线 RL 学习到的价值函数对机器人的行动进行重新排序,从而在部署时提高此类通用机器人策略的性能。他们将这种方法称为 “价值引导策略指导”(Value-Guided Policy Steering,V-GPS),它与各种不同的通用策略兼容,无需对策略权重进行微调,甚至无需访问权重。研究表明,相同的价值函数可以提高五种不同架构的先进策略的性能,即使它们是在不同的数据集上训练出来的,也能在多个机器人平台上总共 12 项任务中获得一致的性能提高。

论文链接:
https://arxiv.org/abs/2410.13816
项目地址:
https://nakamotoo.github.io/V-GPS/

NIH 推出医学大语言模型操作指南

大语言模型(LLM)能够在不同的上下文中生成类似人类的反应,并根据人类指令适应新任务,从而彻底改变医疗保健的各个方面。它们的潜在应用范围涵盖广泛的医疗任务,如临床文档、将患者与临床试验相匹配以及回答医疗问题。

在这篇入门论文中,来自美国国立卫生研究院(NIH)的研究团队及其合作者推出了一个可操作的指南,帮助医疗专业人员在工作中更有效地利用 LLM,并提供了一套最佳实践。该方法由几个主要阶段组成,包括制定任务、选择 LLM、提示工程、微调和部署。

他们首先讨论了在确定与 LLM 核心功能对齐的医疗保健任务以及根据所选任务和数据、性能要求和模型接口选择模型时的关键考虑因素。然后,他们回顾了使标准 LLMs 适应专业医疗任务的策略,如提示工程和微调。此外,他们还讨论了部署方面的注意事项,包括监管合规性、道德准则以及对公平性和偏差的持续监控。通过提供结构化的分步方法,该教程旨在为医疗保健专业人员提供将 LLM 有效整合到临床实践中所需的工具,确保以安全、可靠和有影响力的方式应用这些技术。

论文链接:
https://arxiv.org/abs/2410.18856
GitHub 地址:
https://github.com/ncbi-nlp/LLM-Medicine-Primer

清华、中科院、智谱团队提出 LongRAG

长上下文问答(LCQA)是一项具有挑战性的任务,旨在对长上下文文档进行推理,从而得出问题的准确答案。现有的用于 LCQA 的长上下文大语言模型(LLM)往往难以解决“lost in the middle”的问题。检索增强生成(RAG)通过提供外部事实证据来缓解这一问题。然而,它的分块策略会破坏全局性的长上下文信息,而且其在长上下文中的低质量检索会由于大量噪音而阻碍 LLM 识别有效的事实细节。

为此,来自清华大学、中国科学院和智谱的研究团队提出了一种通用的、双视角的、鲁棒的基于 LLM 的 RAG 系统范式——LongRAG,在 LCQA 任务中增强 RAG 对复杂长上下文知识(即全局信息和事实细节)的理解。

他们将 LongRAG 设计为即插即用范例,便于适应各种领域和 LLM。在三个多跳数据集上进行的广泛实验表明,LongRAG 的性能明显优于长上下文 LLM(提高了 6.94%)、高级 RAG(提高了 6.16%)和 Vanilla RAG(提高了 17.25%)。此外,他们还进行了定量消融研究和多维分析,凸显了系统组件和微调策略的有效性。

论文链接:
https://arxiv.org/abs/2410.18050
GitHub 地址:
https://github.com/QingFei1/LongRAG

通过自回归模型扩展扩散语言模型

扩散语言模型(DLM)已成为文本生成建模的一种有前途的新范式,有可能解决自回归(AR)模型的局限性。然而,与 AR 模型相比,目前对 DLM 的研究规模较小,缺乏语言建模基准的公平比较。此外,大规模地从头开始训练扩散模型仍然具有挑战性。

鉴于开源 AR 语言模型的普遍性,来自香港大学、伊利诺伊大学香槟分校的研究团队及其合作者,建议通过调整开源 AR 语言模型来建立文本扩散模型。他们展示了 AR 和扩散建模目标之间的联系,并介绍了一种用于训练扩散模型的简单持续预训练方法。

通过对语言建模、推理和常识基准的系统评估,他们发现,他们可以将参数范围从 1.27 亿到 7B 的 AR 模型(GPT2 和 LLaMA)转换为扩散模型 DiffuGPT 和 DiffuLLaMA,只需使用不到 2 亿个 token 进行训练。实验结果表明,这些模型的性能优于早期的 DLM 模型,并可与 AR 模型相媲美。

论文链接:
https://arxiv.org/abs/2410.17891
GitHub 地址:
https://github.com/HKUNLP/DiffuLLaMA

苹果推出模型更新训练策略 MUSCLE

大语言模型(LLM)会定期更新以提高性能,通常是通过更改数据或架构来实现。在更新过程中,开发人员通常会优先考虑提高整体性能指标,而较少关注保持与早期模型版本的兼容性。从一个模型版本到下一个模型版本的实例级性能下降(实例回归,instance regression)会干扰用户对特定语言模型能力的心智模型。用户不得不在每次更新时调整他们的心智模型,这可能会导致不满,尤其是当新模型在已知用例中的性能与之前的版本相比有所下降时(模型更新回归,model update regression)。

苹果团队发现,当更新预训练的 LLM 基本模型时,经过微调的面向用户的下游任务适配器会出现负翻转——以前正确的实例现在预测错误。他们观察到,即使下游任务训练程序保持一致,在不同的任务和模型集上的不同模型版本之间也会出现模型更新回归。

他们论证了在更新过程中保持模型更新兼容性的重要性,并提出了专为生成任务设计的评估指标,同时也适用于判别任务。他们提出了一种训练策略,以尽量减少模型更新中的实例回归程度,其中包括训练一种兼容性适配器,它可以增强任务微调语言模型。结果表明,在使用该方法将 Llama 1 更新为 Llama 2 时,负翻转率最高可减少 40%。

论文链接:
https://arxiv.org/abs/2407.09435

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM

知识蒸馏(KD)被广泛用于使用教师大语言模型训练高性能的学生小语言模型(LM)。在预训练过程中,知识蒸馏虽然能有效地进行微调,但在效率、灵活性和有效性方面却面临挑战。现有的方法要么会因在线教师推理而产生高昂的计算成本,要么需要在教师和学生的 LM 之间进行 tokenization 匹配,要么可能会失去教师生成的训练数据的难度和多样性。

为了解决这些问题,来自清华大学和腾讯的研究团队提出了 MiniPLM,这是一个通过利用教师知识完善训练数据分布来预训练 LM 的 KD 框架。为了提高效率,MiniPLM 执行离线教师 LM 推理,允许对多个学生 LM 进行 KD,而不增加训练时间成本。在灵活性方面,MiniPLM 仅在训练语料库上运行,从而实现跨模型族的 KD。在有效性方面,MiniPLM 利用大型 LM 和小型 LM 之间的差异,提高了训练数据的难度和多样性,帮助学生 LM 获得多方面复杂知识。

大量实验证明,MiniPLM 提高了学生 LM 在 9 个广泛使用的下游任务中的表现,提高了语言建模能力,并减少了预训练计算量。MiniPLM 的优势可以扩展到更大的预训练规模,这一点可以从扩展曲线的推断中得到证明。进一步的分析表明,MiniPLM 支持跨模型系列的 KD,并提高了预训练数据的利用率。

论文链接:
https://arxiv.org/abs/2410.17215
GitHub 地址:
https://github.com/thu-coai/MiniPLM

中科院团队:通过自转向优化对齐大语言模型

自动对齐开发了只需最少人工干预的对齐系统。自动对齐的关键在于为偏好学习提供可学习的、准确的偏好信号,而无需人工标注。

在这项工作中,来自中国科学院的研究团队及其合作者提出了自转向优化(SSO),这是一种在迭代训练过程中根据预定义原则自主生成高质量偏好信号的算法,无需人工标注。SSO 通过确保被选择和被拒绝的响应之间保持一致的差距来保持信号的准确性,同时使它们都符合政策,以适应当前政策模型的学习能力。SSO 有利于策略模型的在线和离线训练,也能加强奖励模型的训练。

他们用两个基础模型 Qwen2 和 Llama3.1 验证了 SSO 的有效性,表明它能在整个迭代训练过程中提供准确的政策偏好信号。在没有任何人工标注或外部模型的情况下,SSO 在六项主观或客观基准测试中都取得了显著的性能提升。此外,SSO 生成的偏好数据显著提高了奖励模型在 Rewardbench 上的性能。

论文链接:
https://arxiv.org/abs/2410.17131

大语言模型支持多智能体集成方法,可实现高效的 EHR 数据标注

得克萨斯大学西南医学中心研究团队提出了一种由 LLM 驱动的新型多智能体集合方法,以解决 ML 中的一个关键难题——数据标注,尤其是大规模 EHR 数据集中的数据标注。对此类数据集进行人工标注需要专业领域的知识,而且劳动密集、耗时、成本高且容易出错。为了克服这一瓶颈,他们开发了一种 LLM 组合方法,并在两个实际任务中证明了它的有效性:(1)在 MIMIC-IV 中标记大规模未标记心电图数据集;(2)从电子病历的临床记录中识别健康的社会决定因素(SDOH)。

在权衡收益和成本后,他们选择了一批性能令人满意的各种开源 LLM。他们将每个 LLM 的预测视为一票,并采用多数投票机制和最小获胜阈值进行集合。他们在电子病历数据标注任务中应用了集合 LLM。通过使用集合 LLM 和自然语言处理,他们对包含 623,566 份心电图报告的 MIMIC-IV 心电图数据集进行了标注,估计准确率为 98.2%。他们将集合 LLMs 方法用于从 1,405 份电子病历临床记录的社会历史部分中识别 SDOH,也取得了很好的效果。

实验表明,集合 LLM 可以超越单个 LLM,甚至是最好的商业 LLM,而且该方法可以减少幻觉错误。通过研究发现:(1) LLM 集合方法大大减少了大规模EHR数据标注所需的时间和精力,实现了高精度、高质量的自动化流程;(2) 该方法可以很好地推广到其他文本数据标注任务中,如其在SDOH识别中的应用所示;(3) 一组不同 LLM 的集合可以超越或匹配最佳单个 LLM 的性能;(4) 集合方法大大减少了幻觉错误。

论文链接:
https://arxiv.org/abs/2410.16543

大语言模型赋能个性化网络智能体

网络智能体已成为根据用户指令自动完成网络任务的一个有前途的方向,可显著提高用户体验。最近,网络智能体已从传统智能体发展到基于大语言模型(LLM)的网络智能体。尽管取得了成功,但现有的基于 LLM 的网络智能体忽视了个性化数据(如用户资料和历史网络行为)在帮助理解用户个性化指令和执行定制操作方面的重要性。

为了克服这一局限,来自新加坡国立大学和香港科技大学的研究团队及其合作者首先提出了由 LLM 驱动的个性化网络智能体的任务,即整合个性化数据和用户指令,实现指令理解和操作执行的个性化。为了解决缺乏综合评估基准的问题,他们构建了一个个性化网络智能体基准(PersonalWAB),其中包括用户指令、个性化用户数据、网络功能以及三种个性化网络任务的两种评估范式。

此外,他们还提出了个性化用户记忆增强对齐(PUMA)框架,以使 LLM 适应个性化网络智能体任务。PUMA 利用具有特定任务检索策略的记忆库来过滤相关的历史网络行为。然后,PUMA 根据这些行为,通过微调和直接偏好优化调整 LLM,以执行个性化操作。广泛的实验验证了 PUMA 在 PersonalWAB 上优于现有的网络智能体。

论文链接:
https://arxiv.org/abs/2410.17236

新国大团队提出针对 LLM 的自学式反样本推理

机器学习的关键组成部分是用于训练的数据样本、用于学习模式的模型以及用于优化准确性的损失函数。与此类似,反数据样本(或反样本)、反学习方法和反向损失函数也有可能实现反学习。虽然之前的研究已经探索了解除学习方法和反向损失函数,但反样本的潜力在很大程度上仍未得到开发。

在这项工作中,来自新加坡国立大学的研究团队及其合作者提出了 UnSTAR:针对大语言模型(LLM)的自学式反样本推理(Unlearning with Self-Taught Anti-Sample Reasoning)。

他们的贡献有三个方面:首先,他们提出了反样本诱导解除学习的新概念;其次,他们利用误导性推理生成反样本,这有助于逆转已学关联并加速解除学习过程;第三,他们实现了细粒度的定向解除学习,允许在不影响相关知识的情况下有选择性地删除特定关联——这是以前的工作无法实现的。

论文链接:
https://arxiv.org/abs/2410.17050


http://www.mrgr.cn/news/58478.html

相关文章:

  • 黑科技!Llama 3.2多模态AI震撼发布
  • Unity Apple Vision Pro 保姆级开发教程-环境配置、导入 PolySpatial 案例、程序发布到设备
  • C++基础1
  • 外呼机器人的功能特点
  • 在运用了高匿ip后我成为了高级玩家
  • 【福建医科大学附属第一医院-注册安全分析报告】
  • 放电消纳负载是什么
  • 前端经典【面试题】持续更新HTML、CSS、JS、VUE、FLUTTER、性能优化等
  • 探索自然之美:SpringBoot驱动的安康旅游网站开发
  • 国标GB28181软件EasyGBS国标GB28181-2022平台视频监控方案
  • rsync 客户端实现自动备份 Windows端powershell脚本及bat批处理文件程序
  • 使用高德API和MapboxGL实现路径规划并语音播报
  • Robot Framework实战
  • 使用 Kafka 和 MinIO 实现人工智能数据工作流
  • 反悔贪心学习笔记[浅谈]
  • Java多Module项目打包
  • 第一单元历年真题整理
  • Linux中查询Redis中的key和value(没有可视化工具)
  • C++常用函数定义解释
  • HBuilder X 中Vue.js基础使用->计算属性的应用(三)
  • 大数据环境下的数据清洗技术研究
  • 广告变现:2024年全球四大热门聚合广告平台
  • 什么是高存储服务器,有哪些优势,如何选择?
  • 数据挖掘:基于电力知识图谱的客户画像构建实施方案
  • 助力FP商家躲过审核机制,规避封号风险
  • 光影交织,文旅融合:开启城市新风尚