当前位置: 首页 > news >正文

Claude 3.5 Opus并非训练失败:Anthropic自留,用于数据合成与RL训练

Claude 3.5 Opus
最近,关于 Claude 3.5 Opus 模型训练失败的传闻甚嚣尘上,引发了业界的广泛关注。然而,semianalysis 的一份最新报告却给出了一个惊人的反转:Claude 3.5 Opus 并非训练失败,而是被 Anthropic “雪藏”起来,用于内部数据合成和强化学习奖励建模,以提升 Claude 3.5 Sonnet 的性能。这一消息无疑给大模型领域带来了一股新的震动,也揭示了 AI 模型训练背后不为人知的新范式。

Claude 3.5 Opus 的“秘密使命”:数据合成与 RL 训练

据 semianalysis 分析师爆料,Anthropic 并没有将 Claude 3.5 Opus 公开发布,而是将其作为内部训练的“秘密武器”。Claude 3.5 Opus 的主要任务是为 Claude 3.5 Sonnet 合成训练数据,并进行强化学习奖励建模。

这种方法的好处在于,它可以在不明显提升推理成本的前提下,显著提高模型的性能。通过使用更好的模型来生成更高质量的合成数据,Anthropic 能够不断迭代优化其模型性能。

为何不发布?商业考量下的“战略性放弃”

既然 Claude 3.5 Opus 如此强大,为何 Anthropic 不将其直接发布呢?semianalysis 分析认为,这是一种商业考量下的“战略性放弃”。

相较于直接发布,Anthropic 更倾向于用最好的模型来做内部训练,并发布性能同样出色的 Claude 3.5 Sonnet。这样做可以最大化模型的效用,并避免在激烈的市场竞争中过早暴露自己的底牌。

新旧范式交替:大模型开发加速进行时

semianalysis 的报告还深入分析了当前大模型开发在算力、数据、算法上面临的挑战与现状,并提出了一个核心观点:新范式还在不断涌现,AI 进程没有减速。

尽管有诸多声音认为,随着新模型在基准测试上的提升不够明显,现有训练数据几乎用尽以及摩尔定律放缓,大模型的 Scaling Law 要失效了,但顶尖 AI 实验室和计算公司仍然在加速建设数据中心,并向底层硬件投入更多的资源。

这表明,最能深刻影响 AI 进程的人们,仍然相信 Scaling Law 的有效性。因为新的范式在不断形成,并且这些范式确实有效,使得 AI 开发仍在继续加速。

新范式一:合成数据,解决数据瓶颈

随着公开数据的日益枯竭,合成数据成为了解决数据瓶颈的重要途径。通过使用 GPT-4 等大型模型来合成数据,可以有效提高其他模型的性能。

而 Claude 3.5 Opus 的“秘密使命”也正是在于此。它承担了为 Claude 3.5 Sonnet 合成训练数据、替代人类反馈的工作。事实证明,合成数据越多,模型就越好。更好的模型能提供更好的合成数据,也能提供更好的偏好反馈,这能推动人类开发出更好的模型。

semianalysis 还列举了更多使用合成数据的例子,包括拒绝采样、模式判断、长上下文数据集几种情况。例如,Meta 将 Python 代码翻译成 PHP,并通过语法解析和执行来确保数据质量,从而弥补公共 PHP 代码的不足。

新范式二:RLAIF,AI 自我反馈

除了使用合成数据,还有一种新的范式正在兴起,那就是让 AI 替人类进行反馈——RLAIF(Reinforcement Learning from AI Feedback)。

RLAIF 主要分为两个阶段:

  1. 模型自修改: 模型先根据人类编写的标准对自己的输出进行修改,然后创建出一个修订-提示对的数据集,使用这些数据集通过 SFT 进行微调。
  2. 无人类偏好强化学习: 类似于 RLHF,但这一步完全没有人类偏好数据,而是完全由 AI 模型进行反馈。

这种方法最值得关注的一点是,它可以在许多不同领域扩展,并且可以有效降低对人类偏好数据的依赖。

新范式三:搜索,扩展推理计算

除了算力、数据和算法,semianalysis 还提出了一个值得关注的新范式:通过搜索来扩展推理计算。

报告中指出,搜索是扩展的另一个维度。OpenAI 的 o1 模型没有利用这个维度,但是 o1 Pro 模型则使用了搜索方法。o1 模型在测试时阶段不评估多条推理路径,也不进行任何搜索。

而 Self-Consistency / Majority Vote 就是一种典型的搜索方法。它通过多次运行提示词,产生多个响应,然后根据给定的样本数量,从响应中选出出现频率最高的作为正确答案。

结语:大模型竞争进入新阶段

Claude 3.5 Opus 的传闻反转,不仅揭示了大模型训练的新范式,也预示着大模型竞争进入了一个新的阶段。未来,我们或许会看到更多类似 Claude 3.5 Opus 这样的“秘密武器”出现,而合成数据、RLAIF 和搜索等新范式,也将成为各大 AI 公司争夺市场份额的关键。

ai模型体验
AI模型对比学习: 如果您希望深入了解不同的AI模型, chatTools 是一个不错的选择,您可以在这里体验o1推理模型、GPT4o、Claude和Gemini等,进行对比学习。


http://www.mrgr.cn/news/80949.html

相关文章:

  • 远程过程调用(RPC,Remote Procedure Call)是一种协议
  • Android settings命令详解
  • 【Cadence射频仿真学习笔记】IC设计中电感的分析、建模与绘制(EMX电磁仿真,RFIC-GPT生成无源器件及与cadence的交互)
  • Android HandlerThread、Looper、MessageQueue 源码分析
  • 使用国内镜像网站在线下载安装Qt(解决官网慢的问题)——Qt
  • 【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数(四)
  • Pytorch | 利用NI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击
  • Python pygame 主副屏编程时 在副屏上全屏窗口的方法
  • JAVA包装类变量赋值是会新创建对象实例
  • JAVA队列每次添加需要新实例才能独立更新
  • Docker镜像启动
  • 门户系统需要压测吗?以及门户系统如何压力测试?
  • 【操作系统不挂科】<内存管理-文件系统实现(18)>选择题(带答案与解析)
  • 什么是静态站点生成器,有哪些特点
  • Python毕业设计选题:基于Python的农产品销售系统的设计与实现_django
  • 稀疏矩阵的存储与计算 gaxpy
  • Spring Cloud Gateway 源码
  • CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读
  • Linux shell脚本用于常见图片png、jpg、jpeg、tiff格式批量转webp格式后,并添加文本水印
  • 【C语言程序设计——入门】C语言入门与基础语法(头歌实践教学平台习题)【合集】
  • 游戏开发技能系统常用概念
  • 云计算HCIP-OpenStack02
  • 基础2:值类型与右值引用
  • redo log 和 undo log
  • 实现 WebSocket 接入文心一言
  • Golang学习历程【第二篇 fmt包变量、常量的定义】