当前位置：首页 > news >正文

Claude 3.5 Opus并非训练失败：Anthropic自留，用于数据合成与RL训练

news 2025/4/27 6:42:57

最近，关于 Claude 3.5 Opus 模型训练失败的传闻甚嚣尘上，引发了业界的广泛关注。然而，semianalysis 的一份最新报告却给出了一个惊人的反转：Claude 3.5 Opus 并非训练失败，而是被 Anthropic “雪藏”起来，用于内部数据合成和强化学习奖励建模，以提升 Claude 3.5 Sonnet 的性能。这一消息无疑给大模型领域带来了一股新的震动，也揭示了 AI 模型训练背后不为人知的新范式。

Claude 3.5 Opus 的“秘密使命”：数据合成与 RL 训练

据 semianalysis 分析师爆料，Anthropic 并没有将 Claude 3.5 Opus 公开发布，而是将其作为内部训练的“秘密武器”。Claude 3.5 Opus 的主要任务是为 Claude 3.5 Sonnet 合成训练数据，并进行强化学习奖励建模。

这种方法的好处在于，它可以在不明显提升推理成本的前提下，显著提高模型的性能。通过使用更好的模型来生成更高质量的合成数据，Anthropic 能够不断迭代优化其模型性能。

为何不发布？商业考量下的“战略性放弃”

既然 Claude 3.5 Opus 如此强大，为何 Anthropic 不将其直接发布呢？semianalysis 分析认为，这是一种商业考量下的“战略性放弃”。

相较于直接发布，Anthropic 更倾向于用最好的模型来做内部训练，并发布性能同样出色的 Claude 3.5 Sonnet。这样做可以最大化模型的效用，并避免在激烈的市场竞争中过早暴露自己的底牌。

新旧范式交替：大模型开发加速进行时

semianalysis 的报告还深入分析了当前大模型开发在算力、数据、算法上面临的挑战与现状，并提出了一个核心观点：新范式还在不断涌现，AI 进程没有减速。

尽管有诸多声音认为，随着新模型在基准测试上的提升不够明显，现有训练数据几乎用尽以及摩尔定律放缓，大模型的 Scaling Law 要失效了，但顶尖 AI 实验室和计算公司仍然在加速建设数据中心，并向底层硬件投入更多的资源。

这表明，最能深刻影响 AI 进程的人们，仍然相信 Scaling Law 的有效性。因为新的范式在不断形成，并且这些范式确实有效，使得 AI 开发仍在继续加速。

新范式一：合成数据，解决数据瓶颈

随着公开数据的日益枯竭，合成数据成为了解决数据瓶颈的重要途径。通过使用 GPT-4 等大型模型来合成数据，可以有效提高其他模型的性能。

而 Claude 3.5 Opus 的“秘密使命”也正是在于此。它承担了为 Claude 3.5 Sonnet 合成训练数据、替代人类反馈的工作。事实证明，合成数据越多，模型就越好。更好的模型能提供更好的合成数据，也能提供更好的偏好反馈，这能推动人类开发出更好的模型。

semianalysis 还列举了更多使用合成数据的例子，包括拒绝采样、模式判断、长上下文数据集几种情况。例如，Meta 将 Python 代码翻译成 PHP，并通过语法解析和执行来确保数据质量，从而弥补公共 PHP 代码的不足。

新范式二：RLAIF，AI 自我反馈

除了使用合成数据，还有一种新的范式正在兴起，那就是让 AI 替人类进行反馈——RLAIF（Reinforcement Learning from AI Feedback）。

RLAIF 主要分为两个阶段：

模型自修改： 模型先根据人类编写的标准对自己的输出进行修改，然后创建出一个修订-提示对的数据集，使用这些数据集通过 SFT 进行微调。
无人类偏好强化学习： 类似于 RLHF，但这一步完全没有人类偏好数据，而是完全由 AI 模型进行反馈。

这种方法最值得关注的一点是，它可以在许多不同领域扩展，并且可以有效降低对人类偏好数据的依赖。

新范式三：搜索，扩展推理计算

除了算力、数据和算法，semianalysis 还提出了一个值得关注的新范式：通过搜索来扩展推理计算。

报告中指出，搜索是扩展的另一个维度。OpenAI 的 o1 模型没有利用这个维度，但是 o1 Pro 模型则使用了搜索方法。o1 模型在测试时阶段不评估多条推理路径，也不进行任何搜索。

而 Self-Consistency / Majority Vote 就是一种典型的搜索方法。它通过多次运行提示词，产生多个响应，然后根据给定的样本数量，从响应中选出出现频率最高的作为正确答案。

结语：大模型竞争进入新阶段

Claude 3.5 Opus 的传闻反转，不仅揭示了大模型训练的新范式，也预示着大模型竞争进入了一个新的阶段。未来，我们或许会看到更多类似 Claude 3.5 Opus 这样的“秘密武器”出现，而合成数据、RLAIF 和搜索等新范式，也将成为各大 AI 公司争夺市场份额的关键。

ai模型体验
AI模型对比学习： 如果您希望深入了解不同的AI模型， chatTools 是一个不错的选择，您可以在这里体验o1推理模型、GPT4o、Claude和Gemini等，进行对比学习。

查看全文

http://www.mrgr.cn/news/80949.html

Pytorch | 利用NI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Python pygame 主副屏编程时在副屏上全屏窗口的方法

JAVA包装类变量赋值是会新创建对象实例

JAVA队列每次添加需要新实例才能独立更新

Docker镜像启动

门户系统需要压测吗？以及门户系统如何压力测试？

【操作系统不挂科】＜内存管理-文件系统实现（18）＞选择题（带答案与解析）

什么是静态站点生成器，有哪些特点

Python毕业设计选题：基于Python的农产品销售系统的设计与实现_django

稀疏矩阵的存储与计算 gaxpy

Spring Cloud Gateway 源码

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读

Linux shell脚本用于常见图片png、jpg、jpeg、tiff格式批量转webp格式后，并添加文本水印

【C语言程序设计——入门】C语言入门与基础语法（头歌实践教学平台习题）【合集】

Golang学习历程【第二篇 fmt包变量、常量的定义】