Claude 3.5 Opus并非训练失败:Anthropic自留,用于数据合成与RL训练
最近,关于 Claude 3.5 Opus 模型训练失败的传闻甚嚣尘上,引发了业界的广泛关注。然而,semianalysis 的一份最新报告却给出了一个惊人的反转:Claude 3.5 Opus 并非训练失败,而是被 Anthropic “雪藏”起来,用于内部数据合成和强化学习奖励建模,以提升 Claude 3.5 Sonnet 的性能。这一消息无疑给大模型领域带来了一股新的震动,也揭示了 AI 模型训练背后不为人知的新范式。
Claude 3.5 Opus 的“秘密使命”:数据合成与 RL 训练
据 semianalysis 分析师爆料,Anthropic 并没有将 Claude 3.5 Opus 公开发布,而是将其作为内部训练的“秘密武器”。Claude 3.5 Opus 的主要任务是为 Claude 3.5 Sonnet 合成训练数据,并进行强化学习奖励建模。
这种方法的好处在于,它可以在不明显提升推理成本的前提下,显著提高模型的性能。通过使用更好的模型来生成更高质量的合成数据,Anthropic 能够不断迭代优化其模型性能。
为何不发布?商业考量下的“战略性放弃”
既然 Claude 3.5 Opus 如此强大,为何 Anthropic 不将其直接发布呢?semianalysis 分析认为,这是一种商业考量下的“战略性放弃”。
相较于直接发布,Anthropic 更倾向于用最好的模型来做内部训练,并发布性能同样出色的 Claude 3.5 Sonnet。这样做可以最大化模型的效用,并避免在激烈的市场竞争中过早暴露自己的底牌。
新旧范式交替:大模型开发加速进行时
semianalysis 的报告还深入分析了当前大模型开发在算力、数据、算法上面临的挑战与现状,并提出了一个核心观点:新范式还在不断涌现,AI 进程没有减速。
尽管有诸多声音认为,随着新模型在基准测试上的提升不够明显,现有训练数据几乎用尽以及摩尔定律放缓,大模型的 Scaling Law 要失效了,但顶尖 AI 实验室和计算公司仍然在加速建设数据中心,并向底层硬件投入更多的资源。
这表明,最能深刻影响 AI 进程的人们,仍然相信 Scaling Law 的有效性。因为新的范式在不断形成,并且这些范式确实有效,使得 AI 开发仍在继续加速。
新范式一:合成数据,解决数据瓶颈
随着公开数据的日益枯竭,合成数据成为了解决数据瓶颈的重要途径。通过使用 GPT-4 等大型模型来合成数据,可以有效提高其他模型的性能。
而 Claude 3.5 Opus 的“秘密使命”也正是在于此。它承担了为 Claude 3.5 Sonnet 合成训练数据、替代人类反馈的工作。事实证明,合成数据越多,模型就越好。更好的模型能提供更好的合成数据,也能提供更好的偏好反馈,这能推动人类开发出更好的模型。
semianalysis 还列举了更多使用合成数据的例子,包括拒绝采样、模式判断、长上下文数据集几种情况。例如,Meta 将 Python 代码翻译成 PHP,并通过语法解析和执行来确保数据质量,从而弥补公共 PHP 代码的不足。
新范式二:RLAIF,AI 自我反馈
除了使用合成数据,还有一种新的范式正在兴起,那就是让 AI 替人类进行反馈——RLAIF(Reinforcement Learning from AI Feedback)。
RLAIF 主要分为两个阶段:
- 模型自修改: 模型先根据人类编写的标准对自己的输出进行修改,然后创建出一个修订-提示对的数据集,使用这些数据集通过 SFT 进行微调。
- 无人类偏好强化学习: 类似于 RLHF,但这一步完全没有人类偏好数据,而是完全由 AI 模型进行反馈。
这种方法最值得关注的一点是,它可以在许多不同领域扩展,并且可以有效降低对人类偏好数据的依赖。
新范式三:搜索,扩展推理计算
除了算力、数据和算法,semianalysis 还提出了一个值得关注的新范式:通过搜索来扩展推理计算。
报告中指出,搜索是扩展的另一个维度。OpenAI 的 o1 模型没有利用这个维度,但是 o1 Pro 模型则使用了搜索方法。o1 模型在测试时阶段不评估多条推理路径,也不进行任何搜索。
而 Self-Consistency / Majority Vote 就是一种典型的搜索方法。它通过多次运行提示词,产生多个响应,然后根据给定的样本数量,从响应中选出出现频率最高的作为正确答案。
结语:大模型竞争进入新阶段
Claude 3.5 Opus 的传闻反转,不仅揭示了大模型训练的新范式,也预示着大模型竞争进入了一个新的阶段。未来,我们或许会看到更多类似 Claude 3.5 Opus 这样的“秘密武器”出现,而合成数据、RLAIF 和搜索等新范式,也将成为各大 AI 公司争夺市场份额的关键。
AI模型对比学习: 如果您希望深入了解不同的AI模型, chatTools 是一个不错的选择,您可以在这里体验o1推理模型、GPT4o、Claude和Gemini等,进行对比学习。