当前位置：首页 > news >正文

OpenAl O1：AI领域的创新之选，你准备好了吗？

news 2024/10/22 11:28:09

OpenAI 正式发布了一系列全新的 AI 大模型，被传为美谈的“草莓”终于上线了。然而，它并没有被正式命名为“草莓”，而是叫做o1。

（最近，先行者云科技上新了一款平替OpenAl O1，大家可以自行尝试对比。）

一、为什么会选择这个名字呢？

OpenAI 给出了解释：对于复杂的推理任务来说，这是一个重大的突破，代表着人工智能能力的新水平。基于此，我们将计数器重新设置为1，并将这一系列命名为 OpenAI o1。

这次 OpenAI 推出的全新 AI 大模型不再延续以往的命名规范，直接选用o1作为名称，这意味着它代表了一个新的起点，也代表了目前最高水平。与之前的 GPT-o1 不同，官方名称为 OpenAI o1 的原因在于其目标和技术路线与 GPT-4o 不同。

GPT-4o 是不同模态的大一统，对于模型智力水平的提升帮助不大，它无法完成复杂任务。而指望图片、视频数据大幅提升智力水平几乎是不可能的。GPT-4o 主要是弥补大模型对多模态世界的感知能力，而不是认知能力。后者仍然需要 LLM 文本模型。

相比之下，OpenAI o1 则是探索 AGI 能够走多远的一步。提升认知能力的核心在于复杂逻辑推理，能力越强，解锁的复杂应用场景就越多。大模型的天花板也就越高。因此，提升文本模型的逻辑推理能力是最重要的事情，毋庸置疑。

二、为什么说 "慢思考、强逻辑" 的能力有所不同呢？

看下面两组数据：在 AIME 2024 数学竞赛中，o1 的预览版准确率达到了56.7%，而正式版更高达83.3%。在代码竞赛上，o1 在 GPT-4o 的表现也从11%提升到了89%。新模型在复杂推理或数学计算等方面的能力可以说是非常突出的。

设想一下，如果有人问你：简单问题：意大利首都在哪里？你会立即回答罗马；复杂问题：帮我写个商业计划书/小说……你会停顿片刻，不断自我反思，思考时间越长，结果往往越好。这个例子解释了推理的作用，将思考时间转化为更好的结果的能力。其中之一就是“慢思考”，o1 模型在回答问题之前会经过深思熟虑，这个过程可能需要额外的时间，但它能够生成一个内部的长思维链，尝试不同的策略，并识别自身的错误。

另外一个就是“强逻辑”，o1 模型在逻辑推理任务上表现出色，能够处理复杂的科学、数学和编程问题。比如，在国际数学奥林匹克（IMO）的资格考试中，o1 模型的正确率高达83%，而之前的 GPT-4o 模型只有13%的正确率。在 chatgpt 之前的模型并不擅长复杂推理，在简单任务上表现不错，但一旦遇到多步骤的复杂问题，或者需要更多推理和思考的场景时，模型的表现就开始下滑，而 o1 则成功解决了这个问题。