当前位置: 首页 > news >正文

准备进入AI第三阶段:OpenAI推出AI Agent基准MLE-bench!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

通用人工智能(Artificial General Intelligence,AGI),是AI发展的终极目标。

当前的AI其实严格来说只能算作是狭义人工智能Narrow AI)或弱人工智能Weak AI),通常局限于特定任务,比如文本生成、图像识别等,不具备通用性。此外,狭义人工智能不具备自主学习和推理能力,回想我们现在的大语言模型(LLM),都是对现有的大量语料进行学习,然后通过神经网络实现输出,而不能像人类一样,自主学习新知识。

通用人工智能则完全不同。从定义来看,通用人工智能指一种能够理解、学习并执行人类在各种环境和任务中的广泛智能行为的人工智能系统。从特点来说,既然叫做通用人工智能,顾名思义,这样的AI具有通用性,具备灵活性和适应性。其主要特点就是能够自主学习、推理,并适应不同领域的任务。它不仅能处理单一问题,还能跨越学科,应用已有知识解决新的复杂问题,具备类似人类的认知、理解和情感智能。

那么,灵魂拷问来了,当前的AI距离真正的AGI有多远?

为了回答这个问题,OpenAI于今年7月推出了一套从AI到AGI的五级分类系统,把AI的发展阶段划分为了清晰明确的五个阶段,这五个阶段分别是:

  1. 基础AI(Emerging AGI):AI发展的初级阶段,指能够进行基本对话和信息处理的AI,如ChatGPT。尽管看起来炫酷,但强依赖于预训练的数据集,AI本身的“智商”(理解和推理能力)很有限。

  2. 推理者(Reasoners):基本AI的进阶版本,具备高级的逻辑推理和复杂问题解决能力。看到这里,小伙伴们是不是能够联想起OpenAI最近发布的推理模型o1。没错,o1正是体现了OpenAI对于第二阶段AI的探索,并且这个模型叫做o1,而不是GPT-5,也能够反映这一点。

  3. 代理(Agents)AI Agents,中文名可以直译为AI代理,但根据目前国内主流叫法,应该叫做智能体。当前大多数AI Agents其实还处于比较初级的阶段,主要通过规划、推理和工具调用来完成一些基础AI无法完成的复杂任务。

  4. 创新AI(Innovators):这一阶段的AI不仅能解决现有问题,还能进行自主研究和开发,是不是越来越接近我们人类了,在学习中创新和进化,形成一个良性的循环。

  5. 组织AI(Organizations):通用人工智能最终阶段,这种AI系统能够智能分配任务,协同工作,完成复杂的任务,类似于一个团队或组织,获得1+1大于2的效果。

如果说ChatGPT处于上述阶段中的第一阶段:基础AI(Emerging AGI),那么最近推出的推理模型o1一定能够被划分到第二阶段:推理者(Reasoners)。o1模型在处理物化生等复杂学科的高难度任务上,表现几乎与博士生相当。在数学领域,更是在国际数学奥林匹克(IMO)考试中达到了惊人的83%正确率,作为对比,GPT-4o只能正确解决13%的问题。

当大家的目光都还在第二阶段推理者(Reasoners)上时,OpenAI已经将“触手”伸向了第三阶段:代理(Agents)。

今天,OpenAI正式推出了MLE-bench,一个用于衡量AI代理(AI Agents)在机器学习工程中表现的基准测试。OpenAI的研究人员从Kaggle平台上选了75个与机器学习工程相关的竞赛,形成了一套多样化且具有挑战性的任务。这些任务旨在测试AI代理在实际机器学习工程中的关键技能,如训练模型、准备数据集以及运行实验。

MLE-bench是一个用于评估AI代理在机器学习工程任务中表现的离线Kaggle竞赛环境。每个竞赛任务包含详细的描述和相关的数据集,AI代理需要根据任务描述训练模型、处理数据、调试并生成预测结果。AI代理的工作流程主要包括四个步骤:首先,读取竞赛的任务描述,理解任务目标;其次,使用提供的训练数据集训练模型,并根据需要进行调试和优化;接着,在测试数据集上运行模型,生成预测结果;最后,AI代理将生成的预测结果保存为submission.csv文件,并提交给评分器。评分器会根据预定的评分标准,对提交的结果进行评估,并将代理的成绩与实际参与竞赛的人类选手的成绩进行比较,展示在排行榜上,给出对应的奖牌和得分。

OpenAI的研究团队使用了开源的AI代理框架,对多个LLM模型进行了评估。结果表明,表现最好的设置是结合了o1-preview模型和AIDE框架的代理系统,该系统在16.9%的竞赛中达到了Kaggle铜牌的水平,而多次尝试后的表现提升至34.1%。

结语

网友:要改变世界,就必须提高标准。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。


http://www.mrgr.cn/news/47643.html

相关文章:

  • 基于springboot的网上购物商城源码(java+vue+mysql+文档)
  • GPU 是什么?为什么大模型训练需要 GPU 呢?
  • Java(day7)
  • Flink-CDC 全面解析
  • Redis 安装与配置指南
  • (七)Linux库的串口开发
  • leetcode hot100_part03_滑动窗口
  • 塔吊识别数据集 yolo格式 共5076张图片 已划分好训练验证 txt格式 yolo可直接使用
  • PMP--冲刺题--解题--101-110
  • Python酷库之旅-第三方库Pandas(143)
  • 浏览器内置文字转语音,播报功能Web Speech API - SpeechSynthesisUtterance
  • Paperless-ngx文档管理系统本地部署并实现远程使用搜索查阅文件
  • QFocusFrame Class
  • 【C# 网络编程】基本概念
  • 【MySQL】入门篇—数据库基础:关系数据库概念
  • 01 为什么要学习数据结构与算法
  • 磁盘标签和分区标签
  • 作用域,预解析学习
  • uniapp 编程体验
  • XML XSLT:转换与呈现数据的力量
  • 说一下 HashMap 的实现原理?
  • 【idea】切换多个仓库到一个分支
  • HTTP Content-Type
  • 生成式专题的第三节课--cGAN的Pix2Pix
  • AI学习指南深度学习篇-变分自编码器(VAE)简介
  • <<迷雾>> 第10章 用机器做一连串的加法(6)--循环移位寄存器改进的控制器 示例电路