当前位置: 首页 > news >正文

WINDOWS AGENTARENA:EVALUATING MULTI-MODAL OS AGENTS AT SCALE论文学习

文章开头说现有的agent都是局限于特定领域(什么网络问答啊,仅限文字啊,仅限于某一个app啊)这样的,本文的工作主打一个贴近用户使用场景,用户用什么软件,看什么网页,本文的模型就用什么软件,看什么网页,只要是能在windows系统上用的东西本agent都能用,泛用性更强。(常规操作,没啥新颖的)本文使用了OSworld的架构(OSworld论文之前讲过了)。除了数据集以外本文还提出了一个叫Navi的模型

文章提到现在的benchmark测试一般在虚拟机上进行,这样是比较慢的。文章提出可以提高任务并行化。

模型的动作空间如下:

剩下的呆会看


http://www.mrgr.cn/news/29819.html

相关文章:

  • conda创建 、查看、 激活、删除 python 虚拟环境
  • Unity音频导入设置
  • HTML之表单学习记录
  • CDA LEVEL 2考试大纲
  • Redhat7.9 安装 KingbaseES 金仓数据库 V9单机版(静默安装)
  • Ruby编程语言全景解析:从基础到进阶
  • 2-98 基于matlab的苹果特征检测
  • 镀金引线---
  • 程序员修炼之道 11:当你编码时
  • Java-获取对象字段名并遍历处理
  • Golang开发的OCR-身份证号码识别(不依赖第三方)
  • AUTOSAR_EXP_ARAComAPI的5章笔记(5)
  • Jetbrains开发工具使用通义灵码
  • Android 15 正式发布至 AOSP
  • Docker Registry API best practice 【Docker Registry API 最佳实践】
  • 算法笔记/USACO Guide GOLD金组DP 3. Paths on Grids
  • [SIGGRAPH-24] CharacterGen
  • easy_cloudantivirus
  • 《微处理器系统原理与应用设计第十三讲》通用同/异步收发器USART轮询模式应用设计
  • 算法之搜索--最长公共子序列LCS
  • 剃(磨)前插齿刀设计计算开发第二步:
  • Element Plus图片上传组件二次扩展
  • Android 中音频焦点的使用场景及示例
  • ssh远程连接try1账号切换tips
  • Java 之多线程高级
  • 计算机毕业设计 家电销售展示平台的设计与实现 Java实战项目 附源码+文档+视频讲解