当前位置: 首页 > news >正文

论文阅读:MultiUI 利用网页UI进行丰富文本的视觉理解

《HARNESSING WEBPAGE UIS FOR TEXT-RICH VISUAL UNDERSTANDING》
利用网页UI进行丰富文本的视觉理解

总结

  • grounding和QA部分的数据集占比较大、同时消融实验显示其作用相对较大,并且grounding部分作用和效果呈现scaling正相关
  • 提供了很多web数据处理成多模态训练集的prompt、思路等、提供了开源代码:https://neulab.github.io/MultiUI/

1、前言

  • 1M URLs
  • 2个平台
  • 3种能力:视觉理解和推理、文本识别、定位

在这里插入图片描述

  • 基于充分结构化的网页来合成多模态指令数据集

在这里插入图片描述

2、数据集构建

  • 数据集通过4步构造

在这里插入图片描述

  • 9个任务的具体设计【重点】

在这里插入图片描述

数据分布

  • grounding数据占 3M/7.3M ~ 41%,mobile的grounding占mobile数据的 47.8%
  • 其次占比最多的是 WebQA、ImgQA

在这里插入图片描述

  • Grounding和action的一些数据示例

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3、实验设置

  • 模型结构

在这里插入图片描述

  • 训练策略:两阶段训练

在这里插入图片描述

  • Benchmark

在这里插入图片描述

4、实验结果分析

  • GUI相关任务的实验结果
    • 没有把Seeclick模型在SSpot上的结果放出来(mobile-0.657);

在这里插入图片描述

  • GUI grounding的能力和数据集大小存在正相关关系
    在这里插入图片描述
  • 消融实验说明了 加入grounding数据集对于screenspot评测集的必要性

在这里插入图片描述

  • 两阶段训练效果更优、提升2点左右

在这里插入图片描述


http://www.mrgr.cn/news/61105.html

相关文章:

  • vscode【实用插件】Material Icon Theme 美化文件图标
  • Spring Boot中的配置文件有哪些类型
  • 【人工智能】大语言模型的微调:让模型更贴近你的业务需求
  • 【Docker】入门教程
  • 初学stm32 --- DAC模数转换器工作原理
  • 代码随想录算法训练营day27
  • 确保公司数据不泄密的措施有哪些(如何保证公司数据安全)?8个重要措施你需要知道!
  • 【机器学习(十九)】零代码开发之随机森林(Random Forest,RF)算法-Sentosa_DSML社区版
  • php反序列化常见魔术方法整理
  • SpringBoot框架下的商场应急处理流程
  • Python库numpy之七
  • 手机无线/有线投屏电脑方案
  • 新能源行业必会基础知识-----电力系统经济学原理-----主目录-----持续更新
  • win10 wsl2 install
  • 2024-10-29 商业分析-恒大数据超过50%造假-依然获得AAA评级-国内营商环境-诈骗为主-记录
  • jenkins自动化构建vue(web)项目并部署(项目实战)
  • 根据软件系统设计与建模的叙述开发一套煤矿建设项目安全预警系统
  • 新能源汽车爆炸频发?FLIR TG275助你提前检测,规避风险!
  • SpringBoot技术在商场应急管理中的创新应用
  • 在macOS的多任务处理环境中,如何平衡应用的性能与用户体验?这是否是一个复杂的优化问题?如何优化用户体验|多任务处理|用户体验|应用设计
  • ssm011线上旅行信息管理系统(论文+源码)_kaic
  • 【SQL Server】解决因使用 varchar 类型存储 Unicode 字符串导致的中文显示乱码问题
  • 全志平台移植camera senor时报I2C错误
  • TikTok发展成为非洲第二大社交电商平台,TikTok营销软件
  • 计算机组成原理之CISC和RISC的基本概念、CISC和RISC的主要区别是什么
  • 华为配置手工负载分担模式链路聚合实验