Kevin Qinghong LinLinjie LiDifei GaoZhengyuan YangShiwei WuZechen BaiWeixian LeiLijuan WangMike Zheng Shou

摘要
构建图形用户界面(GUI)助手在提高人类工作流程生产力方面具有重要意义。尽管大多数代理基于语言,依赖于包含丰富文本元信息的闭源API(例如HTML或可访问性树),但它们在感知UI视觉信息方面存在局限性,这突显了开发GUI视觉代理的需求。在这项工作中,我们开发了一种数字世界的视觉-语言-动作模型,即ShowUI,该模型具有以下创新点:(i) UI引导的视觉标记选择,通过将屏幕截图表示为一个UI连接图来降低计算成本,自适应地识别冗余关系,并作为自注意力块中标记选择的标准;(ii) 交错的视觉-语言-动作流,灵活地统一了GUI任务中的各种需求,使得在导航过程中有效管理视觉-动作历史成为可能,或将多轮查询-动作序列与每个屏幕截图配对以提高训练效率;(iii) 小规模高质量的GUI指令跟随数据集,通过精心的数据整理和采用重采样策略来解决显著的数据类型不平衡问题。凭借上述组件,ShowUI这一轻量级20亿参数的模型使用256K数据,在零样本屏幕截图定位任务中达到了75.1%的高精度。其UI引导的标记选择进一步减少了33%的冗余视觉标记,并将性能提升了1.4倍。在Web Mind2Web、移动AITW和在线MiniWob环境中的导航实验进一步强调了我们的模型在推进GUI视觉代理方面的有效性和潜力。相关模型可在https://github.com/showlab/ShowUI获取。
代码仓库
showlab/showui
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | ShowUI | Accuracy (%): 75.1 |
| natural-language-visual-grounding-on | ShowUI-G | Accuracy (%): 75.0 |