
摘要
用于在不同平台之间通过直接操作图形用户界面(GUI)自动化任务的数字代理越来越重要。对于这些代理而言,从语言指令到目标元素的定位仍然是一个重大挑战,这主要是由于其依赖于HTML或AXTree输入。本文介绍了一种名为Aria-UI的大规模多模态模型,专门设计用于GUI定位。Aria-UI采用纯视觉方法,避免了对辅助输入的依赖。为了适应多样化的规划指令,我们提出了一种可扩展的数据管道,能够合成高质量且多样的指令样本以进行定位。为了应对任务执行中的动态上下文,Aria-UI结合了文本和图文交错的动作历史记录,从而实现强大的上下文感知推理能力。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果,超越了仅依赖视觉和基于AXTree的基线模型。我们发布了所有训练数据和模型检查点,以促进进一步的研究,相关资源可在https://ariaui.github.io获取。
代码仓库
ariaui/aria-ui
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | Aria-UI | Accuracy (%): 81.1 |