4 个月前

Aria-UI:GUI 指令的视觉定位

Aria-UI:GUI 指令的视觉定位

摘要

用于在不同平台之间通过直接操作图形用户界面(GUI)自动化任务的数字代理越来越重要。对于这些代理而言,从语言指令到目标元素的定位仍然是一个重大挑战,这主要是由于其依赖于HTML或AXTree输入。本文介绍了一种名为Aria-UI的大规模多模态模型,专门设计用于GUI定位。Aria-UI采用纯视觉方法,避免了对辅助输入的依赖。为了适应多样化的规划指令,我们提出了一种可扩展的数据管道,能够合成高质量且多样的指令样本以进行定位。为了应对任务执行中的动态上下文,Aria-UI结合了文本和图文交错的动作历史记录,从而实现强大的上下文感知推理能力。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果,超越了仅依赖视觉和基于AXTree的基线模型。我们发布了所有训练数据和模型检查点,以促进进一步的研究,相关资源可在https://ariaui.github.io获取。

代码仓库

ariaui/aria-ui
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-visual-grounding-onAria-UI
Accuracy (%): 81.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Aria-UI:GUI 指令的视觉定位 | 论文 | HyperAI超神经