HyperAIHyperAI

Command Palette

Search for a command to run...

Aria-UI:GUI 指令的视觉定位

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用于在不同平台之间通过直接操作图形用户界面(GUI)自动化任务的数字代理越来越重要。对于这些代理而言,从语言指令到目标元素的定位仍然是一个重大挑战,这主要是由于其依赖于HTML或AXTree输入。本文介绍了一种名为Aria-UI的大规模多模态模型,专门设计用于GUI定位。Aria-UI采用纯视觉方法,避免了对辅助输入的依赖。为了适应多样化的规划指令,我们提出了一种可扩展的数据管道,能够合成高质量且多样的指令样本以进行定位。为了应对任务执行中的动态上下文,Aria-UI结合了文本和图文交错的动作历史记录,从而实现强大的上下文感知推理能力。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果,超越了仅依赖视觉和基于AXTree的基线模型。我们发布了所有训练数据和模型检查点,以促进进一步的研究,相关资源可在https://ariaui.github.io获取


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供