HyperAI

摘要

用于在不同平台之间通过直接操作图形用户界面（GUI）自动化任务的数字代理越来越重要。对于这些代理而言，从语言指令到目标元素的定位仍然是一个重大挑战，这主要是由于其依赖于HTML或AXTree输入。本文介绍了一种名为Aria-UI的大规模多模态模型，专门设计用于GUI定位。Aria-UI采用纯视觉方法，避免了对辅助输入的依赖。为了适应多样化的规划指令，我们提出了一种可扩展的数据管道，能够合成高质量且多样的指令样本以进行定位。为了应对任务执行中的动态上下文，Aria-UI结合了文本和图文交错的动作历史记录，从而实现强大的上下文感知推理能力。Aria-UI在离线和在线代理基准测试中均取得了新的最佳结果，超越了仅依赖视觉和基于AXTree的基线模型。我们发布了所有训练数据和模型检查点，以促进进一步的研究，相关资源可在https://ariaui.github.io获取。

摘要

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aria-UI：GUI 指令的视觉定位

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aria-UI：GUI 指令的视觉定位

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aria-UI：GUI 指令的视觉定位

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

摘要

用 AI 构建 AI

HyperAI Newsletters