HyperAI超神经

摘要

自动化图形用户界面（GUI）任务仍然具有挑战性，主要原因是依赖于文本表示、特定平台的操作空间以及有限的推理能力。我们介绍了一种名为Aguvis的统一视觉框架，用于自主GUI代理，该框架直接在屏幕图像上操作，标准化跨平台交互，并通过内部独白（inner monologue）引入结构化推理。为了实现这一目标，我们构建了Aguvis数据集，这是一个大规模的数据集，包含多模态接地和推理注释，并开发了一个两阶段训练管道，将GUI接地与规划和推理分离。实验结果表明，Aguvis在离线和现实世界在线基准测试中均达到了最先进的性能水平，成为首个无需闭源模型即可完全自主运行的视觉基础GUI代理。我们已将所有数据集、模型和训练方法开源，地址为https://aguvis-project.github.io，以推动未来的研究进展。

摘要

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aguvis：统一的纯视觉代理用于自主GUI交互

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aguvis：统一的纯视觉代理用于自主GUI交互

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Aguvis：统一的纯视觉代理用于自主GUI交互

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

摘要

用 AI 构建 AI

HyperAI Newsletters