4 个月前

OS-ATLAS:一种面向通用GUI代理的基础动作模型

OS-ATLAS:一种面向通用GUI代理的基础动作模型

摘要

现有的构建图形用户界面(GUI)代理的努力在很大程度上依赖于稳健的商业视觉-语言模型(VLM),如GPT-4o和GeminiProVision。由于开源VLM在性能上显著落后于其闭源同类产品,特别是在GUI定位和分布外(OOD)场景中,实践者通常不愿意使用这些开源模型。为了促进该领域的未来研究,我们开发了OS-Atlas——一种基础的GUI操作模型,通过数据和建模方面的创新,在GUI定位和OOD代理任务中表现出色。我们在开发一个跨多个平台(包括Windows、Linux、MacOS、Android和Web)合成GUI定位数据的开源工具包方面投入了大量工程努力。利用这一工具包,我们发布了迄今为止最大的开源跨平台GUI定位语料库,包含超过1300万个GUI元素。该数据集结合建模训练方面的创新,为OS-Atlas提供了坚实的基础,使其能够理解GUI截图并推广到未见过的界面。通过对涵盖三种不同平台(移动、桌面和Web)的六个基准进行广泛评估,OS-Atlas展示了相对于先前最先进模型的重大性能改进。我们的评估还揭示了关于持续改进和扩展开源VLM代理能力的宝贵见解。

代码仓库

njucckevin/seeclick
pytorch
GitHub 中提及
OS-Copilot/OS-Atlas
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-visual-grounding-onOS-Atlas-Base-7B
Accuracy (%): 82.47
natural-language-visual-grounding-onOS-Atlas-Base-4B
Accuracy (%): 68.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OS-ATLAS:一种面向通用GUI代理的基础动作模型 | 论文 | HyperAI超神经