8 个月前

摘要

多模态大语言模型（MLLMs）正在改变图形用户界面（GUI）代理的能力，推动它们从受控模拟环境向各种平台上的复杂现实应用过渡。然而，这些代理的有效性取决于其强大的定位能力。目前的GUI代理主要依赖基于文本的表示形式，如HTML或无障碍树，尽管这些方法具有一定的实用性，但往往引入噪声、不完整性，并增加计算开销。本文提倡为GUI代理赋予类似人类的实体形态，使其完全通过视觉感知环境，并直接在GUI上执行像素级操作。关键在于视觉定位模型，该模型能够准确地将不同平台上GUI元素的各种指代表达映射到其在GUI上的坐标。我们展示了一种简单的方案，包括基于网络的合成数据和对LLaVA架构的轻微调整，这种方案在训练此类视觉定位模型方面表现出惊人的有效性。我们收集了迄今为止最大的GUI视觉定位数据集，包含130万张截图中的1000万个GUI元素及其指代表达，并利用该数据集训练了UGround——一种强大的通用视觉定位模型。在涵盖三个类别（定位、离线代理和在线代理）的六个基准测试中，实证结果表明：1）UGround显著优于现有的GUI代理视觉定位模型，最高绝对优势达到20%；2）即使现有代理使用额外的基于文本的输入而我们的模型仅依赖视觉感知，UGround驱动的代理仍优于最先进的代理。这些结果强有力地支持了以人类方式导航数字世界的GUI代理的可行性和前景。

源 PDF