
摘要
近期大型视觉语言模型的成功展示了其在驱动用户界面操作代理系统方面的巨大潜力。然而,我们认为由于缺乏一种强大的屏幕解析技术,这种多模态模型(如GPT-4V)作为多个操作系统中不同应用程序的通用代理的能力被大大低估了。该技术需要具备以下能力:1)可靠地识别用户界面中的可交互图标;2)理解屏幕截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。为填补这些空白,我们引入了OmniParser,这是一种全面解析用户界面屏幕截图的方法,显著提升了GPT-4V生成可准确定位到接口相应区域的动作的能力。我们首先整理了一个使用流行网页构建的可交互图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型:一个检测模型用于解析屏幕上的可交互区域,一个标题生成模型用于提取检测到的元素的功能语义。OmniParser在ScreenSpot基准测试中显著提高了GPT-4V的性能,并且在仅使用屏幕截图输入的情况下,在Mind2Web和AITW基准测试中超越了需要额外信息的GPT-4V基线模型。
代码仓库
microsoft/omniparser
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | OmniParser | Accuracy (%): 73.0 |