4 个月前

基于纯视觉的GUI代理的全解析器

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

摘要

近期大型视觉语言模型的成功展示了其在驱动用户界面操作代理系统方面的巨大潜力。然而，我们认为由于缺乏一种强大的屏幕解析技术，这种多模态模型（如GPT-4V）作为多个操作系统中不同应用程序的通用代理的能力被大大低估了。该技术需要具备以下能力：1）可靠地识别用户界面中的可交互图标；2）理解屏幕截图中各种元素的语义，并准确地将预期的操作与屏幕上的相应区域关联起来。为填补这些空白，我们引入了OmniParser，这是一种全面解析用户界面屏幕截图的方法，显著提升了GPT-4V生成可准确定位到接口相应区域的动作的能力。我们首先整理了一个使用流行网页构建的可交互图标检测数据集和一个图标描述数据集。这些数据集用于微调专门的模型：一个检测模型用于解析屏幕上的可交互区域，一个标题生成模型用于提取检测到的元素的功能语义。OmniParser在ScreenSpot基准测试中显著提高了GPT-4V的性能，并且在仅使用屏幕截图输入的情况下，在Mind2Web和AITW基准测试中超越了需要额外信息的GPT-4V基线模型。

代码仓库

microsoft/omniparser

jax

GitHub 中提及

基准测试

基准	方法	指标
natural-language-visual-grounding-on	OmniParser	Accuracy (%): 73.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供