4 个月前

CogAgent:一种用于GUI代理的视觉语言模型

CogAgent:一种用于GUI代理的视觉语言模型

摘要

人们在图形用户界面(GUI)上花费了大量时间,例如计算机或智能手机屏幕。大型语言模型(LLMs),如ChatGPT,可以在撰写电子邮件等任务中提供帮助,但在理解和与GUI交互方面存在困难,从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型(VLM),专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器,CogAgent支持1120*1120分辨率的输入,能够识别微小的页面元素和文本。作为一款通用型视觉语言模型,CogAgent在五个文本丰富的视觉问答(VQA)基准测试和四个通用VQA基准测试中均达到了最先进的水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入,CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法,这些方法依赖于提取的HTML文本,进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取,而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取。

代码仓库

digirl-agent/digirl
pytorch
GitHub 中提及
THUDM/CogAgent
官方
pytorch
GitHub 中提及
thudm/cogvlm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-visual-grounding-onCogAgent
Accuracy (%): 47.4
visual-question-answering-on-mm-vetCogAgent
GPT-4 score: 52.8
Params: 18B
visual-question-answering-on-mm-vet-v2CogAgent-Chat
GPT-4 score: 34.7±0.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CogAgent:一种用于GUI代理的视觉语言模型 | 论文 | HyperAI超神经