
摘要
人们在图形用户界面(GUI)上花费了大量时间,例如计算机或智能手机屏幕。大型语言模型(LLMs),如ChatGPT,可以在撰写电子邮件等任务中提供帮助,但在理解和与GUI交互方面存在困难,从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型(VLM),专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器,CogAgent支持1120*1120分辨率的输入,能够识别微小的页面元素和文本。作为一款通用型视觉语言模型,CogAgent在五个文本丰富的视觉问答(VQA)基准测试和四个通用VQA基准测试中均达到了最先进的水平,包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入,CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法,这些方法依赖于提取的HTML文本,进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取,而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取。
代码仓库
digirl-agent/digirl
pytorch
GitHub 中提及
THUDM/CogAgent
官方
pytorch
GitHub 中提及
thudm/cogvlm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | CogAgent | Accuracy (%): 47.4 |
| visual-question-answering-on-mm-vet | CogAgent | GPT-4 score: 52.8 Params: 18B |
| visual-question-answering-on-mm-vet-v2 | CogAgent-Chat | GPT-4 score: 34.7±0.2 |