HyperAI超神经

摘要

人们在图形用户界面（GUI）上花费了大量时间，例如计算机或智能手机屏幕。大型语言模型（LLMs），如ChatGPT，可以在撰写电子邮件等任务中提供帮助，但在理解和与GUI交互方面存在困难，从而限制了其提高自动化水平的潜力。本文介绍了一种名为CogAgent的180亿参数视觉语言模型（VLM），专门用于理解和导航GUI。通过利用低分辨率和高分辨率图像编码器，CogAgent支持1120*1120分辨率的输入，能够识别微小的页面元素和文本。作为一款通用型视觉语言模型，CogAgent在五个文本丰富的视觉问答（VQA）基准测试和四个通用VQA基准测试中均达到了最先进的水平，包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。仅使用屏幕截图作为输入，CogAgent在PC和Android GUI导航任务——Mind2Web和AITW中超越了基于LLM的方法，这些方法依赖于提取的HTML文本，进一步推动了该领域的技术进步。该模型及其代码可在https://github.com/THUDM/CogVLM获取，而新版的CogAgent-9B-20241220则可在https://github.com/THUDM/CogAgent获取。

摘要

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogAgent：一种用于GUI代理的视觉语言模型

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogAgent：一种用于GUI代理的视觉语言模型

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogAgent：一种用于GUI代理的视觉语言模型

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li4 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li

Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li