HyperAI超神经

摘要

继VisualGLM和CogVLM之后，我们持续探索视觉语言模型（VLMs），致力于提升视觉与语言的融合能力、构建更高效的高分辨率架构，并拓展多模态与应用场景。在此，我们提出CogVLM2系列，这是一代全新的视觉语言模型，涵盖图像与视频理解任务，包括CogVLM2、CogVLM2-Video以及GLM-4V。作为图像理解模型，CogVLM2继承了视觉专家架构，并在预训练与后训练阶段均采用优化的训练策略，支持最高达1344×1344像素的输入分辨率。作为视频理解模型，CogVLM2-Video引入多帧输入并结合时间戳信息，提出了一种自动化的时序定位数据构建方法。值得注意的是，CogVLM2系列在MMBench、MM-Vet、TextVQA、MVBench和VCGBench等多个基准测试中均取得了当前最优（SOTA）性能。所有模型均已开源，可于https://github.com/THUDM/CogVLM2 与 https://github.com/THUDM/GLM-4 获取，为该领域的持续发展贡献力量。

摘要

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue15 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue

Wenyi Hong Weihan Wang Ming Ding Wenmeng Yu Qingsong Lv Yan Wang Yean Cheng Shiyu Huang Junhui Ji Zhao Xue