Peng WangShuai BaiSinan TanShijie WangZhihao FanJinze BaiKeqin ChenXuejing LiuJialin WangWenbin GeYang FanKai DangMengfei DuXuancheng RenRui MenDayiheng LiuChang ZhouJingren ZhouJunyang Lin

摘要
我们推出了Qwen2-VL系列模型,这是对先前Qwen-VL模型的重大升级,重新定义了视觉处理中的传统预设分辨率方法。Qwen2-VL引入了朴素动态分辨率(Naive Dynamic Resolution)机制,使模型能够动态处理不同分辨率的图像,生成不同数量的视觉标记。这种方法使得模型能够生成更加高效和准确的视觉表示,更贴近人类的感知过程。此外,该模型集成了多模态旋转位置嵌入(Multimodal Rotary Position Embedding, M-RoPE),有助于在文本、图像和视频中有效融合位置信息。我们采用了一种统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉-语言模型(LVLMs)的扩展规律。通过扩大模型规模——包括20亿、80亿和720亿参数版本——以及增加训练数据量,Qwen2-VL系列实现了极具竞争力的性能。特别是,Qwen2-VL-72B模型在各种多模态基准测试中取得了与领先模型如GPT-4o和Claude3.5-Sonnet相当的结果,并且优于其他通用模型。代码可在https://github.com/QwenLM/Qwen2-VL获取。
代码仓库
baichuan-inc/Baichuan-Omni-1.5
pytorch
GitHub 中提及
qwenlm/qwen2.5-vl
pytorch
GitHub 中提及
juruobenruo/DexVLA
pytorch
GitHub 中提及
qwenlm/qwen2-vl
官方
pytorch
GitHub 中提及
MindCode-4/code-4/tree/main/qwen2_vl
mindspore
tutujingyugang1/ChatVLA_public
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-visual-grounding-on | Qwen2-VL-7B | Accuracy (%): 42.1 |
| temporal-relation-extraction-on-vinoground | Qwen2-VL-7B | Group Score: 15.2 Text Score: 40.2 Video Score: 32.4 |
| temporal-relation-extraction-on-vinoground | Qwen2-VL-72B | Group Score: 17.4 Text Score: 50.4 Video Score: 32.6 |
| video-question-answering-on-next-qa | Qwen2-VL(7B) | Accuracy: 81.2 |
| video-question-answering-on-tvbench | Qwen2-VL-72B | Average Accuracy: 52.7 |
| video-question-answering-on-tvbench | Qwen2-VL-7B | Average Accuracy: 43.8 |
| visual-question-answering-on-mm-vet | Qwen2-VL-2B | GPT-4 score: 49.5 |
| visual-question-answering-on-mm-vet | Qwen2-VL-72B | GPT-4 score: 74.0 |
| visual-question-answering-on-mm-vet | Qwen2-VL-7B | GPT-4 score: 62.0 |
| visual-question-answering-on-mm-vet-v2 | Qwen2-VL-72B (qwen-vl-max-0809) | GPT-4 score: 66.9±0.3 Params: 72B |
| visual-question-answering-vqa-on-vlm2-bench | Qwen2-VL-7B | Average Score on VLM2-bench (9 subtasks): 42.37 GC-mat: 27.80 GC-trk: 19.18 OC-cnt: 45.99 OC-cpr: 68.06 OC-grp: 35.00 PC-VID: 16.25 PC-cnt: 58.59 PC-cpr: 61.50 PC-grp: 49.00 |