3 个月前

通义千问2.5-VL 技术报告

通义千问2.5-VL 技术报告

摘要

我们推出 Qwen2.5-VL,作为 Qwen 视觉语言系列的最新旗舰模型,在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、鲁棒的文档解析能力以及长视频理解能力,实现了对现实世界更深层次的理解与交互。Qwen2.5-VL 的一项突出特性是能够以边界框(bounding boxes)或点坐标的形式准确实现物体定位。该模型可从发票、表单和表格中高效提取结构化数据,并对图表、示意图及版面布局进行细致分析。为应对复杂输入场景,Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码机制,支持处理不同尺寸的图像以及长达数小时的视频内容,并实现秒级事件定位。这一设计使模型能够原生感知空间尺度与时间动态,无需依赖传统的归一化处理技术。通过从零开始训练具备原生动态分辨率能力的视觉 Transformer(Vision Transformer, ViT),并融合窗口注意力(Window Attention)机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像与文档理解任务中表现卓越,更可作为具备推理能力、工具调用与任务执行能力的交互式视觉代理,在真实场景中完成如操控计算机与移动设备等复杂任务。Qwen2.5-VL 提供三种不同规模的版本,全面覆盖从边缘计算到高性能计算的多样化应用场景。其中,旗舰型号 Qwen2.5-VL-72B 在多项指标上达到当前最先进水平,性能与 GPT-4o、Claude 3.5 Sonnet 等顶尖模型相当,尤其在文档与图示理解方面表现尤为突出。此外,Qwen2.5-VL 保持了 Qwen2.5 大语言模型(LLM)的核心语言能力,具备稳健的自然语言理解与生成性能。

代码仓库

qwenlm/qwen2.5-vl
pytorch
GitHub 中提及
princeton-nlp/CharXiv
pytorch
GitHub 中提及
qwenlm/qwen2-vl
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-vqa-on-vlm2-benchQwen2.5-VL-7B
Average Score on VLM2-bench (9 subtasks): 54.82
GC-mat: 35.91
GC-trk: 43.38
OC-cnt: 41.72
OC-cpr: 71.39
OC-grp: 47.50
PC-VID: 46.50
PC-cnt: 57.98
PC-cpr: 80.00
PC-grp: 69.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通义千问2.5-VL 技术报告 | 论文 | HyperAI超神经