2 个月前

Ovis2.5 技术报告

Ovis2.5 技术报告

摘要

我们提出 Ovis2.5,作为 Ovis2 的升级版本,专为原生分辨率视觉感知与强大的多模态推理能力而设计。Ovis2.5 集成了一种原生分辨率视觉Transformer,能够以图像的原始、可变分辨率直接处理图像,避免了固定分辨率分块(tiling)带来的信息退化,有效保留了细微细节与整体布局结构——这对复杂图表等视觉信息密集型内容尤为重要。为增强模型的推理能力,我们在训练中引导模型突破传统的线性思维链(chain-of-thought)模式,引入“反思”机制,包括自我检查与修正能力。这一先进能力在推理阶段以可选的“思考模式”形式开放,用户可根据需求在延迟与复杂输入下的准确率之间进行权衡。模型采用一套全面的五阶段渐进式训练课程,逐步构建其综合能力:从基础的视觉与多模态预训练出发,经过大规模指令微调,最终通过 DPO(Direct Preference Optimization)与 GRPO(Generalized Reward Policy Optimization)实现对齐优化与推理能力增强。为高效扩展这些改进,我们采用多模态数据打包(multimodal data packing)与混合并行(hybrid parallelism)技术,显著提升了端到端的推理效率。我们开源发布两个版本模型:Ovis2.5-9B 与 Ovis2.5-2B。后者延续了 Ovis2 “小模型、大性能”的设计理念,特别适用于资源受限、设备端部署的场景。在 OpenCompass 多模态排行榜上,Ovis2.5-9B 平均得分达到 78.3,相较于前代模型 Ovis2-8B 实现了显著提升,并在参数量低于 400 亿的开源多模态大模型(MLLMs)中达到当前最优水平;Ovis2.5-2B 得分为 73.9,成为同规模模型中的开源 SOTA(State-of-the-Art)。除整体性能指标外,Ovis2.5 在 STEM 领域基准测试中表现领先,具备出色的视觉定位(grounding)与视频理解能力,并在复杂图表分析任务中,于其模型规模下实现了开源模型的最先进水平。

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Ovis2.5 技术报告 | 论文 | HyperAI超神经