2 个月前

Kimi-VL 技术报告

Kimi-VL 技术报告

摘要

我们提出Kimi-VL,这是一种高效开源的视觉语言混合专家(Mixture-of-Experts, MoE)模型,具备先进的多模态推理能力、长上下文理解能力以及强大的智能体(agent)功能,同时其语言解码器仅激活28亿参数(Kimi-VL-A3B)。Kimi-VL在多个挑战性领域展现出卓越性能:作为通用视觉语言模型,它在多轮智能体任务(如OSWorld)中表现优异,达到旗舰模型水平;在多样化高难度视觉语言任务中亦表现出色,涵盖大学级别图像与视频理解、光学字符识别(OCR)、数学推理以及多图像理解等。在对比评估中,Kimi-VL在多项指标上有效媲美前沿高效视觉语言模型,如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT,并在多个关键领域超越GPT-4o。此外,Kimi-VL在长上下文处理与清晰感知方面实现显著进步。其支持128K扩展上下文窗口,可高效处理各类长序列输入,在LongVideoBench上取得64.5分,在MMLongBench-Doc上获得35.1分,表现突出。其原生高分辨率视觉编码器MoonViT进一步支持对超高清视觉输入的感知与理解,在InfoVQA上达到83.2分,在ScreenSpot-Pro上获得34.5分,同时在常规任务中保持较低的计算开销。基于Kimi-VL,我们进一步推出增强型长思维变体——Kimi-VL-Thinking。该模型通过长链式思维(Chain-of-Thought, CoT)监督微调(Supervised Fine-Tuning, SFT)与强化学习(Reinforcement Learning, RL)训练而成,具备强大的长时程推理能力。在保持仅激活28亿参数的轻量化语言模型架构下,其在MMMU上取得61.7分,在MathVision上达36.8分,在MathVista上取得71.3分,树立了高效多模态思维模型的新标杆。相关代码与模型已公开,欢迎访问:https://github.com/MoonshotAI/Kimi-VL。

代码仓库

moonshotai/kimi-vl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
optical-character-recognition-on-ocrbench-v2-chineseKimi-VL-A3B-16B
Accuracy: 54.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Kimi-VL 技术报告 | 论文 | HyperAI超神经