6 个月前

计算机视觉

Zhe Chen Weiyun Wang Yue Cao Yangzhou Liu Zhangwei Gao Erfei Cui Jinguo Zhu Shenglong Ye Hao Tian Zhaoyang Liu

摘要

我们推出 InternVL 2.5，这是一个先进的多模态大语言模型（MLLM）系列，基于 InternVL 2.0 进行演进，在保持其核心模型架构的基础上，显著提升了训练与测试策略以及数据质量。在本研究中，我们深入探讨了模型规模与性能之间的关系，系统性地分析了视觉编码器、语言模型、数据集规模以及测试时配置等关键因素的性能变化趋势。通过在广泛基准测试集上的大量评估，涵盖跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等多个任务，InternVL 2.5 展现出具有竞争力的性能，可与 GPT-4o、Claude-3.5-Sonnet 等领先商业模型相媲美。尤为突出的是，我们的模型是首个在 MMMU 基准上突破 70% 的开源多模态大语言模型，通过引入思维链（Chain-of-Thought, CoT）推理，实现了 3.7 个百分点的提升，展现出强大的测试时扩展潜力。我们希望该模型能为开源社区带来积极贡献，推动多模态人工智能系统在开发与应用方面树立新的标准。HuggingFace 演示地址：https://huggingface.co/spaces/OpenGVLab/InternVL

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Zhe Chen Weiyun Wang Yue Cao Yangzhou Liu Zhangwei Gao Erfei Cui Jinguo Zhu Shenglong Ye Hao Tian Zhaoyang Liu

摘要

我们推出 InternVL 2.5，这是一个先进的多模态大语言模型（MLLM）系列，基于 InternVL 2.0 进行演进，在保持其核心模型架构的基础上，显著提升了训练与测试策略以及数据质量。在本研究中，我们深入探讨了模型规模与性能之间的关系，系统性地分析了视觉编码器、语言模型、数据集规模以及测试时配置等关键因素的性能变化趋势。通过在广泛基准测试集上的大量评估，涵盖跨学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等多个任务，InternVL 2.5 展现出具有竞争力的性能，可与 GPT-4o、Claude-3.5-Sonnet 等领先商业模型相媲美。尤为突出的是，我们的模型是首个在 MMMU 基准上突破 70% 的开源多模态大语言模型，通过引入思维链（Chain-of-Thought, CoT）推理，实现了 3.7 个百分点的提升，展现出强大的测试时扩展潜力。我们希望该模型能为开源社区带来积极贡献，推动多模态人工智能系统在开发与应用方面树立新的标准。HuggingFace 演示地址：https://huggingface.co/spaces/OpenGVLab/InternVL

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供