6 个月前

统一多模态

Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang Linke Ouyang Xilin Wei Songyang Zhang Haodong Duan Maosong Cao

摘要

我们提出InternLM-XComposer2，一款前沿的视觉-语言模型，在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴，能够灵活地根据多种输入（如草图、详细文本描述及参考图像）生成交错排列的图文混合内容，实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配（Partial LoRA, PLoRA）方法，仅在图像令牌上应用额外的LoRA参数，从而有效保留预训练语言模型的知识完整性，在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明，基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越，且在多个基准测试中展现出出色的视觉-语言理解能力，不仅显著优于现有主流多模态模型，更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平，充分体现了其在多模态理解领域的强大实力。目前，参数规模为7B的InternLM-XComposer2模型系列已公开发布，可访问GitHub获取：https://github.com/InternLM/InternLM-XComposer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang Linke Ouyang Xilin Wei Songyang Zhang Haodong Duan Maosong Cao

摘要

我们提出InternLM-XComposer2，一款前沿的视觉-语言模型，在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴，能够灵活地根据多种输入（如草图、详细文本描述及参考图像）生成交错排列的图文混合内容，实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配（Partial LoRA, PLoRA）方法，仅在图像令牌上应用额外的LoRA参数，从而有效保留预训练语言模型的知识完整性，在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明，基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越，且在多个基准测试中展现出出色的视觉-语言理解能力，不仅显著优于现有主流多模态模型，更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平，充分体现了其在多模态理解领域的强大实力。目前，参数规模为7B的InternLM-XComposer2模型系列已公开发布，可访问GitHub获取：https://github.com/InternLM/InternLM-XComposer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供