8 个月前

统一多模态

多模态表征

Pan Zhang Xiaoyi Dong Yuhang Zang Yuhang Cao Rui Qian Lin Chen Qipeng Guo Haodong Duan Bin Wang Linke Ouyang

摘要

我们提出 InternLM-XComposer-2.5（简称 IXC-2.5），这是一个功能强大的多模态大模型，支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越，仅使用 70 亿参数的轻量级语言模型（LLM）作为后端，即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练，通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文，使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本，IXC-2.5 在视觉-语言理解方面实现了三大关键升级：（1）超高清图像理解能力，（2）细粒度视频理解能力，以及（3）多轮多图像对话能力。在理解能力之外，IXC-2.5 还通过引入额外的 LoRA 参数，拓展至两个极具应用价值的文本-图像生成任务：（1）网页内容自动生成，（2）高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估，其在 16 个基准上超越现有开源最先进模型；在 16 项关键任务中，表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源，项目地址为：https://github.com/InternLM/InternLM-XComposer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

多模态表征

Pan Zhang Xiaoyi Dong Yuhang Zang Yuhang Cao Rui Qian Lin Chen Qipeng Guo Haodong Duan Bin Wang Linke Ouyang

摘要

我们提出 InternLM-XComposer-2.5（简称 IXC-2.5），这是一个功能强大的多模态大模型，支持长上下文输入与输出。IXC-2.5 在多种文本-图像理解与生成任务中表现卓越，仅使用 70 亿参数的轻量级语言模型（LLM）作为后端，即可达到 GPT-4V 水平的综合能力。该模型在 2.4 万组交错排列的图文上下文上进行训练，通过 RoPE 外推技术可无缝扩展至 9.6 万 token 的超长上下文，使其在需要大范围输入与输出的复杂任务中具备显著优势。相较于前代 2.0 版本，IXC-2.5 在视觉-语言理解方面实现了三大关键升级：（1）超高清图像理解能力，（2）细粒度视频理解能力，以及（3）多轮多图像对话能力。在理解能力之外，IXC-2.5 还通过引入额外的 LoRA 参数，拓展至两个极具应用价值的文本-图像生成任务：（1）网页内容自动生成，（2）高质量图文文章创作。IXC-2.5 已在 28 个基准测试中完成评估，其在 16 个基准上超越现有开源最先进模型；在 16 项关键任务中，表现优于或与 GPT-4V 和 Gemini Pro 持平。InternLM-XComposer-2.5 已开源，项目地址为：https://github.com/InternLM/InternLM-XComposer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

InternLM-XComposer-2.5：一个支持长上下文输入与输出的通用大视觉语言模型 | 论文 | HyperAI超神经