4 个月前

猴类:图像分辨率和文本标签是大型多模态模型的重要因素

猴类:图像分辨率和文本标签是大型多模态模型的重要因素

摘要

大型多模态模型(LMMs)在视觉-语言任务中展现出巨大潜力,但在处理高分辨率输入和详细场景理解方面仍面临挑战。为了解决这些问题,我们引入了Monkey以增强LMM的能力。首先,Monkey通过将输入图像分割成均匀的图像块(例如448x448像素),每个图像块与经过良好训练的视觉编码器在原始训练中使用的尺寸相匹配。借助每个图像块的独立适配器,Monkey能够处理高达1344x896像素的高分辨率图像,从而实现对复杂视觉信息的详细捕捉。其次,它采用了多层次描述生成方法,丰富了场景对象关联的上下文。这一两部分策略确保了从生成数据中更有效的学习:更高的分辨率使得视觉细节捕捉更加精细,进而增强了全面描述的有效性。大量的消融实验结果验证了我们设计的有效性。此外,18个数据集上的实验进一步证明,Monkey在许多任务如图像标题生成和各种形式的视觉问答中超越了现有的LMMs。特别是在针对密集文本问答的定性测试中,Monkey相比GPT4V展现出了令人鼓舞的结果。代码可在以下地址获取:https://github.com/Yuliang-Liu/Monkey。

代码仓库

yuliang-liu/monkey
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
mmr-total-on-mrr-benchmarkMonkey-Chat-7B
Total Column Score: 214

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
猴类:图像分辨率和文本标签是大型多模态模型的重要因素 | 论文 | HyperAI超神经