3 个月前

LLaVA-UHD:一种能够感知任意长宽比与高分辨率图像的LMM

LLaVA-UHD:一种能够感知任意长宽比与高分辨率图像的LMM

摘要

视觉编码是大型多模态模型(LMMs)理解视觉世界的基础。传统LMMs通常以固定尺寸和有限分辨率处理图像,而当前在此方向上的研究在适应性、效率甚至正确性方面仍存在局限。本文以GPT-4V和LLaVA-1.5作为代表性模型,揭示了其视觉编码策略中系统性存在的缺陷。为应对这些挑战,我们提出LLaVA-UHD——一种能够高效感知任意宽高比与高分辨率图像的大型多模态模型。LLaVA-UHD包含三个核心组件:(1)图像模块化策略,将原始分辨率图像划分为尺寸可变的小块,实现高效且可扩展的编码;(2)压缩模块,进一步压缩视觉编码器输出的图像标记(token);(3)空间结构(spatial schema),用于组织图像块标记以适配大语言模型(LLM)的处理需求。全面的实验表明,LLaVA-UHD在9个基准测试中表现优于此前训练数据量多出2至3个数量级的成熟LMMs。特别地,基于LLaVA-1.5(原支持336×336分辨率)构建的模型,仅需94%的推理计算量,即可支持6倍更大的图像分辨率(即672×1088),并在TextVQA任务上实现6.4个百分点的准确率提升。此外,该模型可在学术研究环境中高效训练,仅需8块A100 GPU运行23小时(相较LLaVA-1.5的26小时显著缩短)。相关数据与代码已公开发布于:https://github.com/thunlp/LLaVA-UHD。

代码仓库

thunlp/llava-uhd
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-context-understanding-on-mmneedleLLaVA-Llama-3
1 Image, 2*2 Stitching, Exact Accuracy: 43.8
1 Image, 4*4 Stitching, Exact Accuracy: 17.5
1 Image, 8*8 Stitching, Exact Accuracy: 3.3
10 Images, 1*1 Stitching, Exact Accuracy: 0
10 Images, 2*2 Stitching, Exact Accuracy: 0
10 Images, 4*4 Stitching, Exact Accuracy: 0
10 Images, 8*8 Stitching, Exact Accuracy: 0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLaVA-UHD:一种能够感知任意长宽比与高分辨率图像的LMM | 论文 | HyperAI超神经