3 个月前

Oryx MLLM:任意分辨率下的按需时空理解

Oryx MLLM:任意分辨率下的按需时空理解

摘要

视觉数据形式多样,从仅几像素大小的图标到长达数小时的视频不等。现有的多模态大语言模型通常将这些差异化的视觉输入统一标准化为固定分辨率,以供视觉编码器处理,并向大语言模型输出数量相近的标记(tokens)。然而,这种处理方式在多模态理解上并非最优,且对包含长时序或短时序内容的输入处理效率低下。为解决这一问题,我们提出 Oryx——一种统一的多模态架构,用于实现对图像、视频及多视角三维场景的时空理解。Oryx 通过两项核心创新,提供按需支持的解决方案,可无缝且高效地处理任意空间尺寸与时间长度的视觉输入:1)一种预训练的 OryxViT 模型,能够将任意分辨率的图像编码为适配大语言模型的视觉表征;2)一个动态压缩模块,可根据需求实现 1× 至 16× 的视觉标记压缩。这些设计使 Oryx 能够以较低分辨率和高压缩率处理极长视觉上下文(如视频),同时在文档理解等任务中保持原始分辨率与无压缩条件下的高识别精度。除架构层面的优化外,我们还通过增强的数据整理策略以及针对长上下文检索与空间感知数据的专项训练,进一步提升了 Oryx 在图像、视频与三维多模态理解方面的综合能力。本工作已开源,项目地址为:https://github.com/Oryx-mllm/Oryx。

代码仓库

oryx-mllm/oryx
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-mvbenchOryx(34B)
Avg.: 64.7
video-question-answering-on-next-qaOryx-1.5(7B)
Accuracy: 81.8
video-question-answering-on-perception-testOyrx (34B)
Accuracy (Top-1): 71.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Oryx MLLM:任意分辨率下的按需时空理解 | 论文 | HyperAI超神经