6 个月前

摘要

视觉数据形式多样，从仅几像素大小的图标到长达数小时的视频不等。现有的多模态大语言模型通常将这些差异化的视觉输入统一标准化为固定分辨率，以供视觉编码器处理，并向大语言模型输出数量相近的标记（tokens）。然而，这种处理方式在多模态理解上并非最优，且对包含长时序或短时序内容的输入处理效率低下。为解决这一问题，我们提出 Oryx——一种统一的多模态架构，用于实现对图像、视频及多视角三维场景的时空理解。Oryx 通过两项核心创新，提供按需支持的解决方案，可无缝且高效地处理任意空间尺寸与时间长度的视觉输入：1）一种预训练的 OryxViT 模型，能够将任意分辨率的图像编码为适配大语言模型的视觉表征；2）一个动态压缩模块，可根据需求实现 1× 至 16× 的视觉标记压缩。这些设计使 Oryx 能够以较低分辨率和高压缩率处理极长视觉上下文（如视频），同时在文档理解等任务中保持原始分辨率与无压缩条件下的高识别精度。除架构层面的优化外，我们还通过增强的数据整理策略以及针对长上下文检索与空间感知数据的专项训练，进一步提升了 Oryx 在图像、视频与三维多模态理解方面的综合能力。本工作已开源，项目地址为：https://github.com/Oryx-mllm/Oryx。

源 PDF