HyperAI

摘要

近年来，视觉语言模型（VLMs）在准确性方面取得了显著进展。然而，其效率问题却未得到足够重视。本文提出了NVILA，一个旨在同时优化效率与准确性的开源视觉语言模型系列。基于VILA架构，我们首先提升模型的空间与时间分辨率，随后对视觉token进行压缩，采用“先扩展、后压缩”的策略，使NVILA能够高效处理高分辨率图像与长视频。此外，我们对NVILA在整个生命周期中的效率进行了系统性优化，涵盖训练、微调到部署的各个环节。在多种图像与视频基准测试中，NVILA的性能达到或超越了众多主流开源及专有视觉语言模型。与此同时，NVILA将训练成本降低4.5倍，微调阶段的内存使用减少3.4倍，预填充延迟降低1.6至2.2倍，解码延迟降低1.2至2.8倍。我们即将开源代码与模型，以促进研究的可复现性。

摘要

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

NVILA：高效前沿视觉语言模型

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

NVILA：高效前沿视觉语言模型

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

NVILA：高效前沿视觉语言模型

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li17 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li

Zhijian Liu Ligeng Zhu Baifeng Shi Zhuoyang Zhang Yuming Lou Shang Yang Haocheng Xi Shiyi Cao Yuxian Gu Dacheng Li