3 个月前

VLN-PETL:面向视觉-语言导航的参数高效迁移学习

VLN-PETL:面向视觉-语言导航的参数高效迁移学习

摘要

近年来,视觉-语言导航(Vision-and-Language Navigation, VLN)任务的性能取得了快速进展,这主要得益于大规模预训练视觉-语言模型的应用。然而,针对每个下游VLN任务均对预训练模型进行全量微调,由于模型规模庞大,正变得日益昂贵。近年来,参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)研究成为热点,其在常见计算机视觉(CV)与自然语言处理(NLP)任务中展现出高效微调大模型的巨大潜力——该方法充分利用预训练模型中蕴含的表征知识,同时仅需调整极少量参数。然而,直接将现有PETL方法应用于更具挑战性的VLN任务,可能导致性能显著下降。为此,本文首次系统探索了PETL方法在VLN任务中的适用性,并提出一种面向VLN任务的专用PETL方法——VLN-PETL。具体而言,我们设计了两个专用PETL模块:历史交互增强模块(Historical Interaction Booster, HIB)与跨模态交互增强模块(Cross-modal Interaction Booster, CIB)。随后,将这两个模块与多种现有PETL方法相结合,构建出集成化的VLN-PETL框架。在四个主流VLN任务(R2R、REVERIE、NDH、RxR)上的大量实验结果表明,所提出的VLN-PETL方法具有显著有效性:其性能可与全量微调相媲美,甚至在部分任务上超越全微调,同时显著优于其他现有PETL方法,展现出令人期待的性能优势。

代码仓库

yanyuanqiao/vln-petl
官方
GitHub 中提及

基准测试

基准方法指标
visual-navigation-on-cooperative-vision-and-1VLN-PETL
dist_to_end_reduction: 6.13
spl: 0.07
visual-navigation-on-room-to-room-1VLN-PETL
spl: 0.58

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLN-PETL:面向视觉-语言导航的参数高效迁移学习 | 论文 | HyperAI超神经