4 个月前

面向学习用于具身导航的通用模型

面向学习用于具身导航的通用模型

摘要

构建一个能够与世界互动的通用智能体是人工智能系统的一个引人入胜的目标,这推动了具身导航(embodied navigation)的研究,其中要求智能体根据指令进行导航或对查询作出响应。尽管取得了重大进展,但以往的工作主要集中在特定任务的智能体上,缺乏在未见过的情景中的泛化能力。最近,大型语言模型(LLMs)在各个领域展现出了显著的能力,为具身导航提供了新的机遇。基于此,我们提出了首个用于具身导航的通用模型——NaviLLM。该模型通过引入基于模式的指令(schema-based instruction),将 LLMs 适应于具身导航。基于模式的指令灵活地将各种任务转化为生成问题,从而统一了广泛的任务类型。这种方法使我们能够整合来自多个数据集的多样化数据源进行训练,从而使 NaviLLM 具备了具身导航所需的多种能力。我们进行了广泛的实验来评估模型的性能和泛化能力。实验结果表明,我们的统一模型在 CVDN、SOON 和 ScanQA 数据集上均达到了最先进的性能。具体而言,在 CVDN 数据集上的目标进度方面,我们的模型比之前最先进的方法提高了 29%。此外,我们的模型还表现出强大的泛化能力和在未见过的任务上的出色表现,例如具身体问答和 3D 描述生成。

代码仓库

zd11024/NaviLLM
官方
pytorch
GitHub 中提及
lavi-lab/navillm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-question-answering-3d-qa-on-scanqa-test-wNaviLLM
BLEU-1: 39.73
BLEU-4: 13.90
CIDEr: 80.77
Exact Match: 26.27
METEOR: 16.56
ROUGE: 40.23
visual-navigation-on-cooperative-vision-and-1NaviLLM
dist_to_end_reduction: 7.90
spl: 0.09
visual-navigation-on-room-to-room-1NaviLLM
spl: 0.60
visual-navigation-on-soon-testNaviLLM
Nav-SPL: 26.26
SR: 35.04

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向学习用于具身导航的通用模型 | 论文 | HyperAI超神经