
摘要
构建一个能够与世界互动的通用智能体是人工智能系统的一个引人入胜的目标,这推动了具身导航(embodied navigation)的研究,其中要求智能体根据指令进行导航或对查询作出响应。尽管取得了重大进展,但以往的工作主要集中在特定任务的智能体上,缺乏在未见过的情景中的泛化能力。最近,大型语言模型(LLMs)在各个领域展现出了显著的能力,为具身导航提供了新的机遇。基于此,我们提出了首个用于具身导航的通用模型——NaviLLM。该模型通过引入基于模式的指令(schema-based instruction),将 LLMs 适应于具身导航。基于模式的指令灵活地将各种任务转化为生成问题,从而统一了广泛的任务类型。这种方法使我们能够整合来自多个数据集的多样化数据源进行训练,从而使 NaviLLM 具备了具身导航所需的多种能力。我们进行了广泛的实验来评估模型的性能和泛化能力。实验结果表明,我们的统一模型在 CVDN、SOON 和 ScanQA 数据集上均达到了最先进的性能。具体而言,在 CVDN 数据集上的目标进度方面,我们的模型比之前最先进的方法提高了 29%。此外,我们的模型还表现出强大的泛化能力和在未见过的任务上的出色表现,例如具身体问答和 3D 描述生成。
代码仓库
zd11024/NaviLLM
官方
pytorch
GitHub 中提及
lavi-lab/navillm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-question-answering-3d-qa-on-scanqa-test-w | NaviLLM | BLEU-1: 39.73 BLEU-4: 13.90 CIDEr: 80.77 Exact Match: 26.27 METEOR: 16.56 ROUGE: 40.23 |
| visual-navigation-on-cooperative-vision-and-1 | NaviLLM | dist_to_end_reduction: 7.90 spl: 0.09 |
| visual-navigation-on-room-to-room-1 | NaviLLM | spl: 0.60 |
| visual-navigation-on-soon-test | NaviLLM | Nav-SPL: 26.26 SR: 35.04 |