3 个月前

情境感知在3D视觉语言推理中至关重要

情境感知在3D视觉语言推理中至关重要

摘要

能够在三维空间中完成复杂的视觉-语言推理任务,标志着家用机器人与以人为中心的具身人工智能发展的重要里程碑。本文表明,三维视觉-语言推理面临的一个关键且独特的挑战是情境意识(situational awareness),该能力包含两个核心要素:(1)自主智能体能够根据语言提示定位自身在环境中的位置;(2)智能体能够基于其计算出的位置,从该视角回答开放式问题。为应对这一挑战,我们提出SIG3D——一种端到端的、基于情境的三维视觉-语言推理模型。该模型将三维场景离散化为稀疏体素(sparse voxel)表示,并引入一种语言引导的情境估计器,随后结合情境化问答模块。在SQA3D与ScanQA数据集上的实验结果表明,SIG3D在情境估计与问答任务中显著优于当前最先进的模型(例如,情境估计准确率提升超过30%)。后续分析进一步验证了我们架构设计的合理性,深入探讨了视觉与文本令牌在模型中的不同功能,并强调了情境意识在三维问答任务中的关键作用。

代码仓库

YunzeMan/Situation3D
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-sqa3dSituation3D
AnswerExactMatch (Question Answering): 52.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
情境感知在3D视觉语言推理中至关重要 | 论文 | HyperAI超神经