3 个月前

SQA3D:三维场景中的情境化问答

SQA3D:三维场景中的情境化问答

摘要

我们提出了一项新的任务,用于评估具身智能体的场景理解能力:三维场景中的情境化问答(Situated Question Answering in 3D Scenes, SQA3D)。该任务要求被测智能体首先根据文本描述,理解自身在三维场景中的具体情境(如位置、朝向等),进而基于所处环境进行推理,并回答相关问题。基于ScanNet数据集中的650个场景,我们构建了一个包含6,800个独特情境的数据集,配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力,从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态,尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估,发现表现最佳的模型整体准确率仅为47.20%,而普通人类参与者在该任务中的准确率可达90.06%。我们相信,SQA3D将有力推动未来具身人工智能研究的发展,促进智能体在情境理解与高级推理能力方面的显著提升。

代码仓库

SilongYong/SQA3D
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-sqa3dScanQA
AnswerExactMatch (Question Answering): 46.58
question-answering-on-sqa3dScanQA (w/ auxiliary loss)
AnswerExactMatch (Question Answering): 47.20
referring-expression-on-sqa3d-1Random
Acc@0.5m: 14.60
Acc@1.0m: 34.21
Acc@15°: 22.39
Acc@30°: 42.28

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SQA3D:三维场景中的情境化问答 | 论文 | HyperAI超神经