
摘要
我们提出了一项新的任务,用于评估具身智能体的场景理解能力:三维场景中的情境化问答(Situated Question Answering in 3D Scenes, SQA3D)。该任务要求被测智能体首先根据文本描述,理解自身在三维场景中的具体情境(如位置、朝向等),进而基于所处环境进行推理,并回答相关问题。基于ScanNet数据集中的650个场景,我们构建了一个包含6,800个独特情境的数据集,配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力,从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态,尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估,发现表现最佳的模型整体准确率仅为47.20%,而普通人类参与者在该任务中的准确率可达90.06%。我们相信,SQA3D将有力推动未来具身人工智能研究的发展,促进智能体在情境理解与高级推理能力方面的显著提升。
代码仓库
SilongYong/SQA3D
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-sqa3d | ScanQA | AnswerExactMatch (Question Answering): 46.58 |
| question-answering-on-sqa3d | ScanQA (w/ auxiliary loss) | AnswerExactMatch (Question Answering): 47.20 |
| referring-expression-on-sqa3d-1 | Random | Acc@0.5m: 14.60 Acc@1.0m: 34.21 Acc@15°: 22.39 Acc@30°: 42.28 |