
摘要
我们提出了一项新的三维空间理解任务——三维问答(3D-QA)。在3D-QA任务中,模型接收来自丰富RGB-D室内扫描的整个三维场景的视觉信息,并回答关于该三维场景的给定文本问题。与视觉问答(VQA)中的二维问答不同,传统的2D-QA模型在物体对齐和方向的空间理解方面存在问题,并且无法从文本问题中识别出3D-QA中的物体。为此,我们提出了一种名为ScanQA的基础模型,该模型从三维物体提案和编码的句子嵌入中学习融合描述符。这种学习到的描述符将语言表达与三维扫描的基本几何特征相关联,有助于回归三维边界框以确定文本问题中描述的物体,并输出正确的答案。我们收集了由人类编辑的问题-答案对,这些问题的答案是自由形式的,并且与每个三维场景中的三维物体相对应。我们的新ScanQA数据集包含来自ScanNet数据集中800个室内场景的超过40,000个问题-答案对。据我们所知,提出的3D-QA任务是首次大规模尝试在三维环境中进行基于物体的问答。
代码仓库
atr-dbi/scanqa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-question-answering-3d-qa-on-scanqa-test-w | ScanQA | BLEU-1: 31.56 BLEU-4: 12.04 CIDEr: 67.29 Exact Match: 23.45 METEOR: 13.55 ROUGE: 34.34 |
| 3d-question-answering-3d-qa-on-scanqa-test-w | ScanRefer+MCAN | BLEU-1: 27.85 BLEU-4: 7.46 CIDEr: 57.56 Exact Match: 20.56 METEOR: 11.97 ROUGE: 30.68 |
| 3d-question-answering-3d-qa-on-scanqa-test-w | VoteNet+MCAN | BLEU-1: 29.46 BLEU-4: 6.08 CIDEr: 58.23 Exact Match: 19.71 METEOR: 12.07 ROUGE: 30.97 |