4 个月前

ScanQA:用于空间场景理解的3D问答系统

ScanQA:用于空间场景理解的3D问答系统

摘要

我们提出了一项新的三维空间理解任务——三维问答(3D-QA)。在3D-QA任务中,模型接收来自丰富RGB-D室内扫描的整个三维场景的视觉信息,并回答关于该三维场景的给定文本问题。与视觉问答(VQA)中的二维问答不同,传统的2D-QA模型在物体对齐和方向的空间理解方面存在问题,并且无法从文本问题中识别出3D-QA中的物体。为此,我们提出了一种名为ScanQA的基础模型,该模型从三维物体提案和编码的句子嵌入中学习融合描述符。这种学习到的描述符将语言表达与三维扫描的基本几何特征相关联,有助于回归三维边界框以确定文本问题中描述的物体,并输出正确的答案。我们收集了由人类编辑的问题-答案对,这些问题的答案是自由形式的,并且与每个三维场景中的三维物体相对应。我们的新ScanQA数据集包含来自ScanNet数据集中800个室内场景的超过40,000个问题-答案对。据我们所知,提出的3D-QA任务是首次大规模尝试在三维环境中进行基于物体的问答。

代码仓库

atr-dbi/scanqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-question-answering-3d-qa-on-scanqa-test-wScanQA
BLEU-1: 31.56
BLEU-4: 12.04
CIDEr: 67.29
Exact Match: 23.45
METEOR: 13.55
ROUGE: 34.34
3d-question-answering-3d-qa-on-scanqa-test-wScanRefer+MCAN
BLEU-1: 27.85
BLEU-4: 7.46
CIDEr: 57.56
Exact Match: 20.56
METEOR: 11.97
ROUGE: 30.68
3d-question-answering-3d-qa-on-scanqa-test-wVoteNet+MCAN
BLEU-1: 29.46
BLEU-4: 6.08
CIDEr: 58.23
Exact Match: 19.71
METEOR: 12.07
ROUGE: 30.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ScanQA:用于空间场景理解的3D问答系统 | 论文 | HyperAI超神经