HyperAIHyperAI

Command Palette

Search for a command to run...

SQA3D:三维场景中的情境化问答

Xiaojian Ma Silong Yong Zilong Zheng Qing Li Yitao Liang Song-Chun Zhu Siyuan Huang

摘要

我们提出了一项新的任务,用于评估具身智能体的场景理解能力:三维场景中的情境化问答(Situated Question Answering in 3D Scenes, SQA3D)。该任务要求被测智能体首先根据文本描述,理解自身在三维场景中的具体情境(如位置、朝向等),进而基于所处环境进行推理,并回答相关问题。基于ScanNet数据集中的650个场景,我们构建了一个包含6,800个独特情境的数据集,配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力,从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态,尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估,发现表现最佳的模型整体准确率仅为47.20%,而普通人类参与者在该任务中的准确率可达90.06%。我们相信,SQA3D将有力推动未来具身人工智能研究的发展,促进智能体在情境理解与高级推理能力方面的显著提升。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供