4 个月前

PACS:物理视听常识推理数据集

PACS:物理视听常识推理数据集

摘要

为了在现实世界场景中安全部署人工智能,如医院、学校和工作场所,AI必须能够稳健地对物理世界进行推理。这种推理的基础是物理常识:理解可用物体的物理属性和功能,它们如何被操作以及与其他物体的相互作用。物理常识推理本质上是一个多感官任务,因为物理属性通过多种模态表现出来——其中两种为视觉和听觉。我们的论文朝着现实世界的物理常识推理迈出了重要一步,贡献了PACS:首个标注有物理常识属性的视听基准数据集。PACS包含13,400个问答对,涉及1,377个独特的物理常识问题和1,526个视频。我们的数据集为推进物理推理研究领域提供了新的机会,通过将听觉作为这一多模态问题的核心组成部分。利用PACS,我们评估了多个最先进模型在这一新挑战任务上的表现。尽管某些模型显示出令人鼓舞的结果(70%准确率),但它们均未达到人类的表现水平(95%准确率)。我们在论文结尾部分展示了多模态推理的重要性,并提出了未来研究的可能方向。

代码仓库

samuelyu2002/pacs
官方
jax
GitHub 中提及

基准测试

基准方法指标
physical-commonsense-reasoning-on-physicalUNITER (Large)
Without Audio (Acc %): 60.6 ± 2.2
physical-commonsense-reasoning-on-physicalHuman
With Audio (Acc %): 96.3 ± 2.1
Without Audio (Acc %): 90.5 ± 3.1
physical-commonsense-reasoning-on-physicalMerlot Reserve (Large)
With Audio (Acc %): 70.1 ± 1.0
Without Audio (Acc %): 68.4 ± 0.7
physical-commonsense-reasoning-on-physicalMajority
With Audio (Acc %): 50.4
Without Audio (Acc %): 50.4
physical-commonsense-reasoning-on-physicalCLIP/AudioCLIP
With Audio (Acc %): 60.0 ± 0.9
Without Audio (Acc %): 56.3 ± 0.7
physical-commonsense-reasoning-on-physicalLate Fusion
With Audio (Acc %): 55.0 ± 1.1
Without Audio (Acc %): 52.5 ± 1.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PACS:物理视听常识推理数据集 | 论文 | HyperAI超神经