
摘要
为了在现实世界场景中安全部署人工智能,如医院、学校和工作场所,AI必须能够稳健地对物理世界进行推理。这种推理的基础是物理常识:理解可用物体的物理属性和功能,它们如何被操作以及与其他物体的相互作用。物理常识推理本质上是一个多感官任务,因为物理属性通过多种模态表现出来——其中两种为视觉和听觉。我们的论文朝着现实世界的物理常识推理迈出了重要一步,贡献了PACS:首个标注有物理常识属性的视听基准数据集。PACS包含13,400个问答对,涉及1,377个独特的物理常识问题和1,526个视频。我们的数据集为推进物理推理研究领域提供了新的机会,通过将听觉作为这一多模态问题的核心组成部分。利用PACS,我们评估了多个最先进模型在这一新挑战任务上的表现。尽管某些模型显示出令人鼓舞的结果(70%准确率),但它们均未达到人类的表现水平(95%准确率)。我们在论文结尾部分展示了多模态推理的重要性,并提出了未来研究的可能方向。
代码仓库
samuelyu2002/pacs
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| physical-commonsense-reasoning-on-physical | UNITER (Large) | Without Audio (Acc %): 60.6 ± 2.2 |
| physical-commonsense-reasoning-on-physical | Human | With Audio (Acc %): 96.3 ± 2.1 Without Audio (Acc %): 90.5 ± 3.1 |
| physical-commonsense-reasoning-on-physical | Merlot Reserve (Large) | With Audio (Acc %): 70.1 ± 1.0 Without Audio (Acc %): 68.4 ± 0.7 |
| physical-commonsense-reasoning-on-physical | Majority | With Audio (Acc %): 50.4 Without Audio (Acc %): 50.4 |
| physical-commonsense-reasoning-on-physical | CLIP/AudioCLIP | With Audio (Acc %): 60.0 ± 0.9 Without Audio (Acc %): 56.3 ± 0.7 |
| physical-commonsense-reasoning-on-physical | Late Fusion | With Audio (Acc %): 55.0 ± 1.1 Without Audio (Acc %): 52.5 ± 1.6 |