3 个月前

SUTD-TrafficQA:一个面向交通事件视频推理的问答基准与高效网络

SUTD-TrafficQA:一个面向交通事件视频推理的问答基准与高效网络

摘要

视频中的交通事件认知与推理是一项重要任务,在智能交通系统、辅助驾驶以及自动驾驶等领域具有广泛的应用价值。本文提出了一种新型数据集——SUTD-TrafficQA(交通问答数据集),该数据集基于采集的10,080段真实场景视频,构建了62,535组问答对,旨在为因果推理与事件理解模型在复杂交通场景下的认知能力提供基准测试。具体而言,我们设计了6项具有挑战性的推理任务,覆盖多种实际交通场景,用以评估模型对不同类型复杂交通事件的推理能力。此外,为实现高效且可靠的视频推理,我们提出了一种名为Eclipse的新方法——一种基于动态推理的高效视觉片段网络(Efficient glimpse network)。实验结果表明,该方法在显著降低计算成本的同时,仍能取得优越的性能表现。项目主页:https://github.com/SUTDCV/SUTD-TrafficQA。

代码仓库

MarkHershey/arxiv-dl
GitHub 中提及
SUTDCV/SUTD-TrafficQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-sutd-trafficqaEclipse
1/2: 64.77
1/4: 37.05

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SUTD-TrafficQA:一个面向交通事件视频推理的问答基准与高效网络 | 论文 | HyperAI超神经