4 个月前

异步时域场用于动作识别

异步时域场用于动作识别

摘要

动作不仅仅是运动和轨迹:我们做饭是为了吃,我们拿杯子是为了喝水。对视频的全面理解需要超越外观建模,还需要对活动序列以及更高层次的结构如意图进行推理。但是,我们如何对这些方面进行建模和推理呢?我们提出了一种全连接的时间条件随机场(CRF)模型,该模型可以对包括物体、动作和意图在内的各种活动方面进行推理,其中势函数由深度网络预测。端到端训练这种结构化模型是一项具有挑战性的任务:为了进行推理和学习,我们需要构建包含整段视频的小批量数据集,这导致每个小批量中只有少数几段视频。数据点之间的高相关性会导致反向传播算法失效。为了解决这一挑战,我们提出了一种异步变分推断方法,该方法允许高效的端到端训练。我们的方法在Charades基准测试中实现了22.4%的分类平均精度(mAP),超过了当前最先进的方法(17.2% mAP),并且在时间定位任务上也取得了同等的改进效果。

代码仓库

gsig/temporal-fields
官方
pytorch
GitHub 中提及
gsig/charades-algorithms
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-charadesAsyn-TF
MAP: 22.4
action-detection-on-charadesSigurdsson et al.
mAP: 9.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
异步时域场用于动作识别 | 论文 | HyperAI超神经