6 个月前

计算机视觉

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

时间动作检测（Temporal Action Detection, TAD）旨在从未剪辑的视频中检测出所有动作的起止边界及其对应类别。然而，视频中动作边界的模糊性常常导致现有方法在预测动作边界时精度不足。为解决这一问题，本文提出一种单阶段框架——TriDet。首先，我们设计了一种三重头结构（Trident-head），通过建模边界附近的相对概率分布来更精确地刻画动作边界。其次，针对基于Transformer的方法中存在的排序损失问题（即瞬间可区分性退化），我们提出一种高效且可扩展的粒度感知（Scalable-Granularity Perception, SGP）模块，以缓解该问题。为进一步提升视频主干网络在瞬间可区分性方面的性能，我们利用预训练大模型强大的表示能力，并系统研究其在TAD任务上的表现。最后，考虑到分类任务对时空上下文信息的充分依赖，我们设计了一种解耦式特征金字塔网络，采用独立的特征金字塔结构，从大模型中提取丰富的空间上下文信息以增强定位能力。实验结果表明，TriDet具有良好的鲁棒性，并在多个TAD数据集（包括层级化（多标签）TAD数据集）上取得了当前最优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Dingfeng Shi Qiong Cao Yujie Zhong Shan An Jian Cheng Haogang Zhu Dacheng Tao

摘要

时间动作检测（Temporal Action Detection, TAD）旨在从未剪辑的视频中检测出所有动作的起止边界及其对应类别。然而，视频中动作边界的模糊性常常导致现有方法在预测动作边界时精度不足。为解决这一问题，本文提出一种单阶段框架——TriDet。首先，我们设计了一种三重头结构（Trident-head），通过建模边界附近的相对概率分布来更精确地刻画动作边界。其次，针对基于Transformer的方法中存在的排序损失问题（即瞬间可区分性退化），我们提出一种高效且可扩展的粒度感知（Scalable-Granularity Perception, SGP）模块，以缓解该问题。为进一步提升视频主干网络在瞬间可区分性方面的性能，我们利用预训练大模型强大的表示能力，并系统研究其在TAD任务上的表现。最后，考虑到分类任务对时空上下文信息的充分依赖，我们设计了一种解耦式特征金字塔网络，采用独立的特征金字塔结构，从大模型中提取丰富的空间上下文信息以增强定位能力。实验结果表明，TriDet具有良好的鲁棒性，并在多个TAD数据集（包括层级化（多标签）TAD数据集）上取得了当前最优的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

具有增强即时可区分性的时序动作定位 | 论文 | HyperAI超神经