6 个月前

计算机视觉

计算机视觉

Yizhou Wang Tingting Jiang Daochang Liu

摘要

时间动作定位在理解未剪辑视频中具有重要意义。本文首先识别出弱监督学习框架下时间动作定位所面临的两个尚未充分探索的问题：动作完整性建模与动作-上下文分离。为此，我们提出一种新颖的网络架构及其训练策略，以显式地解决上述两个问题。具体而言，为建模动作的完整性，我们设计了一种多分支神经网络结构，其中各分支被强制学习识别具有差异性的动作片段。通过融合不同分支的激活响应，可实现对完整动作的有效定位。为实现动作实例与其周围上下文的有效分离，我们利用“静止视频片段极大概率不属于动作”这一先验知识，生成困难负样本用于训练，从而增强模型对动作边界的区分能力。在THUMOS'14和ActivityNet数据集上的实验结果表明，所提出的框架显著优于现有最先进方法。特别是在ActivityNet v1.2数据集上，平均mAP指标从18.0%显著提升至22.4%。相关代码将很快公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Yizhou Wang Tingting Jiang Daochang Liu

摘要

时间动作定位在理解未剪辑视频中具有重要意义。本文首先识别出弱监督学习框架下时间动作定位所面临的两个尚未充分探索的问题：动作完整性建模与动作-上下文分离。为此，我们提出一种新颖的网络架构及其训练策略，以显式地解决上述两个问题。具体而言，为建模动作的完整性，我们设计了一种多分支神经网络结构，其中各分支被强制学习识别具有差异性的动作片段。通过融合不同分支的激活响应，可实现对完整动作的有效定位。为实现动作实例与其周围上下文的有效分离，我们利用“静止视频片段极大概率不属于动作”这一先验知识，生成困难负样本用于训练，从而增强模型对动作边界的区分能力。在THUMOS'14和ActivityNet数据集上的实验结果表明，所提出的框架显著优于现有最先进方法。特别是在ActivityNet v1.2数据集上，平均mAP指标从18.0%显著提升至22.4%。相关代码将很快公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供