6 个月前

计算机视觉

Sungho Jo Sejoon Huh Daekyum Kim Junyong Park

摘要

动作分割旨在将视频划分为不同动作的片段。近年来的研究主要致力于处理长时、未剪辑视频中的长程依赖问题，但仍面临过度分割以及因模型复杂度增加导致性能饱和的问题。本文提出一种“分而治之”的策略，首先最大化模型在帧级别上的分类准确率，随后有效降低过度分割误差。该策略通过一种名为“空洞传递与重建网络”（Dilation Passing and Reconstruction Network）的架构实现，该网络由两部分组成：空洞传递网络（Dilation Passing Network），通过传播不同空洞率的信息来提升分类精度；以及时间重建网络（Temporal Reconstruction Network），通过对空洞传递网络输出特征进行时间维度上的编码与解码，减少过度分割错误。此外，本文还提出一种加权时间均方误差损失函数，进一步抑制过度分割现象。在50Salads、GTEA和Breakfast三个公开数据集上的实验结果表明，所提模型在性能上显著优于现有最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Sungho Jo Sejoon Huh Daekyum Kim Junyong Park

摘要

动作分割旨在将视频划分为不同动作的片段。近年来的研究主要致力于处理长时、未剪辑视频中的长程依赖问题，但仍面临过度分割以及因模型复杂度增加导致性能饱和的问题。本文提出一种“分而治之”的策略，首先最大化模型在帧级别上的分类准确率，随后有效降低过度分割误差。该策略通过一种名为“空洞传递与重建网络”（Dilation Passing and Reconstruction Network）的架构实现，该网络由两部分组成：空洞传递网络（Dilation Passing Network），通过传播不同空洞率的信息来提升分类精度；以及时间重建网络（Temporal Reconstruction Network），通过对空洞传递网络输出特征进行时间维度上的编码与解码，减少过度分割错误。此外，本文还提出一种加权时间均方误差损失函数，进一步抑制过度分割现象。在50Salads、GTEA和Breakfast三个公开数据集上的实验结果表明，所提模型在性能上显著优于现有最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供