6 个月前

卷积神经网络

计算机视觉

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

摘要

时间卷积一直是动作分割领域的主流范式，通过增加卷积层来扩展长期感受野。然而，深层网络会导致对帧级识别至关重要的局部信息丢失。为解决上述问题，本文提出一种新颖的编码器-解码器结构，称为交叉增强Transformer（Cross-Enhancement Transformer）。该方法通过交互式自注意力机制，有效学习时间结构表征。具体而言，将编码器中每一层的卷积特征图与解码器通过自注意力机制生成的一组特征进行拼接，从而在一系列帧级动作中同时融合局部与全局信息。此外，本文还提出一种新型损失函数，用于增强训练过程，该函数对过度分割错误施加惩罚。实验结果表明，所提出的框架在三个具有挑战性的数据集——50Salads、Georgia Tech 智能眼镜活动数据集以及Breakfast数据集上均达到了当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

摘要

时间卷积一直是动作分割领域的主流范式，通过增加卷积层来扩展长期感受野。然而，深层网络会导致对帧级识别至关重要的局部信息丢失。为解决上述问题，本文提出一种新颖的编码器-解码器结构，称为交叉增强Transformer（Cross-Enhancement Transformer）。该方法通过交互式自注意力机制，有效学习时间结构表征。具体而言，将编码器中每一层的卷积特征图与解码器通过自注意力机制生成的一组特征进行拼接，从而在一系列帧级动作中同时融合局部与全局信息。此外，本文还提出一种新型损失函数，用于增强训练过程，该函数对过度分割错误施加惩罚。实验结果表明，所提出的框架在三个具有挑战性的数据集——50Salads、Georgia Tech 智能眼镜活动数据集以及Breakfast数据集上均达到了当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供