6 个月前

计算机视觉

计算机视觉

Min-Hung Chen Baopu Li Yingze Bao Ghassan AlRegib

摘要

动作分割领域的主要进展得益于密集标注数据在完全监督学习中的应用。由于逐帧动作的手动标注耗时且具有挑战性，本文提出利用更易获取的辅助未标注视频，将该问题建模为域自适应（Domain Adaptation, DA）问题。尽管近年来已提出多种域自适应技术，但大多数方法仅针对空间维度进行设计。为此，本文提出混合时间域自适应（Mixed Temporal Domain Adaptation, MTDA）方法，旨在跨域联合对齐帧级与视频级嵌入特征空间，并进一步结合域注意力机制，聚焦于对域间差异较大的帧级特征进行对齐，从而实现更高效的域自适应。在三个具有挑战性的数据集（GTEA、50Salads 和 Breakfast）上的实验结果表明，所提方法在所有数据集上均显著优于当前最先进的方法，性能提升显著：例如，在 GTEA 数据集上，F1@50 指标提升 6.4%，编辑得分（edit score）提升 6.8%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Min-Hung Chen Baopu Li Yingze Bao Ghassan AlRegib

摘要

动作分割领域的主要进展得益于密集标注数据在完全监督学习中的应用。由于逐帧动作的手动标注耗时且具有挑战性，本文提出利用更易获取的辅助未标注视频，将该问题建模为域自适应（Domain Adaptation, DA）问题。尽管近年来已提出多种域自适应技术，但大多数方法仅针对空间维度进行设计。为此，本文提出混合时间域自适应（Mixed Temporal Domain Adaptation, MTDA）方法，旨在跨域联合对齐帧级与视频级嵌入特征空间，并进一步结合域注意力机制，聚焦于对域间差异较大的帧级特征进行对齐，从而实现更高效的域自适应。在三个具有挑战性的数据集（GTEA、50Salads 和 Breakfast）上的实验结果表明，所提方法在所有数据集上均显著优于当前最先进的方法，性能提升显著：例如，在 GTEA 数据集上，F1@50 指标提升 6.4%，编辑得分（edit score）提升 6.8%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供