8 个月前

多任务学习

计算机视觉

计算机视觉

Peihao Xiang Kaida Wu Ou Bai

摘要

本文扩展了基于自编码器的多任务学习（MTL）框架中的级联网络分支，用于动态面部表情识别，即多任务级联自编码器动态面部表情识别模型（MTCAE-DFER）。MTCAE-DFER 构建了一个可插拔的级联解码模块，该模块基于视觉变换器（Vision Transformer, ViT）架构，并采用了变换器的解码器概念来重构多头注意力模块。前一个任务的解码器输出作为查询（Q），表示局部动态特征；而共享编码器（Video Masked Autoencoder, VideoMAE）的输出则同时作为键（K）和值（V），表示全局动态特征。这种设置促进了相关任务之间全局和局部动态特征的交互。此外，本提案旨在缓解复杂大模型的过拟合问题。我们利用基于自编码器的多任务级联学习方法，探讨了动态人脸检测和动态人脸关键点对动态面部表情识别的影响，从而增强了模型的泛化能力。在多个公开数据集上进行了广泛的消融实验并与最先进的（State-of-the-Art, SOTA）方法进行对比后，证明了 MTCAE-DFER 模型的鲁棒性和相关任务中全局-局部动态特征交互的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

计算机视觉

Peihao Xiang Kaida Wu Ou Bai

摘要

本文扩展了基于自编码器的多任务学习（MTL）框架中的级联网络分支，用于动态面部表情识别，即多任务级联自编码器动态面部表情识别模型（MTCAE-DFER）。MTCAE-DFER 构建了一个可插拔的级联解码模块，该模块基于视觉变换器（Vision Transformer, ViT）架构，并采用了变换器的解码器概念来重构多头注意力模块。前一个任务的解码器输出作为查询（Q），表示局部动态特征；而共享编码器（Video Masked Autoencoder, VideoMAE）的输出则同时作为键（K）和值（V），表示全局动态特征。这种设置促进了相关任务之间全局和局部动态特征的交互。此外，本提案旨在缓解复杂大模型的过拟合问题。我们利用基于自编码器的多任务级联学习方法，探讨了动态人脸检测和动态人脸关键点对动态面部表情识别的影响，从而增强了模型的泛化能力。在多个公开数据集上进行了广泛的消融实验并与最先进的（State-of-the-Art, SOTA）方法进行对比后，证明了 MTCAE-DFER 模型的鲁棒性和相关任务中全局-局部动态特征交互的有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供