3 个月前

用于唇读的自适应语义-时空图卷积网络

用于唇读的自适应语义-时空图卷积网络

摘要

本研究的目标是在未提供音频的情况下,仅通过说话人脸的视频来识别其说出的词汇、短语和句子。当前基于深度学习的唇读方法主要聚焦于视频的外观特征与光流信息的挖掘。然而,这些方法并未充分挖掘唇部运动的内在特性。除了外观和光流信息外,口部轮廓的形变通常也蕴含着与前者互补的重要信息,但相较于外观和光流建模,动态口部轮廓的建模至今仍鲜受关注。为此,本文提出一种新型动态口部轮廓建模方法——自适应语义-时空图卷积网络(Adaptive Semantic-Spatio-Temporal Graph Convolution Network, ASST-GCN),通过自动从视频中学习空间与时间维度的特征,超越现有方法的局限性。为进一步融合外观信息与口部轮廓信息的互补优势,本文设计了一种双流视觉前端网络。实验结果表明,所提出的方法在多个大规模唇读基准数据集上显著优于当前最先进的唇读技术。

基准测试

基准方法指标
landmark-based-lipreading-on-lrwAdaptive GCN
Top 1 Accuracy: 60.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于唇读的自适应语义-时空图卷积网络 | 论文 | HyperAI超神经