HyperAIHyperAI

Command Palette

Search for a command to run...

用于手语识别与翻译的双流网络

Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu Brian Mak

摘要

手语是一种视觉语言,通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中,现有大多数方法直接将RGB视频编码为隐藏表示。然而,RGB视频作为原始信号,存在大量视觉冗余,导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识(如手部形状与身体动作),我们提出一种双流视觉编码器,包含两个独立的分支:一个用于建模原始视频,另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互,我们探索了多种技术,包括双向横向连接、带辅助监督的符号金字塔网络,以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR,具备出色的手语识别(SLR)能力。通过简单地附加一个额外的翻译网络,TwoStream-SLR可进一步扩展为手语翻译(SLT)模型——TwoStream-SLT。实验结果表明,我们的TwoStream-SLR与TwoStream-SLT在多个数据集(包括Phoenix-2014、Phoenix-2014T和CSL-Daily)上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源,地址为:https://github.com/FangyunWei/SLRT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于手语识别与翻译的双流网络 | 论文 | HyperAI超神经