7 个月前

摘要

连续手语翻译（Continuous Sign Language Translation, CSLT）是一个弱监督问题，旨在将基于视觉的视频在复杂手语语言结构下翻译为自然语言。在该任务中，句子标签中的有序词汇与视频中各个手语动作之间缺乏精确的边界对齐。本文提出了一种混合深度架构，由时序卷积模块（Temporal Convolution Module, TCOV）、双向门控循环单元模块（Bidirectional Gated Recurrent Unit Module, BGRU）以及融合层模块（Fusion Layer Module, FL）组成，以应对CSLT挑战。TCOV用于捕捉相邻视频片段特征之间的短期时序变化（局部模式），而BGRU则用于建模时间维度上的长期上下文依赖关系（全局模式）。FL通过拼接TCOV与BGRU的特征嵌入，学习二者之间的互补关系（互惠模式）。基于此，本文进一步提出一种联合连接时序融合（Joint Connectionist Temporal Fusion, CTF）机制，有效整合各模块的优势。此外，设计了联合的CTC损失优化方法与基于深度分类得分的解码融合策略，以进一步提升模型性能。在仅进行一次训练的情况下，所提模型在CTC约束下即可达到与其他需多次期望最大化（EM）迭代方法相当的性能表现。实验在基准数据集——RWTH-PHOENIX-Weather数据集上进行，结果验证了所提方法的有效性与优越性。

源 PDF