
摘要
在本文中,我们研究了构建一种序列到序列架构,用于动作到语言的翻译和同步。目标是将动作捕捉输入转化为英语自然语言描述,使得这些描述能够与所执行的动作同步生成,从而作为副产品实现语义分割,而无需同步训练数据。我们提出了一种新的局部注意力机制的递归公式,适用于同步/实时文本生成,并改进了运动编码器架构,使其更适合小规模数据和同步生成。我们在单独的实验中评估了这两项贡献,使用了标准的BLEU4指标以及一个简单的语义等价度量,在KIT动作语言数据集上进行了测试。在后续实验中,我们通过多种评估指标对所提出的模型生成文本的同步质量进行了评估。结果表明,对注意力机制和编码器架构的两项贡献不仅加性地提高了生成文本的质量(BLEU和语义等价),还改善了同步效果。我们的代码可在以下地址获取:https://github.com/rd20karim/M2T-Segmentation/tree/main
代码仓库
rd20karim/M2T-Segmentation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-captioning-on-humanml3d | MLP+GRU | BERTScore: 37.2 BLEU-4: 23.4 |
| motion-captioning-on-kit-motion-language | MLP+GRU | BERTScore: 42.1 BLEU-4: 25.4 |