
摘要
运动补全是一个长期受到关注且极具挑战性的问题,在影视与游戏应用中具有重要意义。针对不同的运动补全场景(如帧间插值、帧内填充和运动融合),以往大多数方法均采用针对具体场景的定制化设计。在本工作中,我们提出一种简洁而高效的方法,在统一框架下解决多种运动补全问题,并在多种评估设置下实现了新的最先进精度。受近期基于注意力机制模型取得巨大成功的启发,我们将运动补全问题建模为序列到序列的预测任务。所提出的方法由两个核心模块构成:一是采用自注意力机制的标准Transformer编码器,用于捕捉输入运动序列中的长距离依赖关系;二是可学习的混合嵌入模块,用于建模时间信息并区分关键帧。该方法能够以非自回归方式运行,仅需一次前向传播即可实时预测多个缺失帧。最后,我们在音乐-舞蹈应用中验证了该方法的有效性。
代码仓库
FuxiCV/SSMCT
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| motion-synthesis-on-lafan1 | SSMCT | L2P@15: 0.56 L2P@30: 1.1 L2P@5: 0.22 L2Q@15: 0.36 L2Q@30: 0.61 L2Q@5: 0.14 NPSS@15: 0.0234 NPSS@30: 0.1222 NPSS@5: 0.0016 |