4 个月前

InterMask:通过协作掩码建模生成3D人体交互

InterMask:通过协作掩码建模生成3D人体交互

摘要

从文本描述生成逼真的3D人际互动仍然是一个具有挑战性的任务。现有的方法通常基于扩散模型,往往生成的结果缺乏真实感和保真度。在本研究中,我们引入了InterMask,这是一种利用离散空间中的协作掩码建模生成人类互动的新框架。InterMask首先使用VQ-VAE将每个动作序列转换为2D离散运动令牌图。与传统的1D VQ令牌图不同,这种方法更好地保留了细粒度的空间-时间细节,并增强了每个令牌内的空间感知能力。在此表示基础上,InterMask利用生成式掩码建模框架对两个互动个体的令牌进行协同建模。这是通过采用专门设计用于捕捉复杂空间-时间相互依赖关系的Transformer架构来实现的。在训练过程中,它随机掩码两个个体的动作令牌,并学习预测这些令牌。在推理阶段,从完全掩码的序列开始,逐步填充两个个体的令牌。凭借其增强的动作表示、专用架构和有效的学习策略,InterMask实现了最先进的结果,生成了高保真且多样的人类互动。它在InterHuman数据集上的FID得分为5.154(相比之下in2IN为5.535),在InterX数据集上的FID得分为0.399(相比之下InterGen为5.207)。此外,InterMask无需重新设计模型或微调即可无缝支持反应生成。

代码仓库

gohar-malik/intermask
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
motion-synthesis-on-inter-xInterMask
FID: 0.399
MMDist: 3.705
MModality: 2.261
R-Precision Top3: 0.705
motion-synthesis-on-interhumanInterMask
FID: 5.154
MMDist: 3.790
MModality: 1.737
R-Precision Top3: 0.683

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InterMask:通过协作掩码建模生成3D人体交互 | 论文 | HyperAI超神经