
摘要
电影中的叙事与情感通过精心设计的导演决策逐步呈现,尤其体现在镜头的布局与随时间推移的运动上。即便对于技艺娴熟的艺术家而言,构建引人入胜的镜头运动轨迹仍是一个复杂且反复迭代的过程。为应对这一挑战,本文提出一个名为“卓越轨迹”(Exceptional Trajectories, E.T.)的数据集,其中包含镜头运动轨迹、角色信息以及涵盖镜头与角色描述的文本字幕。据我们所知,这是首个此类数据集。为展示E.T.数据集的潜在应用价值,我们进一步提出一种基于扩散模型的方法——DIRECTOR,该方法能够根据描述镜头与角色之间关系及同步性的文本字幕,生成复杂的镜头运动轨迹。为确保评估的稳健性与准确性,我们在E.T.数据集基础上训练了CLaTr模型,即一种用于评估指标的对比语言-轨迹嵌入模型。我们认为,所提出的E.T.数据集与DIRECTOR方法将显著推动电影摄制艺术的普及化,使普通用户也能更便捷地参与高质量的影像创作。
代码仓库
robincourant/DIRECTOR
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-generation-on-e-t-the-exceptional | DIRECTOR B | ClaTr-Score: 20.78 Classifier-F1: 0.39 FD_ClaTr: 6.10 |
| 3d-generation-on-e-t-the-exceptional | DIRECTOR A | ClaTr-Score: 20.76 Classifier-F1: 0.42 FD_ClaTr: 3.88 |
| 3d-generation-on-e-t-the-exceptional | DIRECTOR C | ClaTr-Score: 21.95 Classifier-F1: 0.48 FD_ClaTr: 3.76 |