3 个月前

摘要

扩散模型在众多生成任务中取得了显著成功。一个关键挑战在于理解其如何避免对训练数据的过拟合记忆，从而实现有效泛化。在本研究中，我们探讨了训练动态在从泛化到记忆化转变过程中的作用。通过大量实验与理论分析，我们识别出两个截然不同的时间尺度：一个早期阶段，模型开始生成高质量样本；以及一个后期阶段，超过该阶段后记忆化现象开始出现。关键发现是，临界时间点 $t_{\text{mem}}$ 随训练集规模 $N$ 线性增长，而 $t_{\text{gen}}$ 保持恒定。这一特性导致了随训练集增大而扩展的“有效泛化窗口” $t_{\text{gen}} < t < t_{\text{mem}}$ ，在此区间内模型能有效泛化，即使在训练时间继续延长后，模型会表现出强烈的记忆化行为。只有当 $t_{\text{mem}}$ 超过一个与模型相关的阈值时，模型在无限训练时间下才真正不再过拟合。这些结果揭示了训练动态中存在一种隐式的动态正则化机制，使得即使在高度过参数化的设置下，模型也能避免记忆化。我们的结论得到了在真实数据集与合成数据集上使用标准 U-Net 架构的数值实验支持，并通过在高维极限下可解析处理的随机特征模型的理论分析进一步验证。