HyperAIHyperAI

Command Palette

Search for a command to run...

扩散模型为何不会记忆:训练中隐式动力学正则化的作用

Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

Abstract

扩散模型在众多生成任务中取得了显著成功。一个关键挑战在于理解其如何避免对训练数据的过拟合记忆,从而实现有效泛化。在本研究中,我们探讨了训练动态在从泛化到记忆化转变过程中的作用。通过大量实验与理论分析,我们识别出两个截然不同的时间尺度:一个早期阶段,模型开始生成高质量样本;以及一个后期阶段,超过该阶段后记忆化现象开始出现。关键发现是,临界时间点 tmemt_{\text{mem}}tmem 随训练集规模 NNN 线性增长,而 tgent_{\text{gen}}tgen 保持恒定。这一特性导致了随训练集增大而扩展的“有效泛化窗口” tgen<t<tmemt_{\text{gen}} < t < t_{\text{mem}}tgen<t<tmem,在此区间内模型能有效泛化,即使在训练时间继续延长后,模型会表现出强烈的记忆化行为。只有当 tmemt_{\text{mem}}tmem 超过一个与模型相关的阈值时,模型在无限训练时间下才真正不再过拟合。这些结果揭示了训练动态中存在一种隐式的动态正则化机制,使得即使在高度过参数化的设置下,模型也能避免记忆化。我们的结论得到了在真实数据集与合成数据集上使用标准 U-Net 架构的数值实验支持,并通过在高维极限下可解析处理的随机特征模型的理论分析进一步验证。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
扩散模型为何不会记忆:训练中隐式动力学正则化的作用 | Papers | HyperAI超神经