使用合成数据进行自我提升的扩散模型
文章提出了一种新的训练方法,称为使用合成数据自我改进的扩散模型(SIMS),旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍(MAD)问题。通过在生成过程中引入负向引导,SIMS能够避免模型陷入合成数据循环导致的性能退化,提升模型生成质量,并在多个图像生成任务中取得了优异的表现。此外,SIMS还具备调节合成数据分布的能力,有助于减轻模型偏见并确保生成结果的公平性。
1 SIMS方法
扩散模型是一种生成模型,通过逐渐对训练数据进行噪声扩散,最终通过逆向建模的方式从噪声中恢复数据分布。具体来说,模型通过对数据实例逐步添加噪声,形成一个从真实数据到噪声数据的序列,并通过学习逆向过程生成新的数据样本。该模型在图像生成任务中表现出色,并逐渐成为生成模型的重要研究方向。
自我消耗循环及MAD
自我消耗循环(Self-consuming loop)是指生成模型在训练时使用了由先前模型生成的合成数据,这种循环可能导致模型逐渐偏离真实数据分布,最终陷入模型自噬障碍(Model Autophagy Disorder, MAD)。MAD是一种生成模型的退化现象,随着生成模型的迭代训练,使用合成数据训练的新模型会逐渐失去生成高质量、多样性数据的能力,导致模型性能下降和偏见的加剧。
SIMS方法
-
1)避免合成数据的累积:SIMS避免将真实数据和合成数据混合成一个训练集,因为这会导致模型分布与真实世界数据之间的偏差,进而降低模型质量并强化偏差。相反,SIMS利用合成数据在生成过程中提供负向指导,以使模型生成过程远离非理想的合成数据流形。
-
2)使用负向指导:通过训练一个辅助模型,该模型不仅使用来自基础模型的真实数据,还使用由基础模型生成的合成数据。然后可以结合这个辅助模型的得分函数与基础模型的得分函数,以反向推导出一个新的得分函数,这个新的得分函数更接近于真实的数据分布。
-
3)迭代训练:SIMS能够在不陷入模型自噬(MAD)的情况下,对自我生成的合成数据进行迭代训练。实验显示,在一定条件下,经过100代的迭代训练后,SIMS仍能保持模型性能不下降。
-
- 控制分布:SIMS能够调整扩散模型生成的合成数据分布,以匹配任何期望的域内目标分布,这对于减少偏见和确保模型公平性具有重要意义,同时也能提高生成输出的质量。
2 结语
文章提出了一种利用合成数据自我改进的扩散模型(SIMS),通过负向引导避免模型自噬障碍,提升生成模型的性能和公平性。
论文题目: Self-Improving Diffusion Models with Synthetic Data
论文链接: https://arxiv.org/abs/2408.16333
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!