当前位置：首页 > news >正文

使用合成数据进行自我提升的扩散模型

news 2025/4/26 18:03:27

文章提出了一种新的训练方法，称为使用合成数据自我改进的扩散模型（SIMS），旨在解决生成模型因使用合成数据训练而可能导致的模型自噬障碍（MAD）问题。通过在生成过程中引入负向引导，SIMS能够避免模型陷入合成数据循环导致的性能退化，提升模型生成质量，并在多个图像生成任务中取得了优异的表现。此外，SIMS还具备调节合成数据分布的能力，有助于减轻模型偏见并确保生成结果的公平性。

在这里插入图片描述

1 SIMS方法

扩散模型是一种生成模型，通过逐渐对训练数据进行噪声扩散，最终通过逆向建模的方式从噪声中恢复数据分布。具体来说，模型通过对数据实例逐步添加噪声，形成一个从真实数据到噪声数据的序列，并通过学习逆向过程生成新的数据样本。该模型在图像生成任务中表现出色，并逐渐成为生成模型的重要研究方向。

自我消耗循环及MAD

自我消耗循环（Self-consuming loop）是指生成模型在训练时使用了由先前模型生成的合成数据，这种循环可能导致模型逐渐偏离真实数据分布，最终陷入模型自噬障碍（Model Autophagy Disorder, MAD）。MAD是一种生成模型的退化现象，随着生成模型的迭代训练，使用合成数据训练的新模型会逐渐失去生成高质量、多样性数据的能力，导致模型性能下降和偏见的加剧。

SIMS方法

1)避免合成数据的累积：SIMS避免将真实数据和合成数据混合成一个训练集，因为这会导致模型分布与真实世界数据之间的偏差，进而降低模型质量并强化偏差。相反，SIMS利用合成数据在生成过程中提供负向指导，以使模型生成过程远离非理想的合成数据流形。
2)使用负向指导：通过训练一个辅助模型，该模型不仅使用来自基础模型的真实数据，还使用由基础模型生成的合成数据。然后可以结合这个辅助模型的得分函数与基础模型的得分函数，以反向推导出一个新的得分函数，这个新的得分函数更接近于真实的数据分布。
3)迭代训练：SIMS能够在不陷入模型自噬（MAD）的情况下，对自我生成的合成数据进行迭代训练。实验显示，在一定条件下，经过100代的迭代训练后，SIMS仍能保持模型性能不下降。
1. 控制分布：SIMS能够调整扩散模型生成的合成数据分布，以匹配任何期望的域内目标分布，这对于减少偏见和确保模型公平性具有重要意义，同时也能提高生成输出的质量。

在这里插入图片描述