扩散模型:AIGC领域的核心引擎,解锁图像生成新维度
一、扩散模型技术原理
扩散模型是一类生成模型,它运用了物理热力学中的扩散思想, 主要包括前向扩散和反向扩散两个过程。
1.1、生成模型
1.2、扩散过程


前向扩散之后为什么还要后向扩散?
- 目标不同:前向扩散的目标是将数据逐步噪声化,最终得到纯噪声分布。而反向扩散的目标是从噪声出发,通过逐步去噪,恢复出与原始数据分布相似的干净数据。
- 学习条件转移:前向扩散过程通过固定的高斯噪声来破坏数据结构。反向扩散过程则需要学习如何从带噪数据转移到干净数据。这个转移过程由神经网络参数化,需要通过训练来优化网络参数。
- 构建生成模型:前向扩散虽然定义了带噪数据的边缘分布,但无法直接用于生成任务。反向扩散通过训练神经网络,学习每一步的去噪过程,从而将噪声逐步转化为干净数据。训练好的反向扩散模型就是我们需要的生成模型。
- 实现可控生成:前向扩散过程是随机的,无法控制生成内容。但反向扩散可以通过调节每一步的去噪过程,引入条件信息,实现语义级的可控生成。这大大拓展了扩散模型的应用范围。
- 提供训练目标:前向扩散和反向扩散的联合分布提供了一个变分下界,可以作为扩散模型的训练目标。优化该目标函数,就能同时完成前向噪声估计和反向去噪学习。
二、扩散模型发展历史
2.1、基础扩散模型的提出与改进

2.2、基于显式分类器引导的扩散模型
2.3、基于CLIP的多模态图像生成

2.4、大模型的“再学习”方法:DreamBooth、LoRA和ControlNet


三、扩散模型的应用
3.1、计算机视觉




图1-17给出了一个使用Palette修复图像的示例。

3.2、时序数据预测
时序数据预测旨在根据历史观测数据预测未来可能出现的数据, 如空气温度预测、股票价格预测、销售与产能预测等。时序数据预测 同样可以视为生成任务,即基于历史数据的基本条件来生成未来数 据,因此扩散模型也能发挥作用。

3.3、 自然语言
实际上,扩散模型同样可以完成语言类的生成任务。只要将自然 语言类的句子分词并转换为词向量之后,就可以通过扩散的方法来学 习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务, 如语言翻译、问答对话、搜索补全、情感分析、文章续写等。
3.4、 基于文本的多模态
多模态信息指的是多种数据类型的信息,包括文本、图像、音/视 频、3D物体等。多模态信息的交互是人工智能领域的研究热点之一,对于AI理解人类世界、帮助人类处理多种事务具有重要意义。在诸如 DALL-E 2和Stable Diffusion等图像生成扩散模型以及ChatGPT等语 言模型出现之后,多模态开始逐渐演变为基于文本和其他模态的交 互,如文本生成图像、文本生成视频、文本生成3D等。
3.5、 AI基础科学
AI基础科学又称AI for Science,它是人工智能领域具有广阔前 景的分支之一,甚至能够发展为造福全人类的技术。与AI基础科学相 关 的 研 究 成 果 也 不 止 一 次 荣 登 《 自 然 》 杂 志 。 例 如 , 2021 年 DeepMind研究的AlphaFold 2可以预测人类世界98.5%的蛋白质, 2022年DeepMind用强化学习控制核聚变反应堆内过热的等离子体 等。 扩散模型对生成类的任务一直表现十分专业,AI基础科学中生成 预测类的研究当然也少不了扩散模型的参与。SMCDiff创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质,如图1-24所示。CDVAE则提出了一种扩散晶体变分自编码器模型,旨在生成和优化具有固定周期性原子结构的材料。
