论文笔记6:[扩散模型/图像生成]High-Resolution Image Synthesis with Latent Diffusion Models
初版stable diffusion,主要贡献在于两点:
(1)减少计算负载:DDPM在像素空间上进行扩散和去噪过程的做法导致计算负载太重,本文改为在图像的隐空间上进行操作:即增加一个自编码器,训练时输入的图像经过encoder编码之后再进行扩散,去噪得到的latent embedding由解码器还原成图像。
(2)改进条件生成:把DDPM UNet里的自注意力改成交叉注意力模块用于图像latent embedding和输入条件embedding之间交互。图像/mask之类的密集条件编码到隐空间相同的尺寸,文本就用CLIP编码。
论文里不太清晰的一些实现细节可以参考 Stable Diffusion 解读(三):原版实现及Diffusers实现源码解读 - 知乎 (zhihu.com) ,用了 DDIM采样(通过舍弃DDPM去噪过程的马尔可夫链假设加速采样)和classifier-free guidance(最终预测是无条件预测和条件预测的加权结果)。