Stable Diffusion
Stable Diffusion
基于DDPM[1],Stable Diffusion[2]在Latent Space上进行扩散,使得在扩散前可以对latent space进行操作并且加快样本生成.
1. Latent Space(潜在空间)
潜在空间是指图像通过某种编码器(如 VAE)映射到的低维空间。相比原始的像素空间,潜在空间的维度较低,计算量较小,便于模型进行高效的学习和生成。
DDPM 在图像的像素空间中进行生成,逐步添加噪声并去噪。而 Stable Diffusion 通过变分自编码器(VAE)先将图像编码到潜在空间,再在潜在空间中进行扩散(去噪)。这样做的好处是,潜在空间中的噪声表示更加紧凑和易于处理,从而使得生成过程更加高效。
2. 基于潜在空间的条件生成(Conditional Generation in Latent Space)
Stable Diffusion 引入了条件生成的概念,主要是通过文本条件生成与之相对应的图像。在这种方法中,文本描述通过 CLIP [3]模型被映射到潜在空间中,从而与图像的潜在表示进行匹配。
相比于 DDPM 中仅仅在无条件下生成图像,Stable Diffusion 能够根据外部条件(如文本)控制生成内容。这使得模型在生成时能根据用户的输入(如文本描述)生成符合需求的图像。
[1]https://arxiv.org/abs/2006.11239
[2]https://arxiv.org/abs/2112.10752
[3]https://arxiv.org/abs/2103.00020
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Lir Nut's Site!