扩散模型
扩散模型是一类生成模型,通过逐步去噪从随机噪声生成图像、音频或其他数据,常用于图像生成与编辑。
#tech / ai
#type / concept
#status / growing
#resource / diffusion-model
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 前置概念: transformer
- 并列概念: 视觉语言模型 VLM
- 相关资源: Cloudflare
扩散模型
一句话定义
扩散模型是一类生成模型,核心思路是从随机噪声出发,通过多步去噪逐渐生成目标数据。
核心机制 / 工作原理
扩散模型通常包含两个方向:
- 前向扩散:训练时逐步给真实数据加噪声,直到接近随机噪声。
- 反向去噪:模型学习如何从噪声一步步还原出有结构的数据。
在图像生成里,用户输入 prompt 后,系统会从噪声图开始,模型根据文本条件反复去噪,最终得到符合描述的图像。
最小例子 / 最小场景
用户输入“一个产品放在干净桌面上的宣传图”,图像生成系统把这段文本作为条件,通过扩散模型从噪声逐步生成图片。
这个场景里,扩散模型负责“生成画面”;如果要理解已有图片内容,更常见的是 VLM。
常见使用场景
- 文生图
- 图生图
- 局部重绘和背景替换
- 风格迁移
- 图像超分和修复
- 音频、视频等其他模态生成
边界与易混淆点
- 扩散模型不等于 VLM:扩散模型偏生成,VLM 偏理解。
- 扩散模型不等于所有生成式 AI:LLM、TTS、扩散模型都是生成式,但输入输出和训练目标不同。
- prompt 好不代表结果一定可控:构图、文字、手部、品牌一致性仍可能不稳定。
- 生产系统里通常还需要安全过滤、版权边界、人工审核和版本管理。
最短记忆方式
扩散模型是“从噪声里一点点去噪生成内容”的模型,最典型场景是图像生成。