扩散模型

扩散模型是一类生成模型,通过逐步去噪从随机噪声生成图像、音频或其他数据,常用于图像生成与编辑。

#tech / ai #type / concept #status / growing #resource / diffusion-model

[!info] related notes

扩散模型

一句话定义

扩散模型是一类生成模型,核心思路是从随机噪声出发,通过多步去噪逐渐生成目标数据。

核心机制 / 工作原理

扩散模型通常包含两个方向:

  1. 前向扩散:训练时逐步给真实数据加噪声,直到接近随机噪声。
  2. 反向去噪:模型学习如何从噪声一步步还原出有结构的数据。

在图像生成里,用户输入 prompt 后,系统会从噪声图开始,模型根据文本条件反复去噪,最终得到符合描述的图像。

最小例子 / 最小场景

用户输入“一个产品放在干净桌面上的宣传图”,图像生成系统把这段文本作为条件,通过扩散模型从噪声逐步生成图片。

这个场景里,扩散模型负责“生成画面”;如果要理解已有图片内容,更常见的是 VLM

常见使用场景

  • 文生图
  • 图生图
  • 局部重绘和背景替换
  • 风格迁移
  • 图像超分和修复
  • 音频、视频等其他模态生成

边界与易混淆点

  • 扩散模型不等于 VLM:扩散模型偏生成,VLM 偏理解。
  • 扩散模型不等于所有生成式 AI:LLM、TTS、扩散模型都是生成式,但输入输出和训练目标不同。
  • prompt 好不代表结果一定可控:构图、文字、手部、品牌一致性仍可能不稳定。
  • 生产系统里通常还需要安全过滤、版权边界、人工审核和版本管理。

最短记忆方式

扩散模型是“从噪声里一点点去噪生成内容”的模型,最典型场景是图像生成。

创建于 2026/6/23 更新于 2026/6/23