扩散模型

扩散模型是一类生成模型，通过逐步去噪从随机噪声生成图像、音频或其他数据，常用于图像生成与编辑。

#tech / ai #type / concept #status / growing #resource / diffusion-model

[!info] related notes

所属 MOC: AI 模型能力 MOC, AI MOC

前置概念: transformer

并列概念: 视觉语言模型 VLM

相关资源: Cloudflare

一句话定义

扩散模型是一类生成模型，核心思路是从随机噪声出发，通过多步去噪逐渐生成目标数据。

扩散模型通常包含两个方向：

在图像生成里，用户输入 prompt 后，系统会从噪声图开始，模型根据文本条件反复去噪，最终得到符合描述的图像。

用户输入“一个产品放在干净桌面上的宣传图”，图像生成系统把这段文本作为条件，通过扩散模型从噪声逐步生成图片。

这个场景里，扩散模型负责“生成画面”；如果要理解已有图片内容，更常见的是 VLM。

扩散模型是“从噪声里一点点去噪生成内容”的模型，最典型场景是图像生成。