阅读 Diffusion 系列第 1–2 篇 的公式推导时,若对「条件高斯」「KL 散度」「(\bar\alpha_t) 噪声日程」等符号感到陌生,本文提供自洽的数学补充:从集合与样本空间出发,经分布、条件概率到扩散专有的噪声日程与得分函数,并在每一核心概念处给出科普动漫风示意图(非严格证明,重在建立直觉)。
段末注释:PDF 为概率密度函数(Probability Density Function);i.i.d. 为独立同分布(independent and identically distributed)。
前置阅读:Diffusion-0 概述
后续阅读:Diffusion-Example-0 前向训练数值例题 → Diffusion-1 前向扩散与 ELBO → Diffusion-2 得分与 SDE
插图约定:配图位于 5003.大模型-架构-Diffusion-Math/,风格与 Diffusion 主系列一致——白底、蓝–青–紫柔和配色、手写体中文标注的科研动漫示意。同一批概念图已嵌入 Diffusion-0~5 正文(标注为「概念锚点」),本篇提供完整定义与推导语境。
1. 集合与样本空间:概率论的语言
1.1 基本概念
样本空间(sample space) (\Omega) 是所有可能结果构成的集合。例如:
- 掷一枚硬币:(\Omega = {\mathrm{正},\mathrm{反}})
- 蛋白质某个 (C_\alpha) 原子的 (x) 坐标(连续):(\Omega = \mathbb{R})
- 整条骨架坐标 (x \in \mathbb{R}^{3N}):(\Omega = \mathbb{R}^{3N})
事件(event) 是 (\Omega) 的子集。(A \subseteq \Omega) 表示「结果落在 (A) 中」。
| 集合运算 | 符号 | 概率含义 |
|---|---|---|
| 并 | (A \cup B) | 「(A) 或 (B) 发生」 |
| 交 | (A \cap B) | 「(A) 与 (B) 同时发生」 |
| 补 | (A^c) | 「(A) 不发生」 |
| 空集 | (\varnothing) | 不可能事件 |
概率测度 (P) 给每个事件赋予 ([0,1]) 的数值,满足 (P(\Omega)=1)、(P(\varnothing)=0)、可列可加性。

段末注释:测度可理解为「面积/体积/generalized 计数」的公理化推广;连续变量下 (P(X=x)=0),需用密度积分。
2. 随机变量:从结果到数据向量
随机变量(random variable) 是可测函数 (X:\Omega \to \mathcal{X}),把随机结果映射到数值(或向量)。扩散模型中的 (x_0, x_t, \epsilon) 均为随机变量:
- (x_0 \in \mathbb{R}^d):干净数据(蛋白坐标、像素、表达谱)
- (x_t \in \mathbb{R}^d):第 (t) 步加噪后的数据
- (\epsilon \sim \mathcal{N}(0,\mathbf{I})):标准高斯噪声
训练集 ({x_0^{(i)}}_{i=1}^N) 视为从数据分布 (q(x_0)) 独立同分布抽样的观测。

3. 概率分布:描述「取值有多常见」
3.1 离散 vs 连续
- 离散:概率质量函数 (P(X=k)),如 D3PM 中 token 取 (A/C/G/T)
- 连续:概率密度函数 (p(x)),满足 (P(a \leq X \leq b) = \int_a^b p(x),\mathrm{d}x),且 (\int p(x),\mathrm{d}x = 1)
3.2 高斯(正态)分布——扩散的核心
一维高斯 (\mathcal{N}(x;\mu,\sigma^2)):
[
p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp!\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big).
]
多元各向同性高斯(DDPM 默认噪声):
[
\mathcal{N}(x;\mu,\sigma^2 \mathbf{I}) = \prod_{j=1}^{d} \mathcal{N}(x_j;\mu_j,\sigma^2),
]
即各维独立、同方差 (\sigma^2)。标准高斯 (\mathcal{N}(0,\mathbf{I})) 时 (\mu=0,,\sigma=1)。

扩散中的出现位置:
[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big),
\quad
p(x_T) = \mathcal{N}(0, \mathbf{I}).
]
段末注释:各向同性指各坐标方向方差相同;蛋白坐标若各维量纲不同,有时需对角协方差 (\mathrm{diag}(\sigma_1^2,\ldots,\sigma_d^2))。
4. 条件分布与贝叶斯:「已知一部分,其余怎么变」
条件概率密度 (p(x \mid y)) 表示「在 (Y=y) 已知时,(X) 的分布」。扩散前向过程全是条件高斯:
[
q(x_t \mid x_{t-1}), \quad q(x_t \mid x_0).
]
贝叶斯公式(连续形式):
[
p(x_0 \mid x_t) = \frac{p(x_t \mid x_0),p(x_0)}{p(x_t)}.
]
真实逆向 (q(x_{t-1}\mid x_t)) 难算,因 (p(x_t)) 需对整个数据分布积分;DDPM 用神经网络 (p_\theta(x_{t-1}\mid x_t)) 近似。推导 ELBO 时更常用后验 (q(x_{t-1}\mid x_t, x_0))——多了 (x_0) 条件后可闭式(高斯)。

5. 期望、方差与协方差
期望(expectation)——随机变量的「加权平均」:
[
\mathbb{E}[X] = \int x, p(x),\mathrm{d}x \quad \text{(连续)}.
]
方差(variance)——偏离均值的典型尺度:
[
\mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big].
]
对 (\epsilon \sim \mathcal{N}(0,\mathbf{I})):(\mathbb{E}[\epsilon]=0),(\mathrm{Var}(\epsilon)=1)(各维)。
协方差矩阵 (\Sigma) 描述各维相关性;(\Sigma = \sigma^2 \mathbf{I}) 时各维独立同方差。
训练目标 (\mathbb{E}{t,x_0,\epsilon}[|\epsilon - \epsilon\theta|^2]) 即对随机 (t, x_0, \epsilon) 求期望(实践中用 minibatch 蒙特卡洛估计)。
![图 5 期望 \(\mathbb{E}[X]\) 与方差 \(\mathrm{Var}(X)\):分布的「中心」与「 spread 」](/02.%E5%BC%80%E5%8F%91-22.LLM-%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84/5003.%E5%A4%A7%E6%A8%A1%E5%9E%8B-%E6%9E%B6%E6%9E%84-Diffusion-Math-0.%E6%A6%82%E7%8E%87%E4%B8%8E%E6%89%A9%E6%95%A3%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/math-fig05-expectation-variance.png)
6. KL 散度:衡量两个分布差多远
Kullback–Leibler 散度(非对称「距离」):
[
\mathrm{KL}(P ,|, Q) = \int p(x) \log \frac{p(x)}{q(x)} ,\mathrm{d}x = \mathbb{E}_{x\sim P}\Big[\log \frac{p(x)}{q(x)}\Big].
]
性质:(\mathrm{KL}(P|Q) \geq 0),等号当且仅当 (P=Q)(几乎处处)。
扩散 ELBO 中每项 (L_{t-1}) 形如:
[
\mathrm{KL}\big(q(x_{t-1}\mid x_t,x_0),|,p_\theta(x_{t-1}\mid x_t)\big).
]
即:真实后验 vs 模型预测的高斯–高斯 KL;固定方差时化为均值差的 MSE,最终得到 (|\epsilon - \epsilon_\theta|^2)。

段末注释:变分推断通过最小化 (\mathrm{KL}(q_\phi(z|x)|p_\theta(z|x))) 或最大化 ELBO 学习近似后验。
7. 马尔可夫链:扩散的「无记忆」结构
马尔可夫性质:
[
q(x_t \mid x_{t-1}, x_{t-2}, \ldots, x_0) = q(x_t \mid x_{t-1}).
]
第 (t) 步只依赖上一时刻 (x_{t-1}),不直接依赖更早历史——这使联合分布可分解:
[
q(x_{1:T}\mid x_0) = \prod_{t=1}^{T} q(x_t \mid x_{t-1}).
]
前向扩散是固定参数的马尔可夫链;逆向生成 (p_\theta(x_{t-1}\mid x_t)) 是学出来的马尔可夫链。因 (T) 很大(如 1000),整条轨迹 ((x_0,\ldots,x_T)) 可视作高维 Markov 路径。

8. 重参数化技巧:可微的随机采样
要从 (\mathcal{N}(\mu, \sigma^2)) 采样且对 (\mu,\sigma) 可反传梯度,写:
[
x = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1) \text{ 或 } \mathcal{N}(0, \mathbf{I}).
]
随机性全部在固定分布的 (\epsilon) 上,(\mu,\sigma) 走确定性路径——VAE 与 DDPM 训练均依赖此技巧。
DDPM 一步加噪正是重参数化:
[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{确定性缩放}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{随机部分}}, \quad \epsilon \sim \mathcal{N}(0,\mathbf{I}).
]
给定 (x_0) 与 (\epsilon) 可精确复现 (x_t),便于训练时随机采样 (t) 并构造监督目标。

9. 噪声日程:(\beta_t)、(\alpha_t)、(\bar\alpha_t)
扩散前向每步注入噪声强度由**噪声日程(noise schedule)**控制。
| 符号 | 定义 | 含义 |
|---|---|---|
| (\beta_t) | 超参,(0 < \beta_t \ll 1) | 第 (t) 步新增噪声方差 |
| (\alpha_t) | (1 - \beta_t) | 第 (t) 步信号保留比例 |
| (\bar\alpha_t) | (\prod_{s=1}^{t}\alpha_s) | 从 (x_0) 到 (x_t) 累积信号系数 |
单步前向:
[
q(x_t \mid x_{t-1}) = \mathcal{N}\big(\sqrt{1-\beta_t},x_{t-1},,\beta_t \mathbf{I}\big).
]
累积闭式(跳过中间步):
[
q(x_t \mid x_0) = \mathcal{N}\big(\sqrt{\bar\alpha_t},x_0,,(1-\bar\alpha_t)\mathbf{I}\big).
]
常见日程:
- 线性:(\beta_t) 从 (\beta_1) 线性增至 (\beta_T)(DDPM 默认)
- 余弦(cosine):(\bar\alpha_t = \cos^2!\big(\frac{t/T+s}{1+s}\cdot\frac{\pi}{2}\big))(Nichol & Dhariwal;中间步信噪比更平滑)
(t) 小 → (\bar\alpha_t \approx 1) → (x_t \approx x_0)(几乎无噪);(t) 大 → (\bar\alpha_t \approx 0) → (x_t \approx \epsilon)(纯噪)。

10. 信噪比(SNR):分解 (x_t) 的信号与噪声
将加噪公式重写为信号 + 噪声:
[
x_t = \underbrace{\sqrt{\bar\alpha_t},x_0}{\text{信号分量}} + \underbrace{\sqrt{1-\bar\alpha_t},\epsilon}{\text{噪声分量}}.
]
信噪比(Signal-to-Noise Ratio,SNR) 常定义为:
[
\mathrm{SNR}(t) = \frac{\bar\alpha_t}{1-\bar\alpha_t}.
]
- (t=0):(\bar\alpha_0=1),(\mathrm{SNR}\to\infty)(无噪)
- (t=T):(\bar\alpha_T\approx 0),(\mathrm{SNR}\approx 0)(噪声主导)
训练直觉:不同 (t) 对应不同 SNR;网络 (\epsilon_\theta(x_t,t)) 需在所有噪声级别上学会去噪。v-prediction 等参数化可理解为在 SNR 极端区间平衡梯度。

段末注释:EDM 等框架直接在 (\sigma = \sqrt{1-\bar\alpha_t}) 空间调度,与 DDPM 的 (\beta_t) 表等价换元。
11. 得分函数:对数密度的梯度
对概率密度 (p(x)),得分(score):
[
s(x) = \nabla_x \log p(x) = \frac{\nabla_x p(x)}{p(x)}.
]
几何直觉:在 (x) 处沿 (s(x)) 方向走,到达更高密度区域(「上坡」)。
对条件高斯 (q(x_t\mid x_0)):
[
\nabla_{x_t} \log q(x_t \mid x_0) = -\frac{\epsilon}{\sqrt{1-\bar\alpha_t}},
\quad x_t = \sqrt{\bar\alpha_t},x_0 + \sqrt{1-\bar\alpha_t},\epsilon.
]
故 (\epsilon)-prediction 等价于学习缩放得分;朗之万动力学用得分做 MCMC:
[
x_{k+1} = x_k + \eta, s(x_k) + \sqrt{2\eta},\xi_k.
]
连续时间下得分进入逆向 SDE 漂移项(见 Diffusion-2)。

12. ELBO:变分下界把生成变成可优化目标
直接最大化 (\log p_\theta(x_0)) 困难(需积分掉 (x_{1:T}))。引入变分分布 (q(x_{1:T}\mid x_0))(前向过程),得证据下界:
[
\log p_\theta(x_0) \geq \underbrace{\mathbb{E}{q}\Big[\log \frac{p\theta(x_{0:T})}{q(x_{1:T}\mid x_0)}\Big]}{\mathcal{L}{\mathrm{VLB}} = \mathrm{ELBO}}.
]
DDPM 展开 ELBO 为:
[
\mathcal{L}{\mathrm{VLB}} = L_T + \sum{t=2}^{T} L_{t-1} - L_0,
]
- (L_T = \mathrm{KL}(q(x_T\mid x_0)|p(x_T))):终态接近标准高斯
- (L_{t-1}):每步去噪 KL → MSE on (\epsilon)
- (L_0):最终重建项
(\mathcal{L}_{\mathrm{simple}}) 进一步去掉部分时间权重,只保留 (\mathbb{E}[|\epsilon-\epsilon_\theta|^2]),实践更稳定。

13. 概念在系列文章中的嵌入位置
下文 12 个概念在本篇有完整讲解;同一配图与「概念锚点」摘要已同步写入系列正文,便于连贯阅读而无需来回跳转。
| 概念 | 配图 | Math-0 | 系列正文嵌入位置 |
|---|---|---|---|
| 样本空间/事件 | fig01 | §1 | Diffusion-4 §2(离散 (\mathcal{V})) |
| 随机变量 | fig02 | §2 | Diffusion-0 §3;Diffusion-1 §1;Diffusion-5 §3.1 |
| 高斯分布 | fig03 | §3 | Diffusion-0 §3;Diffusion-5 §2 |
| 条件分布 | fig04 | §4 | Diffusion-1 §4.1;Diffusion-3 §2.2(inpainting) |
| 期望/方差 | fig05 | §5 | Diffusion-0 §3((\mathbb{E}) 损失) |
| KL 散度 | fig06 | §6 | Diffusion-1 §4;Diffusion-4 §3 |
| 马尔可夫链 | fig07 | §7 | Diffusion-0 §1;Diffusion-1 §2;Diffusion-4 §2 |
| 重参数化 | fig08 | §8 | Diffusion-1 §2;Diffusion-2 §2(DSM) |
| 噪声日程 | fig09 | §9 | Diffusion-0 §3;Diffusion-1 §2.1;Diffusion-2 §3 |
| 信噪比 SNR | fig10 | §10 | Diffusion-0 §3;Diffusion-1 §2.1 |
| 得分函数 | fig11 | §11 | Diffusion-1 §7;Diffusion-2 §1;Diffusion-3 §3 |
| ELBO | fig12 | §12 | Diffusion-1 §4 |
推荐阅读:概率薄弱 → 0 → Math-0 → 1(概念在 0/1 中二次强化);已读 0/1 → 将 Math-0 作公式手册查阅即可。
13.1 概念–公式速查
| 概念 | 核心公式/对象 | 在 Diffusion 中的角色 |
|---|---|---|
| 样本空间/事件 | (\Omega, A\subseteq\Omega) | 定义随机结果空间 |
| 随机变量 | (x_0, x_t, \epsilon) | 数据与噪声 |
| 高斯分布 | (\mathcal{N}(\mu,\sigma^2\mathbf{I})) | 前向/逆向转移 |
| 条件分布 | (q(x_t\mid x_0)) | 一步加噪闭式 |
| 期望 | (\mathbb{E}[\cdot]) | 训练损失平均 |
| KL 散度 | (\mathrm{KL}(P|Q)) | ELBO 各项 |
| 马尔可夫链 | (q(x_t\mid x_{t-1})) | 前向/逆向分解 |
| 重参数化 | (x=\mu+\sigma\epsilon) | 训练采样 |
| 噪声日程 | (\beta_t,\bar\alpha_t) | 控制加噪速度 |
| 信噪比 | (\bar\alpha_t/(1-\bar\alpha_t)) | 理解不同 (t) 难度 |
| 得分函数 | (\nabla_x\log p(x)) | SDE/DSM |
| ELBO | (\mathcal{L}_{\mathrm{VLB}}) | 训练目标来源 |
14. 生物信息学读者的数值直觉
蛋白质坐标:若 (x_0) 已中心化且各维标准差 (\approx 1)(无量纲化),则 (\beta_t) 与 DDPM 默认表直接可用;若坐标以 Å 计、方差 (\sim 10^2),需先归一化或重新标定 (\beta_t)。
批量训练:(\mathbb{E}{t,x_0,\epsilon}) 用「随机 (t\in{1,\ldots,T}) + minibatch」估计;(t) 均匀采样意味着各 SNR 级别同等权重(改进版会对 (L{t-1}) 加权)。
离散序列(D3PM):分布换成分类分布 (\mathrm{Cat}),转移矩阵 (Q_t) 替代 (\beta_t);集合 (\mathcal{V}) 为碱基/氨基酸字母表——连续高斯直觉仍适用于理解「腐蚀强度随 (t) 递增」。
15. 小结
扩散模型的数学骨架可概括为:马尔可夫链上的高斯条件转移 + 噪声日程控制信噪比 + 重参数化实现可训练采样 + ELBO/KL 将生成转化为 (\epsilon)-prediction MSE + 得分函数连接离散 DDPM 与连续 SDE。掌握本文 12 个概念及示意图,再读系列第 1–2 篇推导时,符号应能一一落地。
段末注释:蒙特卡洛估计指用随机样本均值近似期望,深度学习训练普遍采用。
参考与延伸阅读
- Bishop, Pattern Recognition and Machine Learning(概率机器学习基础).
- Ho et al., DDPM(噪声日程与 ELBO).
- Vincent, Denoising Score Matching(得分匹配).
- Song et al., Score-Based SDE(连续时间).
- 本系列:Diffusion-0 ~ Diffusion-5.