5003.大模型-架构-Diffusion-2.得分匹配与随机微分方程

得分匹配（Score Matching）与随机微分方程（Stochastic Differential Equation，SDE）为扩散生成提供了与 DDPM 并行的连续时间视角：不再固定 (T=1000) 的离散步，而把加噪建模为伊藤 SDE（Itô SDE），把生成建模为逆向 SDE 或等价的概率流常微分方程（Probability Flow ODE）。Song et al.（2021）证明 VE / VP-SDE 统一了 SMLD（NCSN） 与 DDPM；理解这一框架有助于选择求解器步长、设计连续时间噪声日程，以及阅读现代结构/分子扩散代码中的 sigma 调度。

段末注释：得分 (\nabla_x \log p(x)) 指向数据密度增大的方向；SDE 用随机过程描述连续时间状态演化；ODE 为确定性常微分方程。

前置阅读：5003.大模型-架构-Diffusion-1.前向扩散与变分下界、Diffusion-Math-0 概率与扩散数学基础

1. 得分函数与生成

对未知数据密度 (p(x))，得分定义为：

[
s(x) = \nabla_x \log p(x).
]

$概念图　得分函数：密度等高线上的 $\nabla_x \log p(x)$「上坡」方向$

朗之万动力学（Langevin dynamics） 可用得分做 MCMC 采样：

[
x_{k+1} = x_k + \frac{\eta}{2},s(x_k) + \sqrt{\eta},\xi_k,
\quad \xi_k \sim \mathcal{N}(0, \mathbf{I}).
]

当 (\eta \to 0) 且步数 (\to \infty)，(x_k) 的分布收敛到 (p(x))——但高维、多模态分布上混合极慢。NCSN（Noise Conditional Score Network） 的核心想法：对多噪声级别 (\sigma) 分别学习 (s_\theta(x, \sigma) \approx \nabla_x \log p_\sigma(x))，从大到小退火朗之万，逐步从噪声回到数据流形。

2. 去噪得分匹配（Denoising Score Matching，DSM）

直接对 (\log p(x)) 做分数匹配需计算 (\nabla_x s(x))（Hessian 迹），维数灾难。DSM（Vincent, 2011）等价目标：加噪后预测得分。

设 (x = x_0 + \sigma \epsilon)，(x_0 \sim p(x_0))，(\epsilon \sim \mathcal{N}(0,\mathbf{I}))。则：

概念锚点 · 重参数化与加噪：DSM 的 (x = x_0 + \sigma\epsilon) 与 DDPM 的 (x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon) 同型；(\sigma \leftrightarrow \sqrt{1-\bar\alpha_t})（Math-0 §8–§10）。

$概念图　重参数化加噪 $x = x_0 + \sigma\epsilon$$

[
\nabla_x \log p_\sigma(x) = \mathbb{E}_{x_0\mid x}\Big[-\frac{x - x_0}{\sigma^2}\Big] = -\frac{\mathbb{E}[\epsilon]}{\sigma}.
]

训练目标：

[
\mathcal{L}{\mathrm{DSM}} = \mathbb{E}{x_0,,\epsilon,,\sigma}\Big[\big|s_\theta(x,\sigma) + \frac{\epsilon}{\sigma}\big|^2\Big].
]

与 DDPM 的 (\epsilon)-prediction 关系：(s_\theta \approx -\epsilon/\sigma)，且 (\sigma) 与 (\sqrt{1-\bar\alpha_t}) 角色对应。

段末注释：DSM 通过加噪分布避免直接对 (p(x)) 求迹；NCSN 为 Song & Ermon 的噪声条件得分网络系列。

3. 前向 SDE：统一离散扩散

Song et al. 将前向过程写为：

[
\mathrm{d}x = f(x,t),\mathrm{d}t + g(t),\mathrm{d}w,
]

(w) 为标准维纳过程。两类典型 SDE：

3.1 方差爆炸 SDE（VE-SDE，对应 NCSN/SMLD）

[
\mathrm{d}x = \sqrt{\frac{\mathrm{d},\sigma^2(t)}{\mathrm{d}t}},\mathrm{d}w.
]

噪声水平 (\sigma(t)) 从 (\sigma_{\min}) 单调增至 (\sigma_{\max})。边缘分布 (p_t(x)) 方差不断增大，似「爆炸」。

3.2 方差保持 SDE（VP-SDE，对应 DDPM 连续极限）

[
\mathrm{d}x = -\frac{1}{2}\beta(t),x,\mathrm{d}t + \sqrt{\beta(t)},\mathrm{d}w.
]

与离散 DDPM 中 (\sqrt{1-\beta_t},x_{t-1}) 对应；(t\to\infty) 时 (x) 趋于 (\mathcal{N}(0,\mathbf{I}))。

离散 ↔ 连续：DDPM 的 (\beta_t) 是 VP-SDE 在 (t\in[0,1]) 上 Euler–Maruyama 离散化；(T) 越大，离散链越逼近连续 SDE。

$概念图　噪声日程：离散 $\beta_t$ 与连续时间 $t$ 的对应$

4. 逆向 SDE：生成方程

Anderson（1982）给出：若前向满足上述 SDE，则逆向过程（时间倒流）满足：

[
\mathrm{d}x = \Big[f(x,t) - g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t + g(t),\mathrm{d}\bar w,
]

(\bar w) 为逆向维纳过程。代入学到的 (s_\theta(x,t) \approx \nabla_x \log p_t(x)) 即可数值模拟从 (p_T)（噪声）采样到 (p_0)（数据）。

图 1　前向 SDE 与逆向 SDE：数据→噪声与 score 引导的噪声→数据

与 DDPM 采样对应：离散公式中的 (\epsilon_\theta) 即离散化逆向 SDE 的漂移项。

5. 概率流 ODE（确定性采样）

同一前向 SDE 存在等价的概率流 ODE，边缘分布 (p_t(x)) 与 SDE 相同：

[
\mathrm{d}x = \Big[f(x,t) - \frac{1}{2}g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t.
]

无随机项 → 给定 (x_T) 则 (x_0) 唯一确定。优点：

可用 RK45 等 ODE 求解器，步数可调；
支持精确似然估计（Change of variables）；
为 DDIM 提供理论解释（系列第 3 篇）。

实践中：(s_\theta) 用同一网络，SDE 采样随机性更强、多样性更好；ODE 采样更 sharp、步数可更少。

6. 训练：连续时间得分匹配

离散 DDPM 训练可视为对 VP-SDE 的随机时间 (t \sim \mathcal{U}(0,1)) 采样：

[
\mathcal{L} = \mathbb{E}{t,,x_0,,\epsilon}\Big[\lambda(t),\big|s\theta(x_t,t) - \nabla_{x_t}\log q(x_t\mid x_0)\big|^2\Big],
]

(\lambda(t)) 为时间权重（不同参数化对应 noise prediction / v-prediction）。VE-SDE 常在 (\sigma) 对数尺度上均匀采样 (\log\sigma)。

框架	噪声参数	网络输出	生物结构任务常见度
DDPM / VP	(\bar\alpha_t) 或 (t)	(\epsilon_\theta)	高（RFdiffusion 等）
VE / NCSN	(\sigma)	(s_\theta(x,\sigma))	中（部分分子 3D）
EDM	(\sigma) + 预处理	(D_\theta) 去噪器	高（图像/分子统一预处理）

EDM（Karras et al., 2022）在 (\sigma) 空间重新参数化数据预处理 (x = c_{\mathrm{in}}(\sigma),D_\theta(c_{\mathrm{noise}}(\sigma),x;\sigma) + c_{\mathrm{skip}}(\sigma),x)，改善不同 (\sigma) 上的损失尺度——结构生成社区常借鉴其 sigma 日程 与 Heun 求解器。

7. 数值求解与步长选择

从 (t=T) 到 (0) 离散化逆向 SDE/ODE：

Euler–Maruyama：DDPM 默认采样的一步法；
Heun / RK：二阶，相同函数评估次数下误差更小；
自适应步长：ODE 求解器根据局部误差调节 (\Delta t)。

生物信息学实践：蛋白质骨架扩散常用 50–200 步（配合 DDIM 或 Heun），而非 1000 步；步数与 RMSD/designability 的 trade-off 需实验标定。

8. 与 DDPM 公式对照表

设 VP-SDE 离散化，(t) 对应 DDPM 步索引：

量	DDPM	得分 / SDE
加噪	(x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon)	(x_t \sim p_t) 由 SDE 边缘分布
网络目标	(\epsilon_\theta(x_t,t) \approx \epsilon)	(s_\theta(x_t,t) \approx -\epsilon/\sqrt{1-\bar\alpha_t})
逆向漂移	见第 1 篇 (\mu_\theta)	(f - g^2 s_\theta)
确定性采样	DDIM（第 3 篇）	概率流 ODE

9. 小结

得分匹配说明扩散训练本质是学多噪声水平下的对数密度梯度；SDE/ODE 框架把 NCSN 与 DDPM 统一为同一随机过程的不同离散化与参数化。连续视角带来：（1）更灵活的噪声日程与求解器；（2）ODE 确定性采样与似然；（3）与 EDM 等工程最佳实践对齐。阅读结构扩散代码时，看到 sigma、score、vp/ve 等命名，可对照本章映射到具体离散公式。

段末注释：Euler–Maruyama 为一阶 SDE 数值积分；Heun 为二阶 Runge–Kutta 型预测–校正积分。

本篇数学概念索引

概念	出现章节	延伸阅读
得分函数 / 朗之万动力学	§1	Math-0 §11
重参数化 / DSM 加噪	§2	Math-0 §8
噪声日程（连续–离散对应）	§3	Math-0 §9

参考与延伸阅读

Song & Ermon, Generative Modeling by Estimating Gradients of the Data Distribution（NCSN）.
Song et al., Score-Based Generative Modeling through Stochastic Differential Equations（SDE/ODE 统一）.
Vincent, A Connection Between Score Matching and Denoising Autoencoders（DSM）.
Karras et al., Elucidating the Design Space of Diffusion-Based Generative Models（EDM）.
Anderson, Reverse-Time Diffusion Equation Models（逆向 SDE 理论）.