5003.大模型-架构-Diffusion-2.得分匹配与随机微分方程

得分匹配(Score Matching)随机微分方程(Stochastic Differential Equation,SDE)为扩散生成提供了与 DDPM 并行的连续时间视角:不再固定 (T=1000) 的离散步,而把加噪建模为伊藤 SDE(Itô SDE),把生成建模为逆向 SDE 或等价的概率流常微分方程(Probability Flow ODE)。Song et al.(2021)证明 VE / VP-SDE 统一了 SMLD(NCSN)DDPM;理解这一框架有助于选择求解器步长、设计连续时间噪声日程,以及阅读现代结构/分子扩散代码中的 sigma 调度。

段末注释:得分 (\nabla_x \log p(x)) 指向数据密度增大的方向;SDE 用随机过程描述连续时间状态演化;ODE 为确定性常微分方程。

前置阅读5003.大模型-架构-Diffusion-1.前向扩散与变分下界Diffusion-Math-0 概率与扩散数学基础


1. 得分函数与生成

对未知数据密度 (p(x)),得分定义为:

[
s(x) = \nabla_x \log p(x).
]

概念图 得分函数:密度等高线上的 \(\nabla_x \log p(x)\)「上坡」方向

朗之万动力学(Langevin dynamics) 可用得分做 MCMC 采样:

[
x_{k+1} = x_k + \frac{\eta}{2},s(x_k) + \sqrt{\eta},\xi_k,
\quad \xi_k \sim \mathcal{N}(0, \mathbf{I}).
]

当 (\eta \to 0) 且步数 (\to \infty),(x_k) 的分布收敛到 (p(x))——但高维、多模态分布上混合极慢NCSN(Noise Conditional Score Network) 的核心想法:对多噪声级别 (\sigma) 分别学习 (s_\theta(x, \sigma) \approx \nabla_x \log p_\sigma(x)),从大到小退火朗之万,逐步从噪声回到数据流形。


2. 去噪得分匹配(Denoising Score Matching,DSM)

直接对 (\log p(x)) 做分数匹配需计算 (\nabla_x s(x))(Hessian 迹),维数灾难。DSM(Vincent, 2011)等价目标:加噪后预测得分。

设 (x = x_0 + \sigma \epsilon),(x_0 \sim p(x_0)),(\epsilon \sim \mathcal{N}(0,\mathbf{I}))。则:

概念锚点 · 重参数化与加噪:DSM 的 (x = x_0 + \sigma\epsilon) 与 DDPM 的 (x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon) 同型;(\sigma \leftrightarrow \sqrt{1-\bar\alpha_t})(Math-0 §8–§10)。

概念图 重参数化加噪 \(x = x_0 + \sigma\epsilon\)

[
\nabla_x \log p_\sigma(x) = \mathbb{E}_{x_0\mid x}\Big[-\frac{x - x_0}{\sigma^2}\Big] = -\frac{\mathbb{E}[\epsilon]}{\sigma}.
]

训练目标:

[
\mathcal{L}{\mathrm{DSM}} = \mathbb{E}{x_0,,\epsilon,,\sigma}\Big[\big|s_\theta(x,\sigma) + \frac{\epsilon}{\sigma}\big|^2\Big].
]

DDPM 的 (\epsilon)-prediction 关系:(s_\theta \approx -\epsilon/\sigma),且 (\sigma) 与 (\sqrt{1-\bar\alpha_t}) 角色对应。

段末注释:DSM 通过加噪分布避免直接对 (p(x)) 求迹;NCSN 为 Song & Ermon 的噪声条件得分网络系列。


3. 前向 SDE:统一离散扩散

Song et al. 将前向过程写为:

[
\mathrm{d}x = f(x,t),\mathrm{d}t + g(t),\mathrm{d}w,
]

(w) 为标准维纳过程。两类典型 SDE

3.1 方差爆炸 SDE(VE-SDE,对应 NCSN/SMLD)

[
\mathrm{d}x = \sqrt{\frac{\mathrm{d},\sigma^2(t)}{\mathrm{d}t}},\mathrm{d}w.
]

噪声水平 (\sigma(t)) 从 (\sigma_{\min}) 单调增至 (\sigma_{\max})。边缘分布 (p_t(x)) 方差不断增大,似「爆炸」。

3.2 方差保持 SDE(VP-SDE,对应 DDPM 连续极限)

[
\mathrm{d}x = -\frac{1}{2}\beta(t),x,\mathrm{d}t + \sqrt{\beta(t)},\mathrm{d}w.
]

与离散 DDPM 中 (\sqrt{1-\beta_t},x_{t-1}) 对应;(t\to\infty) 时 (x) 趋于 (\mathcal{N}(0,\mathbf{I}))。

离散 ↔ 连续:DDPM 的 (\beta_t) 是 VP-SDE 在 (t\in[0,1]) 上 Euler–Maruyama 离散化;(T) 越大,离散链越逼近连续 SDE。

概念图 噪声日程:离散 \(\beta_t\) 与连续时间 \(t\) 的对应


4. 逆向 SDE:生成方程

Anderson(1982)给出:若前向满足上述 SDE,则逆向过程(时间倒流)满足:

[
\mathrm{d}x = \Big[f(x,t) - g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t + g(t),\mathrm{d}\bar w,
]

(\bar w) 为逆向维纳过程。代入学到的 (s_\theta(x,t) \approx \nabla_x \log p_t(x)) 即可数值模拟从 (p_T)(噪声)采样到 (p_0)(数据)。

图 1 前向 SDE 与逆向 SDE:数据→噪声与 score 引导的噪声→数据

与 DDPM 采样对应:离散公式中的 (\epsilon_\theta) 即离散化逆向 SDE 的漂移项。


5. 概率流 ODE(确定性采样)

同一前向 SDE 存在等价的概率流 ODE,边缘分布 (p_t(x)) 与 SDE 相同:

[
\mathrm{d}x = \Big[f(x,t) - \frac{1}{2}g(t)^2,\nabla_x \log p_t(x)\Big]\mathrm{d}t.
]

无随机项 → 给定 (x_T) 则 (x_0) 唯一确定。优点:

  • 可用 RK45 等 ODE 求解器,步数可调;
  • 支持精确似然估计(Change of variables);
  • DDIM 提供理论解释(系列第 3 篇)。

实践中:(s_\theta) 用同一网络,SDE 采样随机性更强、多样性更好;ODE 采样更 sharp、步数可更少。


6. 训练:连续时间得分匹配

离散 DDPM 训练可视为对 VP-SDE 的随机时间 (t \sim \mathcal{U}(0,1)) 采样:

[
\mathcal{L} = \mathbb{E}{t,,x_0,,\epsilon}\Big[\lambda(t),\big|s\theta(x_t,t) - \nabla_{x_t}\log q(x_t\mid x_0)\big|^2\Big],
]

(\lambda(t)) 为时间权重(不同参数化对应 noise prediction / v-prediction)。VE-SDE 常在 (\sigma) 对数尺度上均匀采样 (\log\sigma)。

框架 噪声参数 网络输出 生物结构任务常见度
DDPM / VP (\bar\alpha_t) 或 (t) (\epsilon_\theta) 高(RFdiffusion 等)
VE / NCSN (\sigma) (s_\theta(x,\sigma)) 中(部分分子 3D)
EDM (\sigma) + 预处理 (D_\theta) 去噪器 高(图像/分子统一预处理)

EDM(Karras et al., 2022)在 (\sigma) 空间重新参数化数据预处理 (x = c_{\mathrm{in}}(\sigma),D_\theta(c_{\mathrm{noise}}(\sigma),x;\sigma) + c_{\mathrm{skip}}(\sigma),x),改善不同 (\sigma) 上的损失尺度——结构生成社区常借鉴其 sigma 日程Heun 求解器


7. 数值求解与步长选择

从 (t=T) 到 (0) 离散化逆向 SDE/ODE:

  • Euler–Maruyama:DDPM 默认采样的一步法;
  • Heun / RK:二阶,相同函数评估次数下误差更小;
  • 自适应步长:ODE 求解器根据局部误差调节 (\Delta t)。

生物信息学实践:蛋白质骨架扩散常用 50–200 步(配合 DDIM 或 Heun),而非 1000 步;步数与 RMSD/designability 的 trade-off 需实验标定。


8. 与 DDPM 公式对照表

设 VP-SDE 离散化,(t) 对应 DDPM 步索引:

DDPM 得分 / SDE
加噪 (x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon) (x_t \sim p_t) 由 SDE 边缘分布
网络目标 (\epsilon_\theta(x_t,t) \approx \epsilon) (s_\theta(x_t,t) \approx -\epsilon/\sqrt{1-\bar\alpha_t})
逆向漂移 见第 1 篇 (\mu_\theta) (f - g^2 s_\theta)
确定性采样 DDIM(第 3 篇) 概率流 ODE

9. 小结

得分匹配说明扩散训练本质是学多噪声水平下的对数密度梯度SDE/ODE 框架NCSNDDPM 统一为同一随机过程的不同离散化与参数化。连续视角带来:(1)更灵活的噪声日程求解器;(2)ODE 确定性采样与似然;(3)与 EDM 等工程最佳实践对齐。阅读结构扩散代码时,看到 sigmascorevp/ve 等命名,可对照本章映射到具体离散公式。

段末注释:Euler–Maruyama 为一阶 SDE 数值积分;Heun 为二阶 Runge–Kutta 型预测–校正积分。


本篇数学概念索引

概念 出现章节 延伸阅读
得分函数 / 朗之万动力学 §1 Math-0 §11
重参数化 / DSM 加噪 §2 Math-0 §8
噪声日程(连续–离散对应) §3 Math-0 §9

参考与延伸阅读

  • Song & Ermon, Generative Modeling by Estimating Gradients of the Data DistributionNCSN).
  • Song et al., Score-Based Generative Modeling through Stochastic Differential EquationsSDE/ODE 统一).
  • Vincent, A Connection Between Score Matching and Denoising AutoencodersDSM).
  • Karras et al., Elucidating the Design Space of Diffusion-Based Generative ModelsEDM).
  • Anderson, Reverse-Time Diffusion Equation Models(逆向 SDE 理论).
-------------本文结束感谢您的阅读-------------