5003.大模型-架构-Diffusion-4.离散扩散与序列生成

基因组与蛋白质一级序列有限字母表上的离散对象(DNA:4 碱基;蛋白质:20 氨基酸 + 特殊 token)。标准 DDPM 假设连续高斯噪声,不能直接用于 ({A,C,G,T}) 或氨基酸 token。离散扩散(Discrete Diffusion)——以 D3PM(Austin et al., 2021)为代表——用马尔可夫转移矩阵替代高斯加噪,在多步腐蚀—去噪中生成或编辑序列;与 自回归(AR)掩码语言模型(MLM) 相比,在全局 inpainting并行解码上各有优劣,是 DNA 调控元件设计蛋白质序列重设计的可选范式。

段末注释:D3PM 为 Structured Denoising Diffusion Models in Discrete State-Spaces;inpainting 指固定部分 token、生成其余位置。

前置阅读5003.大模型-架构-Diffusion-0.概述与生物信息学应用全景Diffusion-Math-0 概率与扩散数学基础
数值手算例题Example-1 蛋白序列离散扩散(MASK 吸收态四肽 + 交叉熵训练 + motif inpainting)


1. 为什么序列需要「离散扩散」

方法 一步操作 生成方向 典型代表
AR 预测下一 token 因果、顺序 ProGenEvo
MLM 随机遮盖一次、预测 非生成(需迭代采样变体) DNABERTESM
离散扩散 每步全序列按转移矩阵「腐蚀」 多步并行去噪 D3PMDiffusion-LM

离散扩散的优势场景:

  • 固定 motif(酶活性位点、转录因子结合位点),生成侧翼序列;
  • 全局属性约束(GC 含量、密码子偏好)与多步退火;
  • 避免 AR 的顺序偏置(从左到右生成对调控元件不一定自然)。

局限:推理需多步;长序列(>1 kb)算力与 AR+长上下文HyenaDNA)相比未必占优。


2. 前向过程:转移矩阵

设词汇表 (\mathcal{V})(有限集合,如 DNA 的 ({A,C,G,T})),序列 (x \in \mathcal{V}^L)。对每个位置独立(或联合)定义:

概念锚点 · 离散状态空间:连续 DDPM 在 (\mathbb{R}^d) 上加高斯噪声;离散扩散在有限字母表上用转移矩阵 (Q_t) 做「腐蚀」——马尔可夫结构不变(Math-0 §1、§7)。

概念图 样本空间:连续 \(\mathbb{R}^d\) vs 离散词汇表 \(\mathcal{V}\)

概念图 马尔可夫链:离散 token 逐步转移

[
q(x_t \mid x_{t-1}) = \mathrm{Cat}\big(x_t;,x_{t-1},Q_t\big),
]

(Q_t \in \mathbb{R}^{|\mathcal{V}|\times|\mathcal{V}|}) 为转移矩阵;(\mathrm{Cat}) 为分类分布。累积:

[
q(x_t \mid x_0) = \mathrm{Cat}\big(x_t;,x_0,\bar Q_t\big),
\quad \bar Q_t = Q_1 Q_2 \cdots Q_t.
]

2.1 常见转移设计

(1)均匀扩散(uniform)
以概率 (\beta_t) 将 token 均匀替换为词汇表中任一字符:

[
[Q_t]_{ij} = \begin{cases}
1-\beta_t & i=j \
\beta_t / |\mathcal{V}| & i\neq j
\end{cases}
]

(t\to\infty) 时边缘分布趋近均匀分布

(2)吸收态 / 掩码扩散(absorbing / mask)
以概率 (\beta_t) 将 token 变为特殊 [MASK] 态;[MASK] 吸收——类似 MLM,但腐蚀分多步进行:

[
[Q_t]_{ij} = \begin{cases}
1-\beta_t & i=j \neq m \
\beta_t & j=m,, i\neq m \
1 & i=j=m
\end{cases}
]

(m) 为 mask 索引。最终 (x_T) 几乎全为 [MASK]——逆向即逐步填回

(3)高斯离散化(ordinal)
对有序量(如保守性分数分桶)可用「邻近 token 更高转移概率」的 band 矩阵——基因组 phastCons 分桶等。

DNA,(|\mathcal{V}|=4) 或小扩展(含 N);对 蛋白质,(|\mathcal{V}|=20+)(含 X、gap)。


3. 逆向过程与变分目标

真实逆向 (q(x_{t-1}\mid x_t, x_0)) 可解析(有限状态)——离散版贝叶斯公式(Math-0 §4):

[
q(x_{t-1}\mid x_t, x_0) = \frac{q(x_t\mid x_{t-1},x_0),q(x_{t-1}\mid x_0)}{q(x_t\mid x_0)}.
]

设 (p_\theta(x_{t-1}\mid x_t)) 为神经网络输出的分类分布(每位置 (|\mathcal{V}|) 维 logits),ELBO 中 KL 项(Math-0 §6):

概念图 KL 散度:离散分类分布上的 ELBO 项

[
\mathbb{E}{q(x_t\mid x_0)}\Big[\mathrm{KL}\big(q(x{t-1}\mid x_t,x_0),|,p_\theta(x_{t-1}\mid x_t)\big)\Big].
]

训练:采样 (t)、(x_0)、(x_t \sim q(x_t\mid x_0)),最小化上式(或交叉熵 surrogate)。网络输入 ((x_t, t)),输出每位置对 (x_{t-1}) 的预测——骨干常用 Transformer

3.1 与 MLM 的联系

吸收态 D3PM 一步去噪 ≈ 预测「被 mask 前的 token」;但多步 schedule 控制「多少比例仍被 mask」,生成时从全 mask 逐步还原——而 MLM 训练通常单步、遮盖比例固定(如 15%)。


4. 采样算法

从 (x_T)(均匀噪声或全 [MASK])出发,(t = T,\ldots,1):

  1. 网络输出 (p_\theta(x_{t-1}\mid x_t))(每位置分类);
  2. 采样 (x_{t-1} \sim p_\theta)(或 argmax / 低温采样);
  3. Inpainting:固定位置强制为 (q(x_{t-1}\mid x_0^{\mathrm{fixed}})) 的采样或已知 token。

并行性:一步更新全序列所有位置(与 AR 逐 token 不同),但需 (T) 次前向。

图 1 离散扩散序列生成迭代(Transformer 去噪 + Motif Inpainting)


5. 与连续扩散的混合:序列 + 结构

许多 蛋白质 design pipeline 对序列做离散扩散,而是:

  1. 连续扩散生成骨架(RFdiffusion);
  2. 逆折叠ProteinMPNN)或 AR 设计序列。

仅序列任务(引物、启动子、aptamer):

  • AR + 条件(GC%、限制酶位点)仍是工业主流;
  • 离散扩散 适合 motif-flanking序列 inpainting 实验设计。

Multiflow 等新兴工作尝试联合离散(序列)与连续(结构)流/扩散——属前沿,需区分训练稳定性与评估协议。


6. 与 AR、MLM 的选型建议

需求 推荐 理由
长基因组上下文(>10 kb) AR / SSMEvoHyenaDNA 离散扩散每步全序列,复杂度 (O(L)\times T)
短元件 + 固定 motif 离散扩散inpainting MLM 全局并行填 mask
蛋白质功能语言模型 ARProGen2)或 ESM 微调 生态成熟
3D 结构 design 连续扩散 + 逆折叠 几何与序列解耦

评估指标(序列):

  • Perplexity / 伪对数似然(离散扩散可估 ELBO);
  • Motif 命中率Restriction site 约束满足率;
  • 实验:荧光报告基因、结合亲和力等。

7. 实现细节

转移矩阵日程
(\bar Q_t) 应对角趋近极限分布(均匀或 mask)。可用 (\beta_t) 线性/余弦调度,与连续 DDPM 类比。

标签平滑与吸收
[MASK] 吸收态训练更稳定;推理时固定 token 不参与腐蚀或在 inpainting 分支处理。

位置编码
TransformerRoPE / ALiBi 等支持变长;调控元件任务注意 reverse complement 数据增强(DNA)。

密码子与阅读框
蛋白质序列 design 可在氨基酸表扩散;若需 DNA 编码,后处理约束或分层扩散(先 AA 再 codon 映射)更常见。


8. 小结

离散扩散将 DDPM 思想推广到有限状态空间:用 (Q_t) 描述腐蚀,用 Transformer 预测逆向分类分布。吸收态MLM 最接近,但多步 schedule 支持生成式解码与 inpainting生物序列任务中,离散扩散是 AR 的补充而非全面替代;与 连续结构扩散 组合构成现代 protein design 的主流分工。

段末注释:伪对数似然 常用 mask-conditional 近似评估生成序列概率;逆折叠 指由骨架预测氨基酸序列。


本篇数学概念索引

概念 出现章节 延伸阅读
离散样本空间 (\mathcal{V}) §2 Math-0 §1
马尔可夫转移矩阵 §2 Math-0 §7
KL / ELBO(分类版) §3 Math-0 §6、§12

参考与延伸阅读

  • Austin et al., Structured Denoising Diffusion Models in Discrete State-SpacesD3PM).
  • Hoogeboom et al., Argmax Flows and Multinomial Diffusion(多项扩散).
  • Campbell et al., Continuous Time Discrete State-Space Models(连续时间离散扩散).
  • Li et al., Diffusion-LM Improves Controllable Text Generation(文本离散扩散,思想可迁移调控序列).
  • 系列第 0、5 篇:结构扩散与 ProteinMPNN 分工。
-------------本文结束感谢您的阅读-------------