酶改造-modelpaper-EVOLVEpro

1. 文献信息

题目：Rapid in silico directed evolution by a protein language model with EVOLVEpro
期刊：Science；DOI：https://doi.org/10.1126/science.adr6006
作者：Kaiyi Jiang、Omar O. Abudayyeh、Jonathan S. Gootenberg 等
核心贡献：提出 EVOLVEpro（全称在正文中写作 evolution via language model–guided variance exploration for proteins，即「语言模型引导的蛋白方差探索式进化」），将大规模蛋白质语言模型（Protein Language Model，PLM） 的序列表征与顶层回归模型结合，在少量实验（few-shot，每轮仅测少量突变体） 的主动学习（active learning） 循环中，迭代学习「嵌入 → 实验读出活性」的映射，用于定向进化（directed evolution，DE） 与机器学习定向进化（machine learning–directed evolution，MLDE） 场景。

段末注释：PLM 在预训练序列上学习通用表征；few-shot 指每轮仅用极少标注样本更新模型；active learning 指模型主动挑选下一轮最值得测的样本；DE 为实验迭代筛选高活性变体；MLDE 将机器学习嵌入 DE 闭环。

2. 研究动机（方法视角）

自然进化优化的是可遗传适应度，与实验室度量的蛋白活性/结合/编辑效率等目标函数不必一致；纯 PLM 的零样本（zero-shot，无任务专用再训练） 突变排序在多种任务上成功有限。生成式 PLM 可探索更大序列空间，但高活性、可落地变体比例仍低。作者假设：在 PLM 提供的稠密表征空间里，用带实验反馈的回归器迭代拟合「目标活性」，可在崎岖活性景观上比纯 PLM 打分或纯随机筛选更高效地爬升。

段末注释：zero-shot 指不针对当前蛋白/实验读出再训练，直接用预训练模型给出的分数或似然排序候选。

3. 方法实现原理（详解）

以下与 Science 正文 Fig. 1A 及 Methods（Use of ESM2 embeddings、EVOLVEpro model、Active learning approach、EVOLVEpro parameter grid search）对齐；实现细节与补充材料以论文及官方仓库为准。

3.1 总体流程（模块化）

候选池：对目标蛋白定义突变搜索空间（如单点突变全集，或论文设定的子集）；用冻结的 ESM-2 对每条变体序列前向，得到嵌入。
序列级向量：将残基级嵌入在长度维上平均汇聚（mean pooling），得到固定维度 d 的向量 ē，作为顶层模型输入。
顶层监督：用随机森林回归器（Random Forest regressor，RFR） 以 ē 为特征、以实验归一化活性 y 为标签训练 f_θ（论文记预测为 f_θ(x) 或 f(ē)）。
主动学习：每一轮用当前 RFR 对尚未测定的变体预测活性，按策略（见 §3.4）选出 K 个进入下一轮湿实验；测得的 (序列, y) 并入训练集，重训顶层模型，重复直至满足目标或轮数上限。
多轮扩展：后续可在单点突变基础上组合多位点突变，由同一框架提名组合（具体组合策略见原文各应用小节）。

段末注释：mean pooling 即对序列各位置嵌入取算术平均，使长度不同的蛋白对应同一维度向量；K 为每轮实验通量，与预算相关。

Fig.1 EVOLVEpro 主动学习闭环示意（与 Jiang 等 *Science* **Fig.1A** 对齐；图中标注为英文便于矢量渲染）

图注：冻结 ESM-2 输出逐残基矩阵 E，均值汇聚得 ē，随机森林（RFR） 学习 f(ē)，按 top-K 进入湿实验读出 y，将 (序列, y) 并入训练集 D 并重训顶层模型；紫色虚线箭头表示多轮迭代。脚注区强调：pMMS 等零样本 PLM 适应度与任务活性不必一致；首轮突变在网格搜索中常以随机抽样为默认策略。

3.2 PLM 嵌入：从序列到 E 与 ē

设第 i 个变体序列 x_i = (a_1, …, a_n)，n 为长度。预训练 ESM-2（原文方法主结果采用 15B 参数版）将 x_i 映射为最后一层的逐残基嵌入矩阵（论文 Eq. 1 记法）：

[
E_i = \mathrm{PLM}(x_i) \in \mathbb{R}^{n \times d},
]

其中 d 为隐藏维度。对位置 j 的嵌入在 n 上取平均，得到整条序列的表征（论文 Eq. 2）：

[
\bar{e}i = \frac{1}{n}\sum{j=1}^{n} E_{i,j}, \quad \bar{e}_i \in \mathbb{R}^d.
]

设计要点：在 高维 p、低样本数 N（high-p, low-N） 下，作者曾尝试 主成分分析（Principal Component Analysis，PCA） 将 ē 降到 10～1000 维再输入回归器；在 12 个 深度突变扫描（Deep Mutational Scanning，DMS） 基准上，多数任务上全维原始嵌入更优，尤其在高活性变体稀疏的困难任务上；较易任务上不同维度可能饱和。故默认用完整 d 维 ē 作为特征。

段末注释：DMS 为高通量测定大量突变体效应的实验范式；PCA 为线性降维；high-p, low-N 指特征维数远大于样本数，易过拟合，需强正则或简单基学习器配合。

3.3 顶层模型：随机森林回归

RFR 由 T = 100 棵回归树集成；分裂质量用 Friedman 均方误差（Mean Squared Error，MSE） 准则。单棵树在自助采样（bootstrap） 子集上训练；叶节点分裂用不纯度下降最大化（论文 Eq. 3–4 给出 Friedman MSE 形式的左右子均值差与样本数加权）。对新嵌入 ē，森林预测为各树预测的平均（论文 Eq. 5）：

[
f(\bar{e}) = \frac{1}{T}\sum_{t=1}^{T} h_t(\bar{e}).
]

为何用树模型：作者在 12 个 DMS 集上比较了岭回归、Lasso、弹性网络、线性回归、末层线性神经网络、K 近邻回归（KNN）、高斯过程（Gaussian Process，GP）、梯度提升等；随机森林在约 12 个中 10 个 数据集上表现最好，与低 N 下树集成在其它领域的经验一致。

段末注释：RFR 对特征非线性交互、异常值相对鲁棒；GP 适合小数据但高维嵌入上成本与调参不同；KNN 在嵌入空间上依赖距离度量与局部密度。

3.4 主动学习：预测范围约束与 top-N 选点

关键性质：对回归树/森林，若训练标签 y 有界，则对未见过样本的预测值落在训练集 y 的 min–max 区间内（论文 Eq. 6）。因此每轮选「预测分最高」的一批点，目的是在下一轮用新实验数据抬高模型见过的 y 上界，使后续预测区间整体上移（论文 Eq. 7–8 的 top-n 策略：在候选池中取预测值 ≥ 第 n 高 阈值的变体）。

作者曾比较：随机、top + bottom 混合、嵌入空间与已选点欧氏距离最大 等；在以快速提升顶部活性为目标时，贪心 top-N 与网格搜索中的「胜出策略」一致。首轮突变选择：在完整网格搜索中，随机首轮 优于仅基于嵌入的 K-medoids 多样性首轮（论文 Grid search 小节），故实验流程默认第一轮随机抽变体。

段末注释：K-medoids 为聚类代表点选取，用于「首轮覆盖嵌入空间」的备选策略；贪心 top-N 可能局部最优，但论文以实验轮数与通量为约束优化。

3.5 与「零样本 PLM 适应度」的区分

论文多次将 ESM-2 给出的掩码边际类分数等概括为 pMMS（predicted masked marginal score，预测掩码边际分数），作为天然序列分布上的「进化似然」代理；而 EVOLVEpro 在 ē 上学习的 f(ē) 对应实验读出。在抗体、Cas12f、PE2、Bxb1、T7 RNA 聚合酶（RNA polymerase，RNAP） 等案例中，pMMS 与实测活性往往弱相关甚至近乎无关；PCA 投影上「高 PLM 适应度方向」与「高活性方向」可相反。说明：基础 PLM 不直接等于任务活性，需实验锚定的回归解释层。

段末注释：pMMS 依赖 ESM 对突变位点掩码/似然的构造，与 Meier 等 ESM-1v 零样本打分同族思想；RNAP 此处指 T7 RNA 聚合酶 工程案例。

3.6 基准与模型选择（支撑「为何是 ESM-2 15B + RFR」）

数据：12 个 DMS 数据集（病毒刺突、核酸酶、DNA/RNA 结合蛋白、激酶等），仿真时仅对模型提名的变体「揭示」真实标签，模拟真实筛选。
PLM 对比：在相同顶层流程下，ESM-2 15B 平均在高活性变体检出上优于较小 ESM-2、ESM-1、UniRep、ProtT5、ProteinBERT、Ankh 及 one-hot / 整数编码；仅少数 PLM 显著优于 one-hot，说明表征质量是瓶颈。
主动学习 vs 预训练全部数据：例如 5 轮 × 每轮 16 个变体主动学习，性能上约等价于用 160 个变体一次性预训练回归器；10 轮主动学习约等价 500 个变体一次性预训练——体现迭代选点的样本效率。
网格搜索胜出组合（论文 Methods）：首轮随机、原始 fitness（或 min-max 归一化，以数据集为准）、每轮 top-N、RFR、原始全维嵌入（未 PCA 时整体更稳）。

3.7 多目标优化（目标函数构造）

当实验同时读出多个指标（如抗体结合亲和力与表达量、T7 RNAP 的产量、翻译读数、干扰素-β（IFN-β） 相关免疫原性等），将各指标归一化后按权重线性加权为单一标量 y，再输入 §3.3 的 RFR。权重反映任务优先级（如抗体案例中结合亲和力权重为表达量的 4 倍）。本质仍是「标量回归 + 主动学习」，多目标通过工程化标量ization 处理。

段末注释：IFN-β 为细胞免疫应答相关细胞因子，此处作 mRNA 免疫原性读数代理；线性加权是简单可解释方案，Pareto 前沿遍历需更复杂策略（见原文讨论）。

4. 与聚合酶 / 酶工程读者的关系

本文 T7 RNA 聚合酶 案例与 Prime editor 中 M-MLV 逆转录酶（reverse transcriptase，RT） 等，属于广义的酶与催化机器定向改造：同一套 EVOLVEpro 管线只依赖可测的序列–活性对与 PLM 嵌入，不强制结构输入；若你的场景是聚合酶 k_cat、保真度、产物纯度等，可类比为定义好读出与加权后嵌入闭环。需注意：体外转录（in vitro transcription，IVT） 缓冲、帽化与纯化流程会改变表型，体外筛选到的变体应在目标工艺下复验。

段末注释：RT 以 RNA 为模板合成 DNA，prime editor 的核心模块之一；IVT 指无细胞体系下以 DNA 为模板合成 RNA。

5. 开源与复现入口

代码与模型：GitHub https://github.com/mat10d/EvolvePro（论文 Data and materials availability；Zenodo 存档编号以论文为准）。
依赖：ESM-2 嵌入需 facebookresearch/esm 或等价实现；15B 模型算力与显存要求显著高于小模型。
许可：期刊文章版权遵循 Science 页面说明；复现与二次分发以仓库 License 与 Science 补充材料为准。

6. 小结

EVOLVEpro 的可复现核心是：冻结 PLM → 序列嵌入均值 → 随机森林回归 → 主动学习 top-N 扩充标注 → 迭代。
原理上强调：PLM 提供通用几何/进化语义空间，实验数据在顶层校正到任务活性；pMMS 与真实活性解耦时，零样本 PLM 不足以替代该闭环。
实现细节（树深度、K、归一化、多位点组合策略）因蛋白与实验而异，以 adr6006 正文、补充材料 与 EvolvePro 仓库为准。

7. 延伸阅读（检索关键词）

EVOLVEpro, EvolvePro, active learning protein, ESM-2 15B, random forest directed evolution, machine learning directed evolution, deep mutational scanning, protein language model regression, top-n active learning