1. 文献信息
- 题目:Rapid in silico directed evolution by a protein language model with EVOLVEpro
- 期刊:Science;DOI:https://doi.org/10.1126/science.adr6006
- 作者:Kaiyi Jiang、Omar O. Abudayyeh、Jonathan S. Gootenberg 等
- 核心贡献:提出 EVOLVEpro(全称在正文中写作 evolution via language model–guided variance exploration for proteins,即「语言模型引导的蛋白方差探索式进化」),将大规模蛋白质语言模型(Protein Language Model,PLM) 的序列表征与顶层回归模型结合,在少量实验(few-shot,每轮仅测少量突变体) 的主动学习(active learning) 循环中,迭代学习「嵌入 → 实验读出活性」的映射,用于定向进化(directed evolution,DE) 与机器学习定向进化(machine learning–directed evolution,MLDE) 场景。
段末注释:PLM 在预训练序列上学习通用表征;few-shot 指每轮仅用极少标注样本更新模型;active learning 指模型主动挑选下一轮最值得测的样本;DE 为实验迭代筛选高活性变体;MLDE 将机器学习嵌入 DE 闭环。
2. 研究动机(方法视角)
自然进化优化的是可遗传适应度,与实验室度量的蛋白活性/结合/编辑效率等目标函数不必一致;纯 PLM 的零样本(zero-shot,无任务专用再训练) 突变排序在多种任务上成功有限。生成式 PLM 可探索更大序列空间,但高活性、可落地变体比例仍低。作者假设:在 PLM 提供的稠密表征空间里,用带实验反馈的回归器迭代拟合「目标活性」,可在崎岖活性景观上比纯 PLM 打分或纯随机筛选更高效地爬升。
段末注释:zero-shot 指不针对当前蛋白/实验读出再训练,直接用预训练模型给出的分数或似然排序候选。
3. 方法实现原理(详解)
以下与 Science 正文 Fig. 1A 及 Methods(Use of ESM2 embeddings、EVOLVEpro model、Active learning approach、EVOLVEpro parameter grid search)对齐;实现细节与补充材料以论文及官方仓库为准。
3.1 总体流程(模块化)
- 候选池:对目标蛋白定义突变搜索空间(如单点突变全集,或论文设定的子集);用冻结的 ESM-2 对每条变体序列前向,得到嵌入。
- 序列级向量:将残基级嵌入在长度维上平均汇聚(mean pooling),得到固定维度 d 的向量 ē,作为顶层模型输入。
- 顶层监督:用随机森林回归器(Random Forest regressor,RFR) 以 ē 为特征、以实验归一化活性 y 为标签训练 f_θ(论文记预测为 f_θ(x) 或 f(ē))。
- 主动学习:每一轮用当前 RFR 对尚未测定的变体预测活性,按策略(见 §3.4)选出 K 个进入下一轮湿实验;测得的 (序列, y) 并入训练集,重训顶层模型,重复直至满足目标或轮数上限。
- 多轮扩展:后续可在单点突变基础上组合多位点突变,由同一框架提名组合(具体组合策略见原文各应用小节)。
段末注释:mean pooling 即对序列各位置嵌入取算术平均,使长度不同的蛋白对应同一维度向量;K 为每轮实验通量,与预算相关。
图注:冻结 ESM-2 输出逐残基矩阵 E,均值汇聚得 ē,随机森林(RFR) 学习 f(ē),按 top-K 进入湿实验读出 y,将 (序列, y) 并入训练集 D 并重训顶层模型;紫色虚线箭头表示多轮迭代。脚注区强调:pMMS 等零样本 PLM 适应度与任务活性不必一致;首轮突变在网格搜索中常以随机抽样为默认策略。
3.2 PLM 嵌入:从序列到 E 与 ē
设第 i 个变体序列 x_i = (a_1, …, a_n),n 为长度。预训练 ESM-2(原文方法主结果采用 15B 参数版)将 x_i 映射为最后一层的逐残基嵌入矩阵(论文 Eq. 1 记法):
[
E_i = \mathrm{PLM}(x_i) \in \mathbb{R}^{n \times d},
]
其中 d 为隐藏维度。对位置 j 的嵌入在 n 上取平均,得到整条序列的表征(论文 Eq. 2):
[
\bar{e}i = \frac{1}{n}\sum{j=1}^{n} E_{i,j}, \quad \bar{e}_i \in \mathbb{R}^d.
]
设计要点:在 高维 p、低样本数 N(high-p, low-N) 下,作者曾尝试 主成分分析(Principal Component Analysis,PCA) 将 ē 降到 10~1000 维再输入回归器;在 12 个 深度突变扫描(Deep Mutational Scanning,DMS) 基准上,多数任务上全维原始嵌入更优,尤其在高活性变体稀疏的困难任务上;较易任务上不同维度可能饱和。故默认用完整 d 维 ē 作为特征。
段末注释:DMS 为高通量测定大量突变体效应的实验范式;PCA 为线性降维;high-p, low-N 指特征维数远大于样本数,易过拟合,需强正则或简单基学习器配合。
3.3 顶层模型:随机森林回归
RFR 由 T = 100 棵回归树集成;分裂质量用 Friedman 均方误差(Mean Squared Error,MSE) 准则。单棵树在自助采样(bootstrap) 子集上训练;叶节点分裂用不纯度下降最大化(论文 Eq. 3–4 给出 Friedman MSE 形式的左右子均值差与样本数加权)。对新嵌入 ē,森林预测为各树预测的平均(论文 Eq. 5):
[
f(\bar{e}) = \frac{1}{T}\sum_{t=1}^{T} h_t(\bar{e}).
]
为何用树模型:作者在 12 个 DMS 集上比较了岭回归、Lasso、弹性网络、线性回归、末层线性神经网络、K 近邻回归(KNN)、高斯过程(Gaussian Process,GP)、梯度提升等;随机森林在约 12 个中 10 个 数据集上表现最好,与低 N 下树集成在其它领域的经验一致。
段末注释:RFR 对特征非线性交互、异常值相对鲁棒;GP 适合小数据但高维嵌入上成本与调参不同;KNN 在嵌入空间上依赖距离度量与局部密度。
3.4 主动学习:预测范围约束与 top-N 选点
关键性质:对回归树/森林,若训练标签 y 有界,则对未见过样本的预测值落在训练集 y 的 min–max 区间内(论文 Eq. 6)。因此每轮选「预测分最高」的一批点,目的是在下一轮用新实验数据抬高模型见过的 y 上界,使后续预测区间整体上移(论文 Eq. 7–8 的 top-n 策略:在候选池中取预测值 ≥ 第 n 高 阈值的变体)。
作者曾比较:随机、top + bottom 混合、嵌入空间与已选点欧氏距离最大 等;在以快速提升顶部活性为目标时,贪心 top-N 与网格搜索中的「胜出策略」一致。首轮突变选择:在完整网格搜索中,随机首轮 优于仅基于嵌入的 K-medoids 多样性首轮(论文 Grid search 小节),故实验流程默认第一轮随机抽变体。
段末注释:K-medoids 为聚类代表点选取,用于「首轮覆盖嵌入空间」的备选策略;贪心 top-N 可能局部最优,但论文以实验轮数与通量为约束优化。
3.5 与「零样本 PLM 适应度」的区分
论文多次将 ESM-2 给出的掩码边际类分数等概括为 pMMS(predicted masked marginal score,预测掩码边际分数),作为天然序列分布上的「进化似然」代理;而 EVOLVEpro 在 ē 上学习的 f(ē) 对应实验读出。在抗体、Cas12f、PE2、Bxb1、T7 RNA 聚合酶(RNA polymerase,RNAP) 等案例中,pMMS 与实测活性往往弱相关甚至近乎无关;PCA 投影上「高 PLM 适应度方向」与「高活性方向」可相反。说明:基础 PLM 不直接等于任务活性,需实验锚定的回归解释层。
段末注释:pMMS 依赖 ESM 对突变位点掩码/似然的构造,与 Meier 等 ESM-1v 零样本打分同族思想;RNAP 此处指 T7 RNA 聚合酶 工程案例。
3.6 基准与模型选择(支撑「为何是 ESM-2 15B + RFR」)
- 数据:12 个 DMS 数据集(病毒刺突、核酸酶、DNA/RNA 结合蛋白、激酶等),仿真时仅对模型提名的变体「揭示」真实标签,模拟真实筛选。
- PLM 对比:在相同顶层流程下,ESM-2 15B 平均在高活性变体检出上优于较小 ESM-2、ESM-1、UniRep、ProtT5、ProteinBERT、Ankh 及 one-hot / 整数编码;仅少数 PLM 显著优于 one-hot,说明表征质量是瓶颈。
- 主动学习 vs 预训练全部数据:例如 5 轮 × 每轮 16 个变体主动学习,性能上约等价于用 160 个变体一次性预训练回归器;10 轮主动学习约等价 500 个变体一次性预训练——体现迭代选点的样本效率。
- 网格搜索胜出组合(论文 Methods):首轮随机、原始 fitness(或 min-max 归一化,以数据集为准)、每轮 top-N、RFR、原始全维嵌入(未 PCA 时整体更稳)。
3.7 多目标优化(目标函数构造)
当实验同时读出多个指标(如抗体结合亲和力与表达量、T7 RNAP 的产量、翻译读数、干扰素-β(IFN-β) 相关免疫原性等),将各指标归一化后按权重线性加权为单一标量 y,再输入 §3.3 的 RFR。权重反映任务优先级(如抗体案例中结合亲和力权重为表达量的 4 倍)。本质仍是「标量回归 + 主动学习」,多目标通过工程化标量ization 处理。
段末注释:IFN-β 为细胞免疫应答相关细胞因子,此处作 mRNA 免疫原性读数代理;线性加权是简单可解释方案,Pareto 前沿遍历需更复杂策略(见原文讨论)。
4. 与聚合酶 / 酶工程读者的关系
本文 T7 RNA 聚合酶 案例与 Prime editor 中 M-MLV 逆转录酶(reverse transcriptase,RT) 等,属于广义的酶与催化机器定向改造:同一套 EVOLVEpro 管线只依赖可测的序列–活性对与 PLM 嵌入,不强制结构输入;若你的场景是聚合酶 k_cat、保真度、产物纯度等,可类比为定义好读出与加权后嵌入闭环。需注意:体外转录(in vitro transcription,IVT) 缓冲、帽化与纯化流程会改变表型,体外筛选到的变体应在目标工艺下复验。
段末注释:RT 以 RNA 为模板合成 DNA,prime editor 的核心模块之一;IVT 指无细胞体系下以 DNA 为模板合成 RNA。
5. 开源与复现入口
- 代码与模型:GitHub https://github.com/mat10d/EvolvePro(论文 Data and materials availability;Zenodo 存档编号以论文为准)。
- 依赖:ESM-2 嵌入需 facebookresearch/esm 或等价实现;15B 模型算力与显存要求显著高于小模型。
- 许可:期刊文章版权遵循 Science 页面说明;复现与二次分发以仓库 License 与 Science 补充材料为准。
6. 小结
- EVOLVEpro 的可复现核心是:冻结 PLM → 序列嵌入均值 → 随机森林回归 → 主动学习 top-N 扩充标注 → 迭代。
- 原理上强调:PLM 提供通用几何/进化语义空间,实验数据在顶层校正到任务活性;pMMS 与真实活性解耦时,零样本 PLM 不足以替代该闭环。
- 实现细节(树深度、K、归一化、多位点组合策略)因蛋白与实验而异,以 adr6006 正文、补充材料 与 EvolvePro 仓库为准。
7. 延伸阅读(检索关键词)
EVOLVEpro,EvolvePro,active learning protein,ESM-2 15B,random forest directed evolution,machine learning directed evolution,deep mutational scanning,protein language model regression,top-n active learning