酶改造-模型论文-ESMFold2全面解读:开源、复合物、world model

前置阅读酶改造-模型论文-PLMs酶改造-模型论文-ESM框架详解。本文配套公众号版本为「ESMFold2 全面解读」上篇。

缩写体例:缩写首次出现写「中文全称(英文全称,缩写)」;在该段末尾用 段末注释 框简要解释概念,后文沿用缩写。

2026 年 5 月 27 日,Nature 以一篇重磅报道宣告:蛋白质结构预测领域迎来了一位真正的挑战者。

它的名字叫 ESMFold2,来自一家成立不到两年、却已经融了 1.42 亿美元的公司——EvolutionaryScale。它的领军人物 Alex Rives 曾是 Meta 大模型团队的核心负责人,而这一次他选择押注的方向,是用语言模型「读懂」蛋白质。

Move over, AlphaFold: open source model predicts shape of 1 billion proteins.

这是 Nature 当时的标题,足够直白。我在第一时间把玩了一番,结合论文和官方 GitHub 的信息,决定把 ESMFold2 的来龙去脉、技术细节和湿实验结果全部整理成这篇,方便以后有需要时回查,也顺手分享出来。


一、ESMFold2 是什么?

ESMFold2 是一套蛋白质结构预测与设计模型,核心突破在于:它不仅仅是一个「结构预测工具」,而是一个真正在学习蛋白质「语言」的 world model。

它能预测:

  • 蛋白质复合物(Protein-protein interaction, PPI)
  • 抗体-抗原结合(Antibody-antigen complex)
  • 蛋白-配体结合(Protein-ligand complex)

并且,在单序列(single-sequence,不需要 MSA)设定下,就能达到极具竞争力的精度。

它的底座是 ESMC(EvolutionaryScale Language Model of the Corpus),一个全新训练的蛋白质语言模型,参数量从 3 亿到 600 亿不等。训练数据达到了惊人的 28 亿条蛋白序列,是上一代 ESMFold(5000 万条)的 56 倍,其中包含大量宏基因组数据。

简单来说:ESMFold2 之所以「更懂蛋白质」,不是因为它有更复杂的结构建模技巧,而是因为它看过更多的蛋白质「句子」。


二、从 ESMFold1 到 ESMFold2:关键进化一览

维度 ESMFold1 ESMFold2
语言模型底座 ESM2 ESMC(3亿/6亿/600亿参数)
训练数据 ~5000 万条序列 ~28 亿条序列(含宏基因组)
主要能力 单链结构预测 复合物 + 抗体 + 蛋白-配体
Pair 表征 简单配对 显式构建 + 循环更新 + 简化 Pair layer
坐标生成 Geometric Head Diffusion Transformer(与 AF3 同范式)
推理速度(1024 残基) 15.8 秒(10 loops / 200 steps),Fast 版 9.4 秒

几个关键变化值得重点说:

语言模型底座的升级是根本性。ESMC 的预训练目标与 ESM2 不同,它在更大、更 Diverse 的数据上进行训练,这直接带来了泛化能力的跃升——尤其是对宏基因组来源的非典型蛋白质。

Pair 表征的重新设计是 ESMFold2 的核心创新之一。上一代的 pair 表征相对简单,ESMFold2 引入了显式构建 + 循环更新的机制,Pair layer 也大幅简化——只保留了三角形乘法(triangle multiplication)和前馈跃迁(feedforward transition)两种操作,去掉了 ESMfold1 中更复杂的组件。

Diffusion Transformer 的引入则是与 AlphaFold3 走在了同一条路上。用扩散模型逐步从噪声还原三维坐标,相比 geometric head 的直接预测,生成质量更稳定,对多链复合物的处理也更好。


三、架构解析:ESMC + Pair layer + Diffusion

ESMFold2 的推理流程分为两个主要阶段:

3.1 表征学习阶段

蛋白质序列首先被 token 化(每个氨基酸为一个 token),送入 ESMC 语言模型进行编码。ESMC 的输出包含:

s(per-token 表征):每个氨基酸的位置特征

z(pairwise 表征):所有氨基酸两两之间的交互特征

这两个表征随后进入 Pair layer 模块进行多轮(默认 10 轮)迭代更新。在每一轮中,pair 表征通过三角形乘法和前馈跃迁不断精炼,最终得到高质量的配对信息。

ESMFold2 架构图

3.2 坐标生成阶段

Pair layer 的输出(s, z)作为条件(conditioning)送入 Diffusion Transformer

扩散过程从随机噪声开始,逐步去噪生成三维原子坐标。默认配置是 10 个 loops、每个 loop 200 步 diffusion,总计约 2000 步。如果追求速度,可以使用 Fast 版本(约 9.4 秒/1024 残基),精度损失在可接受范围内。


四、Benchmark 表现:单序列也能打

ESMFold2 最重要的特点之一是:单序列(single-sequence)设定下就能达到很高的精度,这与依赖 MSA(多序列比对)的 AlphaFold 系列形成鲜明对比。

基准测试 ESMFold2(单序列) ESMFold2(+MSA) 说明
FoldBench antibody-antigen 50% ± 2% DockQ 53% ± 2% DockQ 抗体-抗原复合物
PPI 70% ± 1% 76% ± 1% 蛋白-蛋白相互作用
Protein-ligand 57% ± 1% 蛋白-小分子配体

DockQ 是评估蛋白质复合物预测质量的核心指标,> 0.23 通常被认为是「可接受」,> 0.49 是「较好」,> 0.8 是「接近实验精度」。

速度-精度 Pareto 前沿对比

从速度-精度的 Pareto frontier 来看,ESMFold2 稳稳占据了右上角的位置——这是目前最快的高精度方案之一。

ESMFold2 不是去替代 AlphaFold3,而是在很多场景下提供一个「速度够快、精度够用」的选择。尤其是当你要跑 1000 条序列的高通量筛选时,ESMFold2 的推理速度优势是决定性的。


五、湿实验验证:5 靶点,全部验证有效

这是 ESMFold2 最让人印象深刻的部分:论文报告了 5 个靶点的湿实验验证,全部来自真实的 wet lab 数据。

靶点 设计类型 实测亲和力
EGFR Minibinder ~0.29 nM
CTLA-4 Minibinder ~0.068 nM
PD-L1 Minibinder ~1.7 nM
PDGFRβ Minibinder 设计验证中
CD45 Minibinder 设计验证中

几个关键数据:

  • 微结合物(minibinder)平均成功率:54% → 70%(随着推理算力提升)
  • 单链抗体(scFv)平均成功率:12.1% → 21.0%(同样是算力提升带来的收益)
  • EGFR-minibinder 的 Cryo-EM 验证 RMSD1.204 Å(与计算模型高度吻合)

1.2 Å 的 RMSD 意味着计算预测的结构和真实实验观测到的结构几乎完全重叠。这个精度放在业界是属于第一梯队的。

整个候选生成流程约 2 天(高度可并行),评分不到 1 天——对于一个需要合成、表达、纯化、检测的多步骤流程来说,这个速度已经是工程上的突破。

抗体-抗原结合示意图


六、推理速度与算力门槛

ESMFold2 提供了两个版本:

版本 推理步数 速度(1024 残基) 精度
标准版 10 loops × 200 steps ~15.8 秒 最高
Fast 版 10 loops × ~100 steps ~9.4 秒 略有下降

Fast 版将 diffusion 步数减半,速度几乎快了一倍,而 benchmark 精度损失在 1–3 个百分点之间。对于早期筛选场景,这个 trade-off 非常划算。

在消费级 GPU(如 A100 40GB)上,1024 残基的推理约需 15–20 秒。更大的蛋白(2048+ 残基)会成比例增加内存和耗时,但仍在可接受范围内。


七、冷静看:边界与局限

ESMFold2 很强,但它不是万能的。以下几点值得注意:

1. 静态结构 ≠ 真实动态

ESMFold2 预测的是静态构象。蛋白质在细胞内是不断运动的,有构象变化(conformational change)、有翻译后修饰(PTM)、有浓度效应。模型给出的只是一个「快照」。

2. 极端非典型结构仍有风险

这是 ESMFold1 的老问题了——对于在训练数据中极少出现的折叠类型,模型的表现会明显下滑。宏基因组数据虽多,但仍有覆盖盲区。

3.「概念」不等于物理机制

论文用 Sparse Autoencoder 找到了 ESMC latent space 中可解释的概念方向(catalytic motif、beta barrel 等),但这些「概念」是统计结构的产物,不等于真正的物理机制。

4. Sergey Ovchinnikov(MIT)的评价

这位 AlphaFold 系列的核心贡献者说得中肯:ESMFold2 是补充,不是替代。AlphaFold3 在高精度小分子/离子结合、细节结构上仍然更强;ESMFold2 则在宏基因组泛化、高通量筛选、抗体设计上更有优势。


八、结语

如果你在找的是一个「速度够快、精度够用、开源可用」的结构预测工具,ESMFold2 值得你花时间了解。

它用 28 亿条序列训练出的语言模型直觉,配合 Diffusion Transformer 的生成能力,以及经过湿实验验证的抗体/复合物设计表现,证明了一条与 AlphaFold 不同的路线:不是更复杂的结构建模,而是更深的语言理解

蛋白质折叠的规律,也许真的写在那本 28 亿「句子」的语言书里。

GitHub 地址:github.com/EvolutionaryScale/ESMFold(已开源)

还想看什么?ESM Atlas 的使用指南、ESMFold2 与 AlphaFold3 的详细横评、或是抗体设计实操流程——哪篇先出,欢迎留言告诉我

-------------本文结束感谢您的阅读-------------