蛋白 Embedding 指将氨基酸序列(或序列 + 结构/功能上下文)映射为稠密向量或逐残基表征,供同源检索、突变效应排序、功能注释、稳定性预测等任务使用。主流实现来自 蛋白质语言模型(Protein Language Model,PLM)——如 ESM-2、ProtBERT、ProtT5、Ankh 等——而非通用文本 Embedding(BGE、OpenAI text-embedding 等)。
通用文本 Embedding 的 MTEB 评测框架见 Embedding-01.模型性能对比与评测方法;PLM 背景见 酶改造-04.模型架构-PLMs。本文专述蛋白域的评价标准、公开基准与常用实践。
缩写体例:缩写首次出现写「中文全称(English,ABB)」;段末 段末注释 释义;后文沿用缩写。
1. 先区分「评什么模型」
蛋白相关模型常被混称「Embedding 模型」,但评测目标与接口不同,不可横向比单一分数:
| 类型 | 代表 | 主要输出 | 典型评测 |
|---|---|---|---|
| 序列 PLM | ESM-2、ProtBERT、ProtT5、Ankh | 残基/序列向量、MLM logits | TAPE、ProteinGym、相似度检索 |
| 突变效应专精 | ESM-1v、ESM-2 零样本打分 | 突变有害性/适应度排序 | DMS Spearman、AUC |
| 结构预测 | ESMFold、AlphaFold2 | 三维坐标、pLDDT | TM-score、lDDT(见结构预测篇) |
| 逆折叠 | ESM-IF1、ProteinMPNN | 给定骨架的序列 | 序列恢复率、天然性 |
| 酶动力学监督 | DeepEnzyme 等 | $k_{\mathrm{cat}}$、$K_m$ 回归 | $R^2$、Spearman(非通用 PLM 基准) |
核心原则:序列表征 PLM 评的是嵌入空间是否编码进化与结构约束;结构模型评的是坐标准确度——二者互补,不能用一个排行榜替代另一个。
段末注释:PLM 在蛋白序列上做自监督预训练;MLM(Masked Language Modeling,掩码语言建模)为遮盖残基再预测的训练目标;logits 为模型对各氨基酸类别的未归一化打分。
2. 评测维度总览

图 1 蛋白 Embedding 评测维度:序列表征质量、结构/功能探针、进化与突变效应、公开基准与酶工程自有数据共同决定选型;ESMFold 结构分数不能替代 PLM 嵌入分数。
| 维度 | 典型指标 | 适用场景 |
|---|---|---|
| 表征探针 | Q3/Q8、Top-$L$ contact、Remote homology Acc | 检验嵌入是否含结构与进化信息 |
| 突变/适应度 | Spearman $\rho$、AUC、NDCG@$k$ | 定向进化、DMS 辅助排序 |
| 序列相似度 | 余弦相似度、家族内/跨家族检索 | 同源库筛选、聚类 |
| 功能回归 | $R^2$、Spearman(稳定性、荧光等) | 代理任务,非酶活本身 |
| 酶工程落地 | 与实验读数(保真度、$k_{\mathrm{cat}}$、热稳定)相关 | 自有 DMS / 筛选数据 |
| 工程 | 最大序列长度、ms/残基、显存 | 长酶、批量 encode |
3. 表征提取协议(对比前必须统一)
同一 PLM 的不同取法,TAPE 分数可差数个百分点。论文与内部报告须写清:
| 协议项 | 常见选择 | 影响 |
|---|---|---|
| 表征层级 | 最后一层 / 中间层(如 ESM-2 第 33 层)/ 多层加权 | 结构任务常中间层更优 |
| 池化 | 均值池化、CLS token、仅活性位点残基 | 序列级 vs 位点级任务 |
| 微调 | 冻结 + 线性探针 / 全参数微调 / LoRA | 「零样本」与「微调」不可混报 |
| 序列截断 | 头截断、尾截断、居中窗口 | 长聚合酶常丢结构域 |
| MSA | 单序列 vs 含 MSA 的模型 | AlphaFold 系与纯 PLM 输入不同 |
| 随机种子 | 探针训练 seed、数据划分 | 小数据集方差大 |
序列级嵌入(整条酶一个向量):
[
\mathbf{e}{\mathrm{seq}} = \frac{1}{L}\sum{i=1}^{L} \mathbf{h}_i
]
其中 $\mathbf{h}_i$ 为第 $i$ 个残基的 hidden state,$L$ 为有效序列长度(不含 special token 依实现而定)。
残基级嵌入用于接触预测、位点突变、活性口袋分析:直接取 $\mathbf{h}_i$,或拼接 $(\mathbf{h}_i, \mathbf{h}_j)$ 预测残基对关系。
段末注释:MSA(Multiple Sequence Alignment,多序列比对)将同源序列按位对齐;CLS 为部分模型插入的聚合 token。
4. 公开基准与评价标准
4.1 TAPE — 蛋白质嵌入经典探针集
蛋白质嵌入评估任务集(Tasks Assessing Protein Embeddings,TAPE)是 PLM 领域最广泛引用的探针基准,不直接提供酶动力学标签。
| 子任务 | 标签类型 | 主指标 | 解读 |
|---|---|---|---|
| Secondary Structure | 每残基 Q3/Q8 | Accuracy、F1 | 局部构象是否编码 |
| Contact Prediction | 残基对接触(Cβ 距离 < 8 Å) | Precision@$L$、Top-$L$ | 共进化/长程依赖 |
| Remote Homology | fold / superfamily / family | Accuracy | 远缘分类,检验进化信号 |
| Fluorescence | 连续荧光强度 | Spearman $\rho$ | 稳定性代理,非酶活 |
| Stability | 熔解温度等 | Spearman $\rho$、MSE | 热稳定相关 |
Contact Prediction 常用 Top-$L/5$ 精度:对长度为 $L$ 的蛋白,取模型预测得分最高的 $L/5$ 对残基,计算其中真实接触的比例:
[
\mathrm{P@}L/5 = \frac{1}{L/5}\sum_{(i,j) \in \mathrm{Top}\text{-}L/5} \mathbb{1}[\text{contact}(i,j)]
]
Remote Homology 必须在官方 train/valid/test 划分上报告,防止同源泄漏。
- 代码:songlab-cal/tape
- 数据下载与字段说明见 酶改造-03.聚合酶筛选的开源训练数据汇总 §5
1 | # TAPE 探针示例(冻结 PLM + 线性头,以 secondary_structure 为例) |
段末注释:TAPE 由 Song 实验室提出;Q3/Q8 为 3 态/8 态二级结构分类;Remote Homology 测试远缘蛋白家族分类能力。
4.2 ProteinGym — 突变效应金标准
ProteinGym 汇总数百个 深度突变扫描(Deep Mutational Scanning,DMS)实验,是评估突变效应预测(含 PLM 零样本打分)的首选基准。
| 指标 | 含义 | 使用场景 |
|---|---|---|
| Spearman $\rho$ | 预测分与实验适应度排序相关 | 最常用,跨 assay 可比性较好 |
| AUC | 有害 vs 中性二分类 | cut-off 明确时 |
| NDCG@$k$ | Top-$k$ 突变是否富集高适应度 | 定向进化「先筛后测」 |
| MCC | Matthews 相关系数 | 类别不平衡 |
零样本 PLM 打分(以 MLM 对数似然比为例):对位点 $i$ 将野生型氨基酸 $a_{\mathrm{wt}}$ 换为突变 $a_{\mathrm{mut}}$,
[
s(i, a_{\mathrm{mut}}) = \log P(a_{\mathrm{mut}} \mid \mathbf{x}{\mathrm{mut}}) - \log P(a{\mathrm{wt}} \mid \mathbf{x}_{\mathrm{wt}})
]
$s$ 越负通常表示越「不符合」进化约束(常对应有害突变);与实验 fitness 的 Spearman 越高,模型越好。多位点需按论文约定累加或联合打分,不可与单点协议混比。
- 项目:proteingym.org
- GitHub:OATML-Markslab/ProteinGym
1 | # ESM-2 零样本突变打分示意(facebookresearch/esm) |
段末注释:DMS 通过高通量实验测定大量突变体适应度;fitness 为适应度或酶活等实验读数的统称;ProteinGym 不保证覆盖每种 DNA 聚合酶,酶种需自有验证。
4.3 FLIP 与其他补充基准
| 基准 | 侧重点 | 主指标 |
|---|---|---|
| FLIP | 功能性蛋白(稳定性、结合、溶解度等) | Spearman、AUC |
| ProteinNet | 结构接触(TAPE 子集来源之一) | P@L |
| SCOPe / CATH | 远程同源、折叠分类 | Accuracy |
| UniProt 子集 | 亚细胞定位、膜蛋白等 | Accuracy、F1 |
FLIP(Functional Landscape Inference Benchmark for Proteins)强调功能 landscape 上的泛化,与 TAPE 的「结构探针」、ProteinGym 的「DMS 深扫」形成互补。选型时建议:TAPE 看表征通用性 → ProteinGym 看突变排序 → FLIP 看功能任务 → 自有酶数据定终选。
5. 按下游任务选指标
5.1 序列检索与同源聚类
- Within-family retrieval:同一家族内 hold-out 序列能否召回近邻 → Recall@$k$、MRR。
- Clustering:按 CATH/SCOPe fold 聚类 → NMI、V-measure、ARI(Adjusted Rand Index)。
- 酶库筛选:以野生型或参考序列为 query,在突变库/同源库中找功能相近变体 → 报告 Recall@$k$ 与人工标注一致率。
相似度仍用余弦或 L2(归一化后等价):
[
\mathrm{sim}(\mathbf{e}_1, \mathbf{e}_2) = \frac{\mathbf{e}_1 \cdot \mathbf{e}_2}{|\mathbf{e}_1||\mathbf{e}_2|}
]
5.2 突变效应与定向进化
聚合酶改造中最常用 PLM 的场景。评价要点:
- 排序能力优先于绝对数值:Spearman、Top-10 富集实验阳性比例。
- 位点覆盖:活性位点、指状结构域、易错配 motif 分区报告。
- epistasis:单点高分组合不一定协同;多位点需单独 benchmark 或实验验证。
- 与实验读数对齐:保真度、延伸速率、热稳定、$k_{\mathrm{cat}}$ 等——PLM 零样本常只间接相关,必须在自有 DMS 或筛选数据上复测。
5.3 结构相关探针(非 ESMFold)
若只评 Embedding 是否含结构信息,用 TAPE Contact / SS,不要与 ESMFold 的 TM-score 混在一张「嵌入榜」里。结构准确度指标见 结构预测-01.结构准确度评价指标。
5.4 酶动力学(超出纯 PLM)
DeepEnzyme 等 序列 + 三维结构 监督模型预测 $k_{\mathrm{cat}}$、$K_m$,评测用回归 $R^2$、Spearman、RMSE——属于任务专用模型,不能用来否定或替代 ESM-2 在 ProteinGym 上的排名,反之亦然。
6. 零样本 vs 微调:两种评测协议
| 协议 | 做法 | 优点 | 局限 |
|---|---|---|---|
| 零样本 | 固定权重,logits/似然/嵌入距离直接打分 | 低成本、可复现、适合突变初筛 | 域外酶、非天然序列可能失效 |
| 线性探针 | 冻结 PLM,只训线性/MLP 头(TAPE 标准) | 隔离「表征质量」 | 不反映端到端微调潜力 |
| 全量微调 | 更新全部或部分 PLM 参数 | 下游任务上限高 | 易过拟合小数据;不同模型 lr/epoch 不可比 |
| LoRA / Adapter | 低秩适配 | 算力友好 | 需报告 rank 与训练步数 |
报告规范:标题须写明 zero-shot / linear probe / fine-tuned;ProteinGym 默认多报 zero-shot Spearman;TAPE 默认 linear probe on frozen embeddings。
7. 聚合酶 / 酶工程场景的落地评测
公开基准很少覆盖 Taq DNA 聚合酶等具体工业酶,推荐三层验证(类比 Embedding-01 的 Gold 集思路):
| 层级 | 内容 | 指标 |
|---|---|---|
| L1 公开基准 | TAPE + ProteinGym 子集 | 与社区可比 |
| L2 酶种 DMS | 自有或文献深扫(MaveDB、补充表) | Spearman、Top-$k$ 命中率 |
| L3 实验表型 | 保真度、错配模式、热稳定、processivity | 与 PLM 排序的 Kendall $\tau$ |
Hard negative(酶域特有):
- 同家族不同物种的保守 motif(序列高相似、功能不同);
- 催化域 vs 非催化结构域片段;
- 仅 1–2 个位点差异的变体对。
数据入口:酶改造-03.聚合酶筛选的开源训练数据汇总(ProteinGym、MaveDB、BRENDA);实验指标定义见 酶改造-01.聚合酶的评估指标。
8. 推荐对比流程

图 2 蛋白 PLM 评测流程:明确下游 → 固定表征协议 → 公开基准初筛 → 区分零样本/微调 → 酶种自有 DMS → 工程过滤 → 文档化。
Step 1 — 定任务:检索 / 突变排序 / 探针 / 结构先验(若结构先验,转 ESMFold/AlphaFold 指标)。
Step 2 — 固定协议:层级、池化、最大长度、单序列 vs MSA。
Step 3 — 公开基准:至少 1 个 TAPE 子任务 + ProteinGym Spearman(突变场景)或 FLIP(功能场景)。
Step 4 — 候选 3–5 个 PLM:ESM-2(650M/3B)、ProtT5、Ankh 等同量级对照。
Step 5 — 自有酶数据:200+ 突变或 50+ 实验验证变体再定终选。
Step 6 — 工程:报告 $L_{\max}$、encode 延迟、是否支持 batch 长序列。
9. 常见误区
| 误区 | 说明 |
|---|---|
| 用 MTEB 排名选 PLM | 文本语义与氨基酸语法空间不同 |
| ESMFold TM-score 当嵌入分 | 结构预测 ≠ 序列表征 |
| ProteinGym 均分代替酶种验证 | 子集不含目标酶时无参考价值 |
| 混报 zero-shot 与 fine-tuned | 提升来源不清 |
| 忽略序列长度截断 | 聚合酶常 > 800 aa,截断丢结构域 |
| 单点 PLM 分直接指导组合突变 | epistasis 需实验或专用模型 |
| 不同层/池化混比 | 中间层 contact 可能优于最后一层 |
10. 模型对比报告模板
| 模型 | 参数量 | TAPE SS Q8 | P@L/5 | ProteinGym $\rho$ | 自有 DMS $\rho$ | $L_{\max}$ | ms/1000aa |
|---|---|---|---|---|---|---|---|
| ESM-2 650M | 650M | 0.73 | 0.42 | 0.48 | 0.55 | 1024 | 850 |
| ProtT5 XL | 3B | 0.75 | 0.39 | 0.45 | 0.52 | 512 | 1200 |
| Ankh-Large | ~450M | 0.72 | 0.44 | 0.49 | 0.51 | 1024 | 420 |
附:checkpoint 版本、ESM 层号、池化方式、TAPE/ProteinGym split、GPU 型号、随机种子。
11. 工具链速查
| 工具 | 用途 |
|---|---|
| facebookresearch/esm | ESM 系列 encode、突变打分、ESMFold |
| songlab-cal/tape | TAPE 探针训练与评估 |
| OATML-Markslab/ProteinGym | DMS 基准与 leaderboard |
| agemagician/ProtTrans | ProtBERT / ProtT5 |
| FlagOpen/FlagEmbedding | 部分蛋白/多模 embed(需核对任务) |
| Hugging Face Transformers | 统一 AutoModel 接口 |
12. 小结
- 蛋白 Embedding 评测以 PLM 探针(TAPE)、突变效应(ProteinGym/FLIP) 与 酶种自有 DMS 三层为主;通用文本 MTEB 不能替代。
- 对比前必须固定 表征层级、池化、微调协议、序列长度;零样本与线性探针 分表报告。
- 聚合酶等工业酶:公开基准初筛 + 保真度/稳定性等实验读数验证;PLM 是优先级排序工具,不是活性真值。
- 结构预测(ESMFold/AlphaFold)与序列表征(ESM-2)联用常见,但分指标、分榜单评价。
系列:← Embedding-01 通用评测 · PLMs 架构 · ESM 框架详解 · 开源评测数据