1. PLMs 指什么
在生物信息学与酶工程语境下,PLMs 通常指 Protein Language Models(蛋白质语言模型):把蛋白质序列视为「由氨基酸字母组成的文本」,用自然语言处理中成熟的 自监督学习 在大规模序列上预训练,再用于表征学习、结构预测、适应性(fitness)估计等下游任务。
它是一类方法论与模型族(如 ESM、ProtBERT/ProtT5 等),而不是某一个单一商业软件名称;工业界与论文中也常简称 PLM(与 NLP 里的「预训练语言模型」缩写相同,需结合上下文区分)。
2. 发表与演进(时间线概览)
| 阶段 | 代表工作 | 发布时间 | 要点 |
|---|---|---|---|
| 早期表征学习 | UniRep 等基于 RNN/LSTM 的序列模型 | 2019-10(Nature Methods) | 用无标签序列学习向量表示,为后续 Transformer 铺路 |
| 基准与任务标准化 | TAPE(Tasks Assessing Protein Embeddings) | 2019(NeurIPS 2019;arXiv:1906.08230) | 统一评估二级结构、接触图、remote homology 等,推动可比性 |
| BERT 路线 | ProtBERT(Rostlab 等) | 2020-07(bioRxiv,ProtTrans 总论文) | 将 BERT 式 MLM 用于蛋白质序列 |
| 编码器–解码器 / T5 路线 | ProtT5、ProtTrans 系列 | 2020-07(bioRxiv 10.1101/2020.07.12.199554;arXiv:2007.06225) | 文本到文本框架,便于序列到序列任务 |
| 大规模缩放 | ESM-1(Rives 等) | 2021-04(PNAS;预印本约 2020-12) | 规模化无监督学习,接触与结构信息从表征中涌现 |
| 大规模缩放 | ESM-1b 与零样本突变效应 | 2021-12(NeurIPS 2021,Meier 等) | 650M 参数量级 checkpoint 广泛沿用;零样本突变效应预测 |
| 高效通用 PLM | Ankh(Elnaggar 等,Rost 组) | 2023-01(bioRxiv 10.1101/2023.01.16.524265;arXiv:2301.06568) | 在远小于同期巨型 PLM 的参数量与算力下做架构与预训练策略优化;ProtTrans 路线延续,适合资源受限场景 |
| 规模化 PLM 与结构预测 | ESM-2、ESMFold、ESM Metagenomic Atlas(Lin 等) | 2023-03(Science,10.1126/science.ade2574;预印本 2022-07-20,bioRxiv:2022.07.20.500902) | 多档至 15B 级 Transformer(ESM-2);单序列原子级结构预测(ESMFold,不依赖 MSA);宏基因组大规模结构图谱 |
| 酶动力学与改造 | DeepEnzyme(Wang 等) | 2023-12(bioRxiv 10.1101/2023.12.09.570923;Briefings in Bioinformatics 2024-08) | 非通用预训练基座,而是面向 kcat 的监督学习:Transformer + 图卷积,融合序列与 3D 结构特征,并可评估点突变对催化活性的影响 |
综述类文献(例如近年 arXiv 上对 protein language models 的系统综述)常从架构、位置编码、缩放律、数据集与下游应用几方面整理 PLM 全貌,适合作为文献入口。
3. 框架结构(典型 PLM 在做什么)
绝大多数 PLM 共享同一套 NLP Transformer 骨架,差异主要在目标函数与是否因果。
3.1 骨干网络
- 自注意力(Multi-Head Self-Attention):全序列建模长程依赖(活性位点、远端接触等)。
- 前馈层 + 残差 + LayerNorm:与 BERT/GPT 类模型结构同族。
- 位置信息:一维序列位置编码(可学习或正弦等),把「序列顺序」注入模型。
3.2 预训练目标(最常见两类)
掩码语言建模(MLM,BERT/ESM-2 类)
随机遮盖部分氨基酸,根据上下文预测被掩位置的真实残基类型。强调双向上下文,适合提取整条序列的表征。因果语言建模(CLM,自回归类)
按序列方向预测下一个氨基酸。更贴近「生成」设定,部分工作研究蛋白质上的 scaling laws 时会对比 MLM 与 CLM。
3.3 输入表示
- 词表通常以 20 种标准氨基酸为主,外加特殊 token(起始、掩码、未知等);部分模型将稀有残基映射到
X等统一符号。 - 序列长度上限由显存与训练策略决定(常见数百到上千残基;长序列会配合截断、滑动窗口或 Longformer 类思路,依具体实现而定)。
3.4 输出怎么用
- 序列级:池化得到整条酶的嵌入向量,用于分类、聚类、相似度检索。
- 残基级:每个位置一个向量,用于接触预测、溶剂可及性、突变效应(如用 embedding 差分或专用头)。
- 与结构/功能头结合:在 PLM 之上接小型网络做微调或零样本启发式评分。
4. 模型参数与代表模型族(量级与可复现资源)
以下为文献与官方发布中常见的数量级(具体层数、hidden size、checkpoint 名称以各模型 Card 为准)。
| 系列 | 参数量级(示例) | 备注 |
|---|---|---|
| ESM-2 | 约 8M~15B 等多档 checkpoint | 家族内从小到大多规格,便于在精度与算力间折中;大模型用于更强表征与 ESMFold 相关研究 |
| ProtBERT | 约 420M 量级(BERT-large 类配置) | Hugging Face Rostlab/prot_bert 等便于直接调用 |
| ProtT5 | 较大 T5 变体(如 XL 档) | ProtTrans 项目中多模型并行发布 |
| Ankh(Base / Large 等) | 刻意小型化的通用 PLM(论文称在显著更少参数下达到有竞争力表现,具体以 Hugging Face 卡为准) | Rost 组在 ProtBERT/ProtT5 之后的「高效」路线;agemagician/Ankh |
选择建议(实践向):先从中等体量 ESM-2、ProtBERT 或 Ankh 做基线,再按需换大模型;聚合酶等长序列酶需注意最大长度与批大小对显存的限制。
5. 训练数据(从哪来、长什么样)
PLM 的通用范式是:无监督或弱监督、海量序列。
常见数据来源包括:
- UniRef(如 UniRef50/UniRef100):聚类去冗余后的序列库,控制冗余度、扩大覆盖。
- BFD(Big Fantastic Database) 等宏基因组补充数据:提升多样性,缓解对模式生物的过拟合。
- 部分研究在 数亿~数十亿条序列、千亿级氨基酸 token 规模上讨论 scaling law 与算力最优训练。
数据预处理通常包括:去重、按相似度聚类、长度过滤、以及(在部分工作中)与结构数据库对齐用于多任务学习——纯序列预训练仍是最普遍的配置。
6. 训练成果(模型到底学到了什么)
6.1 在标准基准上的表现
在 TAPE 等任务上,PLM 嵌入在接触预测、远程同源性、二级结构等任务上相对早期手工特征与浅层模型有明显提升;不同 PLM 互有胜负,与模型大小、微调方式、任务是否匹配强相关。
6.2 表征层面的发现
- 层次语义:较深层往往更偏向功能与结构 motif;有工作指出取中间层或多层融合有时优于仅用最后一层。
- 与进化信息的关系:大模型在一定程度上内隐地编码共进化与约束,故可用于突变效应排序、稳定性粗估等。
6.3 与结构预测结合
ESMFold 等表明:在足够规模下,单一序列输入即可推断合理折叠,极大加速宏基因组蛋白的结构覆盖;ESM Metagenomic Atlas 类资源为未知蛋白家族提供了可检索的结构假设。
7. 应用领域(与酶改造的直接关系)
| 应用方向 | 说明 |
|---|---|
| 序列嵌入与相似度检索 | 用 PLM 向量做聚类、同源家族划分、候选序列库筛选。 |
| 突变效应与适应性预测 | 零样本或轻量微调:对位点突变打分,辅助定向进化位点优先级排序。 |
| 稳定性与可溶性 | 作为特征输入下游回归/分类模型,或与实验数据联合建模。 |
| 结构先验 | 对接 Alphafold2、ESMFold 等,为聚合酶催化域、指状结构域等提供初始结构假设。 |
| 功能注释与定位 | 结合 ProtBERT/ProtT5 文献中的任务:亚细胞定位、膜蛋白 vs 可溶蛋白等,辅助重组表达设计。 |
| 聚合酶专项 | 在 保真度(fidelity)、延伸速率、热稳定性、引物延伸 等目标上,PLM 常作为通用序列先验,与实验筛选、高通量测序标签联合使用;具体聚合酶变体仍需实验验证。 |
| 高效嵌入与下游 | Ankh 等轻量 PLM 可在有限 GPU 上提取序列嵌入,再接任务头做分类、生成或变异分析。 |
| 周转数与催化效率 | DeepEnzyme 针对 kcat(及突变效应)显式建模,序列 + 结构联合输入,与「仅序列 PLM」互补;适用于关心 催化周转 的酶改造评估(含聚合酶相关催化步骤的类比思路,仍以任务定义与数据为准)。 |
8. 小结
- PLMs 是以 Transformer + 大规模蛋白质序列自监督预训练为核心的技术体系,ESM-2、ProtBERT、ProtT5、Ankh 等是开放权重中较常用的代表;酶学场景还可对接 DeepEnzyme 等序列–结构联合的监督模型以预测 kcat 等动力学指标。
- 框架上主要是 MLM 或 CLM 目标 + 可缩放 Transformer;参数从百万级到百亿级可选;数据以 UniRef/BFD/宏基因组等海量序列为主。
- 成果体现在基准任务、隐式结构/进化信息、以及与折叠模型结合的大规模结构资源。
- 在 酶与聚合酶改造中,PLM 适合作为序列表征与突变优先级的通用引擎,与实验与领域指标(见本系列其他篇)结合使用最为稳妥。
9. 延伸阅读(检索关键词)
- 论文关键词:
protein language model,ESM-2,ProtBERT,ProtTrans,Ankh,DeepEnzyme,kcat,TAPE benchmark,ESMFold,zero-shot protein fitness - 开源实现:GitHub
facebookresearch/esm,Hugging FaceRostlab/prot_*,agemagician/ProtTrans,agemagician/Ankh,hongzhonglu/DeepEnzyme