酶改造-04.模型架构-PLMs

1. PLMs 指什么

在生物信息学与酶工程语境下，PLMs 通常指 Protein Language Models（蛋白质语言模型）：把蛋白质序列视为「由氨基酸字母组成的文本」，用自然语言处理中成熟的 自监督学习 在大规模序列上预训练，再用于表征学习、结构预测、适应性（fitness）估计等下游任务。

它是一类方法论与模型族（如 ESM、ProtBERT/ProtT5 等），而不是某一个单一商业软件名称；工业界与论文中也常简称 PLM（与 NLP 里的「预训练语言模型」缩写相同，需结合上下文区分）。

2. 发表与演进（时间线概览）

阶段	代表工作	发布时间	要点
早期表征学习	UniRep 等基于 RNN/LSTM 的序列模型	2019-10（Nature Methods）	用无标签序列学习向量表示，为后续 Transformer 铺路
基准与任务标准化	TAPE（Tasks Assessing Protein Embeddings）	2019（NeurIPS 2019；arXiv:1906.08230）	统一评估二级结构、接触图、remote homology 等，推动可比性
BERT 路线	ProtBERT（Rostlab 等）	2020-07（bioRxiv，ProtTrans 总论文）	将 BERT 式 MLM 用于蛋白质序列
编码器–解码器 / T5 路线	ProtT5、ProtTrans 系列	2020-07（bioRxiv 10.1101/2020.07.12.199554；arXiv:2007.06225）	文本到文本框架，便于序列到序列任务
大规模缩放	ESM-1（Rives 等）	2021-04（PNAS；预印本约 2020-12）	规模化无监督学习，接触与结构信息从表征中涌现
大规模缩放	ESM-1b 与零样本突变效应	2021-12（NeurIPS 2021，Meier 等）	650M 参数量级 checkpoint 广泛沿用；零样本突变效应预测
高效通用 PLM	Ankh（Elnaggar 等，Rost 组）	2023-01（bioRxiv 10.1101/2023.01.16.524265；arXiv:2301.06568）	在远小于同期巨型 PLM 的参数量与算力下做架构与预训练策略优化；ProtTrans 路线延续，适合资源受限场景
规模化 PLM 与结构预测	ESM-2、ESMFold、ESM Metagenomic Atlas（Lin 等）	2023-03（Science，10.1126/science.ade2574；预印本 2022-07-20，bioRxiv:2022.07.20.500902）	多档至 15B 级 Transformer（ESM-2）；单序列原子级结构预测（ESMFold，不依赖 MSA）；宏基因组大规模结构图谱
酶动力学与改造	DeepEnzyme（Wang 等）	2023-12（bioRxiv 10.1101/2023.12.09.570923；Briefings in Bioinformatics 2024-08）	非通用预训练基座，而是面向 kcat 的监督学习：Transformer + 图卷积，融合序列与 3D 结构特征，并可评估点突变对催化活性的影响

综述类文献（例如近年 arXiv 上对 protein language models 的系统综述）常从架构、位置编码、缩放律、数据集与下游应用几方面整理 PLM 全貌，适合作为文献入口。

3. 框架结构（典型 PLM 在做什么）

绝大多数 PLM 共享同一套 NLP Transformer 骨架，差异主要在目标函数与是否因果。

3.1 骨干网络

自注意力（Multi-Head Self-Attention）：全序列建模长程依赖（活性位点、远端接触等）。
前馈层 + 残差 + LayerNorm：与 BERT/GPT 类模型结构同族。
位置信息：一维序列位置编码（可学习或正弦等），把「序列顺序」注入模型。

3.2 预训练目标（最常见两类）

掩码语言建模（MLM，BERT/ESM-2 类）
随机遮盖部分氨基酸，根据上下文预测被掩位置的真实残基类型。强调双向上下文，适合提取整条序列的表征。
因果语言建模（CLM，自回归类）
按序列方向预测下一个氨基酸。更贴近「生成」设定，部分工作研究蛋白质上的 scaling laws 时会对比 MLM 与 CLM。

3.3 输入表示

词表通常以 20 种标准氨基酸为主，外加特殊 token（起始、掩码、未知等）；部分模型将稀有残基映射到 X 等统一符号。
序列长度上限由显存与训练策略决定（常见数百到上千残基；长序列会配合截断、滑动窗口或 Longformer 类思路，依具体实现而定）。

3.4 输出怎么用

序列级：池化得到整条酶的嵌入向量，用于分类、聚类、相似度检索。
残基级：每个位置一个向量，用于接触预测、溶剂可及性、突变效应（如用 embedding 差分或专用头）。
与结构/功能头结合：在 PLM 之上接小型网络做微调或零样本启发式评分。

4. 模型参数与代表模型族（量级与可复现资源）

以下为文献与官方发布中常见的数量级（具体层数、hidden size、checkpoint 名称以各模型 Card 为准）。

系列	参数量级（示例）	备注
ESM-2	约 8M～15B 等多档 checkpoint	家族内从小到大多规格，便于在精度与算力间折中；大模型用于更强表征与 ESMFold 相关研究
ProtBERT	约 420M 量级（BERT-large 类配置）	Hugging Face `Rostlab/prot_bert` 等便于直接调用
ProtT5	较大 T5 变体（如 XL 档）	ProtTrans 项目中多模型并行发布
Ankh（Base / Large 等）	刻意小型化的通用 PLM（论文称在显著更少参数下达到有竞争力表现，具体以 Hugging Face 卡为准）	Rost 组在 ProtBERT/ProtT5 之后的「高效」路线；`agemagician/Ankh`

选择建议（实践向）：先从中等体量 ESM-2、ProtBERT 或 Ankh 做基线，再按需换大模型；聚合酶等长序列酶需注意最大长度与批大小对显存的限制。

5. 训练数据（从哪来、长什么样）

PLM 的通用范式是：无监督或弱监督、海量序列。

常见数据来源包括：

UniRef（如 UniRef50/UniRef100）：聚类去冗余后的序列库，控制冗余度、扩大覆盖。
BFD（Big Fantastic Database） 等宏基因组补充数据：提升多样性，缓解对模式生物的过拟合。
部分研究在 数亿～数十亿条序列、千亿级氨基酸 token 规模上讨论 scaling law 与算力最优训练。

数据预处理通常包括：去重、按相似度聚类、长度过滤、以及（在部分工作中）与结构数据库对齐用于多任务学习——纯序列预训练仍是最普遍的配置。

6. 训练成果（模型到底学到了什么）

6.1 在标准基准上的表现

在 TAPE 等任务上，PLM 嵌入在接触预测、远程同源性、二级结构等任务上相对早期手工特征与浅层模型有明显提升；不同 PLM 互有胜负，与模型大小、微调方式、任务是否匹配强相关。

6.2 表征层面的发现

层次语义：较深层往往更偏向功能与结构 motif；有工作指出取中间层或多层融合有时优于仅用最后一层。
与进化信息的关系：大模型在一定程度上内隐地编码共进化与约束，故可用于突变效应排序、稳定性粗估等。

6.3 与结构预测结合

ESMFold 等表明：在足够规模下，单一序列输入即可推断合理折叠，极大加速宏基因组蛋白的结构覆盖；ESM Metagenomic Atlas 类资源为未知蛋白家族提供了可检索的结构假设。

7. 应用领域（与酶改造的直接关系）

应用方向	说明
序列嵌入与相似度检索	用 PLM 向量做聚类、同源家族划分、候选序列库筛选。
突变效应与适应性预测	零样本或轻量微调：对位点突变打分，辅助定向进化位点优先级排序。
稳定性与可溶性	作为特征输入下游回归/分类模型，或与实验数据联合建模。
结构先验	对接 Alphafold2、ESMFold 等，为聚合酶催化域、指状结构域等提供初始结构假设。
功能注释与定位	结合 ProtBERT/ProtT5 文献中的任务：亚细胞定位、膜蛋白 vs 可溶蛋白等，辅助重组表达设计。
聚合酶专项	在保真度（fidelity）、延伸速率、热稳定性、引物延伸等目标上，PLM 常作为通用序列先验，与实验筛选、高通量测序标签联合使用；具体聚合酶变体仍需实验验证。
高效嵌入与下游	Ankh 等轻量 PLM 可在有限 GPU 上提取序列嵌入，再接任务头做分类、生成或变异分析。
周转数与催化效率	DeepEnzyme 针对 kcat（及突变效应）显式建模，序列 + 结构联合输入，与「仅序列 PLM」互补；适用于关心催化周转的酶改造评估（含聚合酶相关催化步骤的类比思路，仍以任务定义与数据为准）。

8. 小结

PLMs 是以 Transformer + 大规模蛋白质序列自监督预训练为核心的技术体系，ESM-2、ProtBERT、ProtT5、Ankh 等是开放权重中较常用的代表；酶学场景还可对接 DeepEnzyme 等序列–结构联合的监督模型以预测 kcat 等动力学指标。
框架上主要是 MLM 或 CLM 目标 + 可缩放 Transformer；参数从百万级到百亿级可选；数据以 UniRef/BFD/宏基因组等海量序列为主。
成果体现在基准任务、隐式结构/进化信息、以及与折叠模型结合的大规模结构资源。
在 酶与聚合酶改造中，PLM 适合作为序列表征与突变优先级的通用引擎，与实验与领域指标（见本系列其他篇）结合使用最为稳妥。

9. 延伸阅读（检索关键词）

论文关键词：protein language model, ESM-2, ProtBERT, ProtTrans, Ankh, DeepEnzyme, kcat, TAPE benchmark, ESMFold, zero-shot protein fitness
开源实现：GitHub facebookresearch/esm，Hugging Face Rostlab/prot_*，agemagician/ProtTrans，agemagician/Ankh，hongzhonglu/DeepEnzyme

本系列：评估指标 · 筛选脉络 · 开源数据