酶改造-03.蛋白各类性能预测相关的工具

置顶 | 发表于 2026-03-30 | 分类于知识

面向酶与聚合酶相关建模的公开序列、动力学、结构与深度突变扫描类数据资源汇总；补充各库数据信息维度、许可、使用注意与可复现下载链接。

0. 序列向量化嵌入模型

ProtT5-XL-Uniref50
该模型利用T5架构和30亿个参数对4.5亿条蛋白质序列进行了训练。与其他流行的蛋白质语言模型相比，该模型在多项下游任务中都取得了最优的性能。传统的获取节点特征的方法是依据蛋白质序列来确定的：即选择突变位点左右两侧的若干氨基酸作为节点。不过，从空间结构的角度来看，通过这种方式构建节点更为合理，因为突变会改变蛋白质周围分子的相互作用关系。
ESM2(facebool)

1. 序列相似性评估

MMseqs2

2. 结构相似性比对工具

Foldseek：van Kempen M, Kim SS, Tumescheit C. et al. Fast and accurate protein structure search with Foldseek. Nat Biotechnol 2024;42:243–6.
速度比alphafold快40~60倍。(DeepEnzyme 文章中描述)
US-align：Zhang C, Shine M, Pyle AM. et al. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods 2022;19:1109–15.

3. k_cat(催化活性)预测

DeepEnzyme: DeepEnzyme: a robust deep learning model for improved enzyme turnover number prediction by utilizing features of protein 3D-structures
基于序列和3d结构进行$k_cat$ 的预测
UniKP: a uniﬁed framework for the prediction of enzyme kinetic parameters
共发布了两个架构，UniKP是基于序列和底物特征进行Km预测， EF-UnikP在序列和底物特征的基础上增加了PH和温度信息，同时预测内容也增加了$Km$ 和 $K_cat$/$K_m$

4. 热稳定性

PON-Tm: A Sequence-Based Method for Prediction of Missense Mutation Effects on Protein Thermal Stability Changes
预测由突变引起的蛋白质热稳定性变化（ΔTm）

预测反应的最优PH

OphPred:Approaching Optimal pH Enzyme Prediction with Large Language Models.pdf
基于蛋白的序列信息，通过ESM2完成序列的向量化，进行最优反应ph的预测。

5. 预测突变影响

EnzyACT: A Novel Deep Learning Method to Predict the Impacts of Single and Multiple Mutations on Enzyme Activity
预测单一或多种突变对酶活性影响的新型深度学习方法，可以预测突变带来的酶功能增强/减弱

6.序列生成模型

ESM3: Simulating 500 million years of evolution with a language model
多模态生成模型，可以进行新蛋白的预测（生成新的蛋白序列，结构信息、关键功能等）。

-------------本文结束感谢您的阅读-------------