0. 序列向量化嵌入模型
- ProtT5-XL-Uniref50
该模型利用T5架构和30亿个参数对4.5亿条蛋白质序列进行了训练。与其他流行的蛋白质语言模型相比,该模型在多项下游任务中都取得了最优的性能。传统的获取节点特征的方法是依据蛋白质序列来确定的:即选择突变位点左右两侧的若干氨基酸作为节点。不过,从空间结构的角度来看,通过这种方式构建节点更为合理,因为突变会改变蛋白质周围分子的相互作用关系。 - ESM2(facebool)
1. 序列相似性评估
- MMseqs2
2. 结构相似性比对工具
- Foldseek:van Kempen M, Kim SS, Tumescheit C. et al. Fast and accurate protein structure search with Foldseek. Nat Biotechnol 2024;42:243–6.
速度比alphafold快40~60倍。(DeepEnzyme 文章中描述) - US-align:Zhang C, Shine M, Pyle AM. et al. US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes. Nat Methods 2022;19:1109–15.
3. k_cat(催化活性)预测
- DeepEnzyme: DeepEnzyme: a robust deep learning model for improved enzyme turnover number prediction by utilizing features of protein 3D-structures
基于序列和3d结构进行$k_cat$ 的预测 - UniKP: a unified framework for the prediction of enzyme kinetic parameters
共发布了两个架构,UniKP是基于序列和底物特征进行Km预测, EF-UnikP在序列和底物特征的基础上增加了PH和温度信息,同时预测内容也增加了$Km$ 和 $K_cat$/$K_m$
4. 热稳定性
- PON-Tm: A Sequence-Based Method for Prediction of Missense Mutation Effects on Protein Thermal Stability Changes
预测由突变引起的蛋白质热稳定性变化(ΔTm)
预测反应的最优PH
- OphPred:Approaching Optimal pH Enzyme Prediction with Large Language Models.pdf
基于蛋白的序列信息,通过ESM2完成序列的向量化,进行最优反应ph的预测。
5. 预测突变影响
- EnzyACT: A Novel Deep Learning Method to Predict the Impacts of Single and Multiple Mutations on Enzyme Activity
预测单一或多种突变对酶活性影响的新型深度学习方法,可以预测突变带来的酶功能增强/减弱
6.序列生成模型
- ESM3: Simulating 500 million years of evolution with a language model
多模态生成模型,可以进行新蛋白的预测(生成新的蛋白序列,结构信息、关键功能等)。