酶改造-modelpaper-UniKP

1. 文献信息

题目：UniKP: a unified framework for the prediction of enzyme kinetic parameters
期刊：Nature Communications，2023 年 12 月 11 日；卷 14，文章号 8211
DOI：https://doi.org/10.1038/s41467-023-44113-1
开放获取：PMC PMC10713628，PMID 38081905
通讯作者：深圳先进技术研究院等，罗小洲（Xiaozhou Luo） 等
并列一作：余晗（Han Yu）、邓华祥（Huaxiang Deng）

酶动力学参数主要包括周转数（turnover number，k_cat）、米氏常数（Michaelis constant，K_m） 以及二者比值表示的催化效率（catalytic efficiency，k_cat/K_m）。UniKP 的目标是从蛋白质序列与底物结构出发，在统一框架内同时提升上述量的预测精度，并衍生 EF-UniKP（考虑 pH、温度等环境因素）与高 k_cat 区间的样本重加权策略。

段末注释：k_cat 为饱和底物下每活性位点每秒转化底物数的上限；K_m 为半饱和底物浓度；k_cat/K_m 综合反映底物亲和力与催化速率（同一底物比较时常用）。

2. 研究动机与定位

UniProt 等序列库规模达数亿条，而 BRENDA、SABIO-RK 等中实验测得的 k_cat、K_m 仅数万量级，标注稀疏制约代谢工程、定向进化等应用。既有工作往往分别预测 k_cat 或 K_m，再用独立模型结果相除得到 k_cat/K_m，与直接实验测定的 k_cat/K_m 一致性差（文中展示相关系数可接近 0）。此外，pH、温度等环境因子影响显著，而多数模型未显式纳入。

UniKP 的定位是：**用预训练语言模型分别编码酶序列与小分子底物，再拼接为固定维向量，由可解释的集成学习（以 极端随机树（Extremely Randomized Trees，Extra Trees） 为主）统一拟合 k_cat、K_m 或 k_cat/K_m，从而在「小样本、高维特征」条件下取得优于纯端到端深度网络（在作者对比设定下）的泛化表现。

段末注释：Extra Trees 与随机森林同属树集成，但在划分点选择上引入更强随机性，常能降低方差；此处强调作者系统比较后选用该基学习器。

3. 框架概览（对应原文 Fig. 1）

UniKP 由 表征模块（representation module） 与 机器学习模块（machine learning module） 组成。

3.1 酶序列表征：ProtT5-XL-UniRef50

使用 ProtT5 系列的 ProtT5-XL-UniRef50 预训练模型（ProtTrans 路线），将每个氨基酸残基映射为最后一层隐藏状态上的 1024 维向量。
对整条序列做 平均池化（mean pooling） 得到 1024 维整条蛋白表征（作者引用指出 mean pooling 对「整条蛋白」级任务效果较好）。

3.2 底物表征：SMILES Transformer

底物以 SMILES（Simplified Molecular Input Line Entry System，SMILES） 表示，输入预训练的 SMILES Transformer（Honda 等）。
每个 SMILES 符号对应最后一层 256 维向量；将最后一层的 mean pooling 与 max pooling，以及倒数第二层与最后一层的「首位置输出」等拼接，得到 1024 维分子级表征（与原文 Fig. 1b 一致）。

段末注释：SMILES 为线性分子编码；mean/max pooling 将变长序列压成定长向量。

3.3 读出层：Extra Trees 等

将 1024（酶）+ 1024（底物）= 2048 维向量拼接后，输入下游回归器。作者在 16 种经典机器学习模型与 2 种深度学习基线（CNN、RNN）上做了系统比较（原文 Fig. 2），在默认超参、未针对集成学习细致调参的前提下，Extra Trees 的 R² 等指标最高（k_cat 任务五折交叉验证示例中 Extra Trees R² ≈ 0.65，而线性回归约 0.38，CNN/RNN 表现较弱）。作者讨论认为：数据规模约 10⁴、特征维 2048，树模型更适合「高维、小样本」且无需大量调参；深度网络则更依赖标注规模与结构设计。

3.4 表征必要性（t-SNE）

作者将仅拼接的 2048 维向量做 t-SNE（t-distributed stochastic neighbor embedding，t-SNE） 可视化，显示其对高/低 k_cat 区分度不足（Supplementary Fig. 1），从而说明必须依赖后续机器学习模块而非仅靠表征拼接。

段末注释：t-SNE 为非线性降维可视化工具，用于观察聚类与可分性。

文献原图（Fig. 1）：UniKP 总览——ProtT5 序列支路、SMILES Transformer 底物支路、Extra Trees 预测 k_cat、K_m、k_cat/K_m，以及 EF-UniKP 与重加权扩展。（图源：Yu 等，Nat Commun 2023，PMC 10713628，CC BY 4.0）

Fig. 1. The overview of UniKP.

4. 详细 Methods：数据集与预处理

4.1 DLKcat（k_cat 主实验）

来源与 DLKcat 论文一致：自 BRENDA、SABIO-RK 等整理的酶–底物–k_cat。
剔除底物 SMILES 含 「.」（多组分）或 k_cat ≤ 0 的样本后，共 16 838 条；k_cat 取对数刻度建模。
划分：90% 训练 / 10% 测试，随机重复 5 次，与 DLKcat 原文可比。

4.2 pH 与温度数据集（EF-UniKP）

酶序列、底物名及 pH 或反应温度来自 UniProt；底物结构由 PubChem 检索并转 SMILES。
pH 集：636 条，pH 约 3–10.5；温度集：572 条，约 4–85 °C。
独立划分：80% 训练 / 20% 测试（EF-UniKP 训练另有子划分，见 §6）。

4.3 K_m 数据集

采用 Kroll 等 PLoS Biol. 2021 中 11 722 条天然酶–底物 K_m 数据；底物改为 SMILES 表示，K_m 取 log₁₀；80/20 划分与原文对齐。

4.4 k_cat/K_m 数据集

自 BRENDA、UniProt、PubChem 整理 910 条酶序列、底物结构与实验 k_cat/K_m；五折交叉验证评估。

5. 原文 Methods：UniKP 与 EF-UniKP 的构建

5.1 实现环境

PyTorch 1.10.1+cu113，scikit-learn 0.24.2（表征与训练管线）；部分对比实验使用 sklearn 1.1.1。硬件：Ubuntu 20.04，64 核 CPU，4× NVIDIA GeForce RTX 3080（文内训练使用单核单卡）。

5.2 机器学习模块的模型清单（原文）

16 种机器学习：线性回归、Ridge、Lasso、Bayesian Ridge、Elastic Net、决策树、支持向量回归（Support Vector Regression，SVR）、K 近邻回归、随机森林、梯度提升、Extra Trees、AdaBoost、Bagging、XGBoost、LightGBM、浅层 MLP Regressor（视作传统机器学习）。
CNN：一维卷积（16 通道、核 3）+ MaxPool + 全连接（16×1023 → 64 → 1）。
RNN：输入维 2048，128 隐藏单元，1 层 RNN + 两层全连接（128→64→1）。
深度学习训练：Adam，学习率 1×10⁻⁴，损失 MSE，batch size 8192，PyTorch 1.10.1。

5.3 EF-UniKP（两层框架）

底层：模型 A 为在无环境标签的 DLKcat 上训练的 UniKP；模型 B 为 Revised UniKP，输入为酶+底物表征再拼接标量 pH 或温度，同样用 Extra Trees。
元学习层：以 A、B 输出的 k_cat 预测值为特征，训练线性回归融合为最终 k_cat。
训练数据划分：在 pH/温度 全集上先 80% 训练 / 20% 测试；训练部分再分为 64% / 16% 两段：第一段训练 Revised UniKP，第二段结合两底层输出训练元层线性模型。测试在剩余 20% 上评估；随机划分重复 3 次取平均以降低划分偶然性。

5.4 高 k_cat 样本重加权

针对 k_cat 标签分布近似正态、高值端样本少的问题，比较 DMW、CSW、CBW、LDS 四类代表性重加权（见 Yang 等 ICML 2021 不平衡回归脉络）。
DMW：直接提高 log k_cat > 4 样本权重，网格搜索倍率 2–100 等，最优约为权重 ×10 且不做归一化等（原文 Methods 细述 12 组组合）。
CSW：按 131 个等宽区间计数，root CSW 等变体中 root CSW 较优。
CBW：有效样本数 (E_n=(1-\beta^n)/(1-\beta))，β 网格搜索后 0.9 最优。
LDS：对标签经验分布与高斯核卷积得平滑密度；核宽 5、σ=1 较优。

5.5 评价指标（原文 Eq. 1–4）

R²、PCC、RMSE、MAE（mean absolute error，MAE）；变量记号 y^e_i（实验）、y^p_i（预测）等见论文。

5.6 可解释性：SHAP

对测试集上训练好的 UniKP（TreeExplainer）计算 SHAP（SHapley Additive exPlanations，SHAP） 值，分析 2048 维中酶相关维与底物相关维的贡献（原文 Fig. 3f：Top 20 特征中多数来自酶嵌入）。

5.7 湿实验与挖掘协议（节选）

BLASTp：以 RgTAL 为查询，nr 库取 E-value 排序前 1000，默认 BLOSUM62、word size 5、expect 0.05。
动力学测定与 HPLC 条件见原文 Methods（缓冲液、波长、梯度等）。

段末注释：SHAP 基于合作博弈 Shapley 值解释单条预测中各特征的边际贡献。

6. 主要结果（概括）

6.1 k_cat：相对 DLKcat

五轮随机划分测试集平均 R² ≈ 0.68，较 DLKcat 报告值高约 20%；测试集 PCC ≈ 0.85；更严格「酶或底物未在训练中出现」子集上 PCC 亦优于 DLKcat（原文 Fig. 3、Supplementary Fig. 2）。
与实验几何均值对照（用于讨论数据泄漏）显示 UniKP 更优（Supplementary Fig. 3）。

文献原图（Fig. 2）：16+2 种模型在 RMSE、PCC、MAE、R² 上的对比（五折交叉验证）。

Fig. 2. Performance comparison of different models.

文献原图（Fig. 3）：与 DLKcat 的 R²、RMSE、测试集散点、分 k_cat 区间 RMSE、代谢路径分类 t 检验、SHAP 等。

Fig. 3. High accuracy of UniKP in enzyme kcat prediction.

6.2 野生型与突变体

测试集：野生型 PCC ≈ 0.78，突变体 ≈ 0.91；整体优于 DLKcat（原文 Fig. 4）。

文献原图（Fig. 4）：野生型 / 突变体散点及 PCC 柱状对比。

Fig. 4. UniKP markedly discriminates kcat values of enzymes and their mutants.

6.3 EF-UniKP

Revised UniKP 在 pH、温度集上单独已有一定 PCC/R²；EF-UniKP 在独立测试集上多数指标优于单层 UniKP 或 Revised UniKP，在「酶或底物未出现于训练」子集上仍保持优势（原文 Fig. 5）。

文献原图（Fig. 5）：EF-UniKP 结构示意图及 pH/温度 性能。

Fig. 5. A two-layer framework considering environmental factors.

6.4 重加权与 K_m、k_cat/K_m

CBW 对 log k_cat > 4 的高值子集 RMSE 改善约 6.5%（相对初始 UniKP）。
K_m：测试集 R² ≈ 0.53，PCC ≈ 0.73，与当时最强基线可比或更优。
k_cat/K_m：PCC ≈ 0.81，R² ≈ 0.65；用「独立 k_cat 预测 ÷ 独立 K_m 预测」计算的比值与实验 k_cat/K_m 几乎无相关（PCC ≈ −0.02），凸显对 k_cat/K_m 做统一建模（而非两模型商）的必要性。

文献原图（Fig. 6）：k_cat 分布、逐样本误差、重加权 RMSE、K_m 与 k_cat/K_m 结果。

Fig. 6. Re-weighting, Km and kcat/Km predictions.

6.5 应用：酪氨酸解氨酶（TAL）

挖掘：BLASTp 前 1000 条中用 UniKP 预测 k_cat，实验验证 AsTAL 等（原文 Table 1）。
定向进化：单点饱和 19×693 = 13 167 突变体 in silico 筛选，发现 k_cat/K_m 显著提升的突变体。
EF-UniKP：在 pH 9.5 等条件下对 TALclu 类似策略挖掘，HiTAL、TrTAL 等动力学优于野生型对照。

7. 与 DeepEnzyme、DLKcat 等的关系（阅读笔记）

DLKcat：UniKP 使用同一 DLKcat 数据管线做主对比，强调预训练序列/分子表征 + 浅层集成学习相对 DLKcat 卷积式深度模型的增益。
DeepEnzyme（Brief Bioinform 2024）：在 DeepEnzyme 讨论中指出，UniKP 在部分指标上精度更高，但 DeepEnzyme 在突变效应定性排序等任务仍有特点，且结构已给定时 DeepEnzyme 推理可快数个数量级——二者取舍取决于是否需要三维结构、算力预算与任务类型。

8. 局限（原文 Discussion 归纳）

标注量相对序列宇宙仍极少；高 k_cat 预测经重加权仅适度改善，未来可结合 SMOTE 等过采样与迁移/强化学习等。
k_cat 与 K_m 若未来有同一批实验成对测定的统一大数据，「分别预测再相除」与「直接预测 k_cat/K_m」的差距可能缩小。
利益冲突声明见原文（作者与生物科技公司关系）。

9. 代码、数据与补充材料

代码与说明：https://github.com/Luo-SynBioLab/UniKP
预训练与权重：仓库说明需另行下载 ProtT5-XL-UniRef50（Zenodo 等链接见 README）、SMILES Transformer（DSPsleeporg/smiles-transformer），以及 UniKP 推理权重（Hugging Face：HanselYu/UniKP）。输出为 log₁₀ 尺度时需按说明反变换回物理单位。
Zenodo 归档：https://doi.org/10.5281/zenodo.10115498（正文 Data availability 亦出现 10.5281/zenodo.1011549853 写法，以作者仓库与 Zenodo 页面为准）
PDF（PMC）：https://pmc.ncbi.nlm.nih.gov/articles/PMC10713628/pdf/41467_2023_Article_44113.pdf
补充信息：Supplementary PDF
Source Data：ZIP

10. 与酶改造实践的关联（一句话）

需要同时关心 k_cat、K_m 与 k_cat/K_m、且希望仅用序列 + 底物 SMILES（无需先算蛋白三维结构）时，UniKP 是当前文献中较完整的统一管线；若强调远缘序列下的结构先验或位点级解释，可并列参考 DeepEnzyme 等结构增强模型。