训练或微调「预测酶活性、稳定性、动力学」类模型时,公开数据的许可、实验条件与目标蛋白家族是否匹配决定可迁移性。本篇按数据类型汇总常用资源;专门针对某一商品化 DNA 聚合酶的大规模统一标注数据集在公开域仍较分散,实际项目常需结合自测数据与下列通用资源。
相关笔记:动力学/功能预测模型若以底物 SMILES 为输入之一,见《酶改造-酶功能大模型与SMILES表征》(双支路架构、代表工作与清洗注意)。
维度多≠都有标签:序列库往往无实验活性,动力学库往往无结构,需多库 JOIN(以 UniProt ID、EC、PDB ID 等为键)。
| 维度类型 | 含义(建模时常对应的字段) |
|---|---|
| 标识与序列 | 接入号(如 UniProtKB AC)、氨基酸序列、异构体、物种 |
| 注释与分类 | 酶学委员会编号(Enzyme Commission number,EC)、基因本体(Gene Ontology,GO)、家族/结构域(InterPro/Pfam 等) |
| 动力学与条件 | 米氏常数(Michaelis constant,K_m)、催化常数(k_cat)、抑制常数(K_i)、测定 pH、温度、缓冲液、辅因子 |
| 结构 | 原子坐标、分辨率、实验方法、链/配体、置信度(预测结构) |
| 突变–效应 | 突变写法、适应度/活性分数、测定类型、亲本序列参照 |
| 交叉引用 | 指向 PDB、文献 PubMed ID(PMID)、其他数据库 ID |
段末注释:GO(Gene Ontology)描述分子功能/过程/定位;EC 为酶学委员会反应分类;PMID 为 PubMed 文献标识;K_m、k_cat 含义见 酶改造-01。
1. 序列与进化信息
UniProt
- 内容:蛋白质序列、功能注释、文献交叉引用;可与 Rhea、蛋白质数据银行(Protein Data Bank,PDB) 等互链。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| UniProtKB AC、Entry Name | 条目唯一标识与简称 | 与 BRENDA、PDB、AlphaFold DB 等互链时的主键之一 |
| Sequence(含 isoform) | 标准氨基酸单字母序列 | 异构体需看 Alternative sequence 段 |
| Protein names、Gene names | 推荐名与别名 | Swiss-Prot 审阅条目更完整 |
| EC number、GO、Keywords | 酶分类与功能注释 | 筛聚合酶时需核对 EC 是否为聚合/合成类 |
| Feature(FT) | 结构域、活性位点、PTM、自然变异位点 | 可做位点级特征或 mask |
| Cross-reference | PDB、RefSeq、PMID、Reactome 等 | 链到结构与文献,无统一动力学表 |
| Annotation source | Swiss-Prot(审阅)vs TrEMBL(自动) | 噪声与覆盖度不同,合并数据时建议记录 |
段末注释:PDB 为国际蛋白三维结构数据库;Rhea(Rhea DB)为代谢与酶反应注释库;PTM 为翻译后修饰。
- 检索与门户:https://www.uniprot.org/
- 下载总说明:https://www.uniprot.org/help/downloads
- FTP(当前 release 目录):https://ftp.uniprot.org/pub/databases/uniprot/current_release/
段末注释:REST(表述性状态转移)为无状态 HTTP 接口风格;API 为应用程序接口;FTP(文件传输协议,File Transfer Protocol)见下文 FTP 小节链接。
下载命令(示例)
1 | mkdir -p data/uniprot && cd data/uniprot |
UniRef50 / UniRef100
- 内容:聚类去冗余序列,常用于 蛋白质语言模型(Protein Language Model,PLM) 预训练或同源序列检索。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| Cluster ID(如 UniRef50_xxx) | 非冗余簇唯一标识 | 命名规则与版本随 UniProt release 更新 |
| Representative sequence | 簇代表氨基酸序列 | FASTA 头含簇 ID 与成员统计 |
| Member count、identity 阈值 | 簇规模与 50%/90%/100% 含义 | 详见 UniRef 帮助 |
| Taxonomy(若给出) | 代表序列物种信息 | 常用于过滤宏基因组噪声 |
| 注释继承 | 多数字段来自代表 UniProt 条目 | 非簇内每条序列独立审阅 |
段末注释:见 酶改造-04/05;UniRef50/100 为不同聚类阈值下的 UniProt 参考簇。
- 说明文档:https://www.uniprot.org/help/uniref
- FTP(UniRef FASTA 等):https://ftp.uniprot.org/pub/databases/uniprot/uniref/
下载命令(示例)
1 | mkdir -p data/uniref && cd data/uniref |
BFD(Big Fantastic Database)
- 内容:宏基因组导向的大规模蛋白序列聚类资源,多见于 AlphaFold / ColabFold / PLM 训练管线说明;体积极大。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| Cluster / representative ID | 宏基因组聚类与代表序列标识 | 以 bfd.mmseqs.com 当期包说明为准 |
| Amino acid sequence | 代表或成员蛋白序列 | 体量 TB 级,需磁盘与带宽规划 |
| Cluster size(若提供) | 簇内序列条数 | 用于过滤小簇 |
| (通常缺)EC / GO / K_m | 无系统手工注释 | 适用于 MSA、PLM 预训练、多样性增广,不直接作动力学监督 |
- 官方下载说明与镜像:https://bfd.mmseqs.com/
- MMseqs2 数据索引页:https://data.mmseqs.com/
下载命令(示例)
1 | mkdir -p data/bfd && cd data/bfd |
用途简述:构建同源家族 多序列比对(Multiple Sequence Alignment,MSA)、PLM 嵌入、序列相似度过滤时,以上三类是最常用的公开序列来源。
段末注释:MSA 为多条同源序列按列对齐的结果,是共进化与结构预测常用输入。
2. 酶动力学与功能参数
文献与数据
- Deep learning allows genome-scale prediction of Michaelis constants from structural features,项目仓库提供了训练数据,涵盖 BRENDA、SABIO
BRENDA
- 内容:手工整理的 Km、kcat、Ki 等及实验条件(pH、温度、底物等)。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| EC number、酶推荐名、反应 ID | 酶与反应条目归属 | 一酶可对应多反应、多文献值 |
| Substrate / Product | 底物与产物名称或结构 | 聚合酶任务需核对是否为 DNA/RNA 聚合 |
| Organism、来源组织/细胞器 | 生物物种与样本来源 | 影响跨物种迁移 |
| K_m、k_cat、K_i、k_cat/K_m 等 | 动力学参数数值与单位 | 同酶同底物可有多条文献,需保留引用 ID |
| pH、Temperature、缓冲液、离子强度 | 测定条件 | 建模作必要元数据,否则标签不可比 |
| Literature reference | 文献与 BRENDA 条目 ID | 追溯原始实验 |
| (缺)UniProt 序列 | 库内以酶条目为中心 | 需用 EC+物种 等与 UniProt 对齐序列 |
- 门户:https://www.brenda-enzymes.org/
- 数据下载页(JSON 等):https://www.brenda-enzymes.org/download.php
- 许可:以官网当前声明为准(常见为 CC BY 4.0 一类开放许可)。
下载命令(示例)
1 | mkdir -p data/brenda && cd data/brenda |
注:BRENDA 部分数据下载通常需要登录后选择文件,自动化下载以官网登录态与当期下载规则为准。
SABIO-RK
- 内容:结构化反应与动力学实验条目,支持多种导出格式。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| SABIO Reaction ID、Kinetic Law ID | 反应与动力学定律唯一标识 | 便于 API/TSV 批量导出 |
| Enzyme、Substrate、Product | 参与者与反应方向 | 可与 Rhea、ChEBI 映射 |
| Parameter name、value、unit | 如 K_m、k_cat、抑制常数 | 列结构较 BRENDA 更机器可读 |
| Kinetic mechanism | 如 Michaelis-Menten、抑制类型 | 建模时需与方程一致 |
| pH、Temperature、Buffer | 实验条件 | 与参数绑定存储 |
| Organism、Uniprot ID(若给出) | 物种与酶序列链接 | 有利于直接 JOIN 序列 |
| Publication | 文献 | 验证与去重 |
- 门户:https://sabiork.h-its.org/
- REST / Web Service 说明:https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/RESTWebserviceIntro.gsp
- Python 示例:https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/searchPython.gsp
下载命令(示例)
1 | mkdir -p data/sabiork && cd data/sabiork |
Rhea
- 内容:酶促反应本体、与 EC、ChEBI、UniProt 等映射,适合反应级标签或知识图。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| Rhea ID | 反应唯一标识 | 稳定 ID,适合知识图节点 |
| Equation、Direction | 反应式与方向 | 参与者用 ChEBI 化合物 ID |
| EC number | 与 IUBMB EC 映射 | 用于粗分类与与 BRENDA 对齐 |
| rhea2uniprot 等映射表 | 反应关联的 UniProt 酶 | 链到序列 |
| GO、Reactome 交叉引用 | 通路/功能注释 | 适合多任务标签,无动力学数值 |
| (无)K_m / k_cat | 不提供实验测定参数 | 需与 BRENDA/SABIO-RK 联用 |
- 门户:https://www.rhea-db.org/
- 下载页(Turtle/TSV 等):https://www.rhea-db.org/help/download
下载命令(示例)
1 | mkdir -p data/rhea && cd data/rhea |
聚合酶注意:BRENDA / SABIO 中条目按 EC、物种与反应式组织,训练模型时需核对底物是否为 DNA/RNA 聚合,避免错将其它水解/转移反应标成聚合酶任务。
3. 三维结构
PDB(wwPDB)
- 内容:实验解析结构;聚合酶家族可参考多条代表条目。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| entry.id(PDB ID) | 结构条目标识 | 4 字符,与 CATH/SCOPe 映射 |
| _atom_site.* | 原子坐标、元素、B-factor | mmCIF 为主流格式 |
| _exptl.method | X 射线、cryo-EM、NMR 等 | 影响分辨率解读 |
| _refine、_em_3d_reconstruction 等 | 分辨率、R-free 等质量指标 | 方法依条目类型不同 |
| _entity_poly、_pdbx_poly_seq_scheme | 聚合物序列、与 UniProt 映射 | 序列监督与对齐 |
| 非聚合物配体 | 离子、小分子、核苷酸片段等 | 对接与活性位点特征 |
| (无)突变–效应表 | 单条结构为野生型背景常见 | DMS 需另库 |
- 检索:https://www.rcsb.org/
- 批量数据(FTP):https://www.wwpdb.org/ftp/pdb-ftp-sites#sub-ftp-services(各中心镜像链接见该页)
下载命令(示例)
1 | mkdir -p data/pdb && cd data/pdb |
AlphaFold 蛋白质结构数据库(EBI)
- 内容:预测结构,覆盖大量 UniProt;无实验结构时作构象先验或接触约束(注意置信度与结构域)。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| UniProt Accession | 与预测模型一一对应 | 与序列/注释主键一致 |
| Coordinates(PDB / mmCIF) | 预测主链/全原子坐标 | 非实验结构 |
| pLDDT(predicted Local Distance Difference Test) | 每残基置信度 | 低分区段慎用几何特征 |
| PAE(Predicted Aligned Error) | 残基对误差矩阵 | 用于接触/域间不确定性 |
| Model version(如 v6) | 数据库与模型代次 | 与论文/管线版本对齐 |
| (无)实验 R-free | 无晶体学质量指标 | 与 PDB 混用时需标注来源 |
下载命令(示例)
1 | mkdir -p data/alphafold && cd data/alphafold |
CATH
- 内容:结构域与折叠分类,便于按家族划分训练/测试。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| domain_id | CATH 结构域唯一 ID | 与 PDB 链区间绑定 |
| pdb_id、chain、boundaries | 结构域在结构中的范围 | 用于切域与划分同源 |
| C、A、T、H | Class / Architecture / Topology / Homology | 四层分类层次 |
| superfamily_id | 超家族 | 常与功能模块对应 |
| S35/S60/S95/S100 等聚类 | 序列相似度聚类子集 | 版本见当期 release 说明 |
| (无)fitness / k_cat | 无突变与动力学标签 | 仅作 划分与泄漏控制 |
下载命令(示例)
1 | mkdir -p data/cath && cd data/cath |
SCOPe
- 内容:蛋白结构分类(与 CATH 类似用途,择一或交叉验证划分)。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| sunid | 分类树节点数字 ID | 与 dir.des、dir.cla 文件对应 |
| sccs、层次(Family / Superfamily / Fold / Class) | 结构分类路径 | 版本以发布文件名为准(如 2.08-stable) |
| PDB ID、chain、残基区间 | 与结构的映射 | 用于同源/远分划分 |
| description | 节点文字描述 | 辅助人工核对 |
| (无)动力学 / 突变 | 无酶活与 DMS 字段 | 与 CATH 类似用途 |
下载命令(示例)
1 | mkdir -p data/scope && cd data/scope |
与 DeepEnzyme 等「序列 + 结构」联合输入的管线对接时,需核对作者使用的结构来源(实验 vs 预测)与预处理脚本。
4. 深度突变扫描与突变效应基准
ProteinGym
- 内容:大规模 深度突变扫描(Deep Mutational Scanning,DMS) 替代/插入评分基准,用于训练或评估突变效应预测模型。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| wild_type_sequence / protein_id | 亲本序列或蛋白标识 | 与突变列联合唯一确定变体 |
| mutant、variant(记法依子集) | 单点/多点/插入缺失 | 各 subset HGVS 或自定义格式见基准说明 |
| score、fitness、label | 适应度或活性代理分数 | 量纲与归一化以 ProteinGym 文档为准 |
| assay、source | 测定类型与数据来源 | 深扫、文献汇总等,不可混比需分任务 |
| train/val/test split | 官方划分索引 | 防泄漏需严格遵循 |
| (覆盖)聚合酶 | 子集因版本而异 | 未必含目标 DNA 聚合酶 |
- 项目站:https://proteingym.org/
- GitHub:https://github.com/OATML-Markslab/ProteinGym
- Hugging Face 数据集(示例镜像):https://huggingface.co/datasets/OATML-Markslab/ProteinGym
下载命令(示例)
1 | mkdir -p data/proteingym && cd data/proteingym |
MaveDB
- 内容:存档多种 多重变异效应测定(multiplexed assays of variant effect,MAVE) 实验;可按目标蛋白检索是否有聚合酶相关研究。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| Target(基因/蛋白/序列) | 实验对象标识 | 站内检索聚合酶相关 target |
| Variant、hgvs 等 | 变异写法 | 与参考序列坐标系一致方可合并 |
| Score、functional score | 效应分数或选择系数 | 依 score set 与 assay 定义 |
| Score set、Experiment | 实验与分数集元数据 | 导出粒度常为 score set |
| Condition、文库类型 | 筛选条件、深度等 | 合并跨实验需标准化 |
| Publication、DOI | 文献与数据可用性 | 追溯原始 MAVE 设计 |
下载命令(示例)
1 | mkdir -p data/mavedb && cd data/mavedb |
注:MaveDB 常按 score set 单独导出,建议在站内定位目标条目后下载 TSV/CSV。
DMS 文献补充材料
- 内容:单篇论文 补充材料表(Supplementary Tables) 常含完整突变–适应度表;无统一中心时,宜通过期刊页面或 Zenodo / Figshare 数字对象标识符(Digital Object Identifier,DOI) 获取。
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| mutation、position、aa_change | 突变与位点 | 列名因期刊/作者而异,无统一 schema |
| fitness、enrichment、read count | 适应度、富集或测序计数 | 需读 Methods 理解符号与归一化 |
| replicate、batch | 生物学/技术重复 | 用于方差与质量控制 |
| selection condition、temperature 等 | 筛选或测定条件 | 与 ProteinGym 合并时必作元数据对齐 |
| reference sequence | 亲本或 WT 参照 | 与 UniProt 坐标不一致时需转换 |
| (获取)DOI、Supplementary file name | 附录与仓储链接 | 优先跟 Data availability |
- 综合数据集示例(VEP 相关汇总,非酶专一):https://github.com/allydunham/dms_mutations
下载命令(示例)
1 | mkdir -p data/dms && cd data/dms |
说明:ProteinGym 覆盖大量蛋白家族,未必含你关心的特定 DNA 聚合酶;可作通用预训练或迁移学习,再以自有筛选数据微调。
5. 通用蛋白质表征基准(非酶专一)
TAPE
- 用途:评估蛋白质迁移学习在二级结构、接触、remote homology 等任务上的表现;不直接提供酶动力学回归标签。
库内信息字段(按子任务;建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| sequence | 输入氨基酸序列 | 各任务共享 |
| secondary_structure 标签 | 每残基 Q8 或 Q3 态 | 序列到结构迁移任务 |
| remote_homology | fold、family、superfamily 等标签 | 含官方 train/valid/test 划分 |
| contact、distance | 残基对接触或距离二值/实值 | 接触预测任务 |
| fluorescence、stability | 连续值回归标签 | 非酶活性,为稳定性代理 |
| ProteinNet 衍生特征 | 依仓库预处理脚本 | 路径以 TAPE README 为准 |
| (无)k_cat / 错配率 | 无酶动力学标签 | 不能替代 BRENDA 类监督 |
- GitHub(任务定义与数据获取脚本):https://github.com/songlab-cal/tape
具体 预处理后数据路径 以仓库 README 与 release 说明为准(部分任务需按脚本从原始来源拉取)。
下载命令(示例)
1 | mkdir -p data/tape && cd data/tape |
适合检验 PLM checkpoint 表征质量,而非替代酶活性回归数据。
6. 论文补充数据、代码与聚合酶相关仓库
通用数据仓储检索
- Zenodo:https://zenodo.org/(可按 DOI、关键词检索附录与数据集)
- Figshare:https://figshare.com/
库内信息字段(建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| DOI、version | 记录版本与引用 | 冻结复现用具体版本号 |
| files[]、filename、checksum | 附件清单与校验 | 常见 TSV/CSV/FASTA/FASTQ |
| title、authors、license | 元数据 | 商用需核对许可 |
| keywords、description | 检索与摘要 | 搜「polymerase」「DMS」等 |
| (文件内)任意列 | 由上传者决定 | 突变表、丰度、NGS 计数等,无统一 schema |
下载命令(示例)
1 | mkdir -p data/archives && cd data/archives |
DeepEnzyme(示例:酶 kcat 预测,序列 + 结构)
- GitHub:https://github.com/hongzhonglu/DeepEnzyme
处理脚本、权重与训练数据构成以仓库及 Briefings in Bioinformatics 正文为准。
库内信息字段(以仓库发布 CSV/脚本为准;建模可对齐的列/段)
| 信息字段 | 内容简介 | 备注说明 |
|---|---|---|
| sequence、EC | 氨基酸序列与 EC 号 | 用于序列编码与任务定义 |
| structure、graph、pocket | 三维坐标或图神经网络输入 | 来源 PDB 或预处理后的结构张量 |
| k_cat(及可能 K_m) | 动力学回归标签 | 单位与底物定义以论文为准 |
| substrate、condition | 底物与反应条件 | 合并多来源时需对齐 |
| train/val/test 划分 | 若提供 | 复现实验需一致 |
| (非)聚合酶全集 | 覆盖多种酶 | 非 DNA 聚合酶专用数据集 |
下载命令(示例)
1 | mkdir -p data/deepenzyme && cd data/deepenzyme |
定向进化、高通量筛选类工作还常在 GitHub 单独发布 变异列表、丰度表、活性表;建议检索关键词如 DNA polymerase directed evolution、deep mutational scanning polymerase 并跟进论文 Data availability 段落中的 URL。
7. 使用建议(避免常见坑)
- 条件对齐:同一 kcat 可能在不同 pH、辅助因子下不可比;建模时保留元数据字段。
- 泄漏控制:按 UniProt ID、家族或聚类划分 train/val/test,避免同源泄漏抬高指标。
- 标签语义:「测序读数错误率」≠「体外纯酶错配率」;合并数据前统一表型定义。
- 许可与再分发:商业产品需逐条核对各数据库对批量镜像、二次发布模型权重的条款。
- 链接失效:FTP 目录会随
current_release变更;若 404,回到各站点 Download / Help 首页找最新路径。