酶改造-03.聚合酶筛选的开源训练数据汇总

训练或微调「预测酶活性、稳定性、动力学」类模型时,公开数据的许可、实验条件与目标蛋白家族是否匹配决定可迁移性。本篇按数据类型汇总常用资源;专门针对某一商品化 DNA 聚合酶的大规模统一标注数据集在公开域仍较分散,实际项目常需结合自测数据与下列通用资源。

相关笔记:动力学/功能预测模型若以底物 SMILES 为输入之一,见《酶改造-酶功能大模型与SMILES表征》(双支路架构、代表工作与清洗注意)。

维度多≠都有标签:序列库往往无实验活性,动力学库往往无结构,需多库 JOIN(以 UniProt ID、EC、PDB ID 等为键)。

维度类型 含义(建模时常对应的字段)
标识与序列 接入号(如 UniProtKB AC)、氨基酸序列、异构体、物种
注释与分类 酶学委员会编号(Enzyme Commission number,EC)基因本体(Gene Ontology,GO)、家族/结构域(InterPro/Pfam 等)
动力学与条件 米氏常数(Michaelis constant,K_m)催化常数(k_cat)、抑制常数(K_i)、测定 pH、温度、缓冲液、辅因子
结构 原子坐标、分辨率、实验方法、链/配体、置信度(预测结构)
突变–效应 突变写法、适应度/活性分数、测定类型、亲本序列参照
交叉引用 指向 PDB、文献 PubMed ID(PMID)、其他数据库 ID

段末注释GO(Gene Ontology)描述分子功能/过程/定位;EC 为酶学委员会反应分类;PMID 为 PubMed 文献标识;K_m、k_cat 含义见 酶改造-01


1. 序列与进化信息

UniProt

  • 内容:蛋白质序列、功能注释、文献交叉引用;可与 Rhea、蛋白质数据银行(Protein Data Bank,PDB) 等互链。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
UniProtKB ACEntry Name 条目唯一标识与简称 BRENDA、PDB、AlphaFold DB 等互链时的主键之一
Sequence(含 isoform 标准氨基酸单字母序列 异构体需看 Alternative sequence
Protein namesGene names 推荐名与别名 Swiss-Prot 审阅条目更完整
EC numberGOKeywords 酶分类与功能注释 筛聚合酶时需核对 EC 是否为聚合/合成类
FeatureFT 结构域、活性位点、PTM、自然变异位点 可做位点级特征或 mask
Cross-reference PDB、RefSeq、PMID、Reactome 等 链到结构与文献,无统一动力学表
Annotation source Swiss-Prot(审阅)vs TrEMBL(自动) 噪声与覆盖度不同,合并数据时建议记录

段末注释PDB 为国际蛋白三维结构数据库;Rhea(Rhea DB)为代谢与酶反应注释库;PTM 为翻译后修饰。

段末注释REST(表述性状态转移)为无状态 HTTP 接口风格;API 为应用程序接口;FTP(文件传输协议,File Transfer Protocol)见下文 FTP 小节链接。

下载命令(示例)

1
2
3
mkdir -p data/uniprot && cd data/uniprot
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz

UniRef50 / UniRef100

  • 内容:聚类去冗余序列,常用于 蛋白质语言模型(Protein Language Model,PLM) 预训练或同源序列检索。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
Cluster ID(如 UniRef50_xxx) 非冗余簇唯一标识 命名规则与版本随 UniProt release 更新
Representative sequence 簇代表氨基酸序列 FASTA 头含簇 ID 与成员统计
Member countidentity 阈值 簇规模与 50%/90%/100% 含义 详见 UniRef 帮助
Taxonomy(若给出) 代表序列物种信息 常用于过滤宏基因组噪声
注释继承 多数字段来自代表 UniProt 条目 簇内每条序列独立审阅

段末注释:见 酶改造-04/05UniRef50/100 为不同聚类阈值下的 UniProt 参考簇。

下载命令(示例)

1
2
3
mkdir -p data/uniref && cd data/uniref
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

BFD(Big Fantastic Database)

  • 内容:宏基因组导向的大规模蛋白序列聚类资源,多见于 AlphaFold / ColabFold / PLM 训练管线说明;体积极大。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
Cluster / representative ID 宏基因组聚类与代表序列标识 bfd.mmseqs.com 当期包说明为准
Amino acid sequence 代表或成员蛋白序列 体量 TB 级,需磁盘与带宽规划
Cluster size(若提供) 簇内序列条数 用于过滤小簇
(通常缺)EC / GO / K_m 无系统手工注释 适用于 MSA、PLM 预训练、多样性增广,不直接作动力学监督

下载命令(示例)

1
2
mkdir -p data/bfd && cd data/bfd
aria2c -x 16 -s 16 -c https://bfd.mmseqs.com/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz

用途简述:构建同源家族 多序列比对(Multiple Sequence Alignment,MSA)PLM 嵌入、序列相似度过滤时,以上三类是最常用的公开序列来源。

段末注释MSA 为多条同源序列按列对齐的结果,是共进化与结构预测常用输入。


2. 酶动力学与功能参数

文献与数据

BRENDA

  • 内容:手工整理的 Km、kcat、Ki 等及实验条件(pH、温度、底物等)。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
EC number、酶推荐名、反应 ID 酶与反应条目归属 一酶可对应多反应、多文献值
Substrate / Product 底物与产物名称或结构 聚合酶任务需核对是否为 DNA/RNA 聚合
Organism、来源组织/细胞器 生物物种与样本来源 影响跨物种迁移
K_mk_catK_ik_cat/K_m 动力学参数数值与单位 同酶同底物可有多条文献,需保留引用 ID
pHTemperature、缓冲液、离子强度 测定条件 建模作必要元数据,否则标签不可比
Literature reference 文献与 BRENDA 条目 ID 追溯原始实验
(缺)UniProt 序列 库内以酶条目为中心 需用 EC+物种 等与 UniProt 对齐序列

下载命令(示例)

1
2
mkdir -p data/brenda && cd data/brenda
wget -c https://www.brenda-enzymes.org/download.php -O brenda_download_page.html

注:BRENDA 部分数据下载通常需要登录后选择文件,自动化下载以官网登录态与当期下载规则为准。

SABIO-RK

  • 内容:结构化反应与动力学实验条目,支持多种导出格式。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
SABIO Reaction IDKinetic Law ID 反应与动力学定律唯一标识 便于 API/TSV 批量导出
EnzymeSubstrateProduct 参与者与反应方向 可与 RheaChEBI 映射
Parameter namevalueunit K_mk_cat、抑制常数 列结构较 BRENDA 更机器可读
Kinetic mechanism 如 Michaelis-Menten、抑制类型 建模时需与方程一致
pHTemperatureBuffer 实验条件 与参数绑定存储
OrganismUniprot ID(若给出) 物种与酶序列链接 有利于直接 JOIN 序列
Publication 文献 验证与去重

下载命令(示例)

1
2
mkdir -p data/sabiork && cd data/sabiork
curl -L "http://sabiork.h-its.org/sabioRestWebServices/kineticlawsExportTsv?q=Organism:\"Escherichia coli\"" -o sabiork_ecoli_kinetics.tsv

Rhea

  • 内容:酶促反应本体、与 EC、ChEBI、UniProt 等映射,适合反应级标签或知识图。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
Rhea ID 反应唯一标识 稳定 ID,适合知识图节点
EquationDirection 反应式与方向 参与者用 ChEBI 化合物 ID
EC number 与 IUBMB EC 映射 用于粗分类与与 BRENDA 对齐
rhea2uniprot 等映射表 反应关联的 UniProt 链到序列
GOReactome 交叉引用 通路/功能注释 适合多任务标签,无动力学数值
(无)K_m / k_cat 不提供实验测定参数 需与 BRENDA/SABIO-RK 联用

下载命令(示例)

1
2
3
mkdir -p data/rhea && cd data/rhea
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea-tsv.tar.gz
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea2uniprot.tsv

聚合酶注意:BRENDA / SABIO 中条目按 EC、物种与反应式组织,训练模型时需核对底物是否为 DNA/RNA 聚合,避免错将其它水解/转移反应标成聚合酶任务。


3. 三维结构

PDB(wwPDB)

  • 内容:实验解析结构;聚合酶家族可参考多条代表条目。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
entry.idPDB ID 结构条目标识 4 字符,与 CATH/SCOPe 映射
_atom_site.* 原子坐标、元素、B-factor mmCIF 为主流格式
_exptl.method X 射线cryo-EMNMR 影响分辨率解读
_refine_em_3d_reconstruction 分辨率、R-free 等质量指标 方法依条目类型不同
_entity_poly_pdbx_poly_seq_scheme 聚合物序列、与 UniProt 映射 序列监督与对齐
非聚合物配体 离子、小分子、核苷酸片段等 对接与活性位点特征
(无)突变–效应表 单条结构为野生型背景常见 DMS 需另库

下载命令(示例)

1
2
mkdir -p data/pdb && cd data/pdb
rsync -avz --delete rsync.wwpdb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF/

AlphaFold 蛋白质结构数据库(EBI)

  • 内容:预测结构,覆盖大量 UniProt;无实验结构时作构象先验或接触约束(注意置信度与结构域)。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
UniProt Accession 与预测模型一一对应 与序列/注释主键一致
CoordinatesPDB / mmCIF 预测主链/全原子坐标 实验结构
pLDDTpredicted Local Distance Difference Test 每残基置信度 低分区段慎用几何特征
PAEPredicted Aligned Error 残基对误差矩阵 用于接触/域间不确定性
Model version(如 v6 数据库与模型代次 与论文/管线版本对齐
(无)实验 R-free 无晶体学质量指标 PDB 混用时需标注来源

下载命令(示例)

1
2
3
mkdir -p data/alphafold && cd data/alphafold
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_pdb_v6.tar
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_cif_v6.tar

CATH

  • 内容:结构域与折叠分类,便于按家族划分训练/测试。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
domain_id CATH 结构域唯一 ID PDB 链区间绑定
pdb_idchainboundaries 结构域在结构中的范围 用于切域与划分同源
CATH Class / Architecture / Topology / Homology 四层分类层次
superfamily_id 超家族 常与功能模块对应
S35/S60/S95/S100 等聚类 序列相似度聚类子集 版本见当期 release 说明
(无)fitness / k_cat 无突变与动力学标签 仅作 划分与泄漏控制

下载命令(示例)

1
2
mkdir -p data/cath && cd data/cath
wget -c https://download.cathdb.info/cath/releases/latest-release/cath-classification-data/cath-domain-list.txt

SCOPe

  • 内容:蛋白结构分类(与 CATH 类似用途,择一或交叉验证划分)。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
sunid 分类树节点数字 ID dir.desdir.cla 文件对应
sccs层次Family / Superfamily / Fold / Class 结构分类路径 版本以发布文件名为准(如 2.08-stable
PDB IDchain残基区间 与结构的映射 用于同源/远分划分
description 节点文字描述 辅助人工核对
(无)动力学 / 突变 无酶活与 DMS 字段 CATH 类似用途

下载命令(示例)

1
2
3
mkdir -p data/scope && cd data/scope
wget -c https://scop.berkeley.edu/downloads/parse/dir.cla.scope.2.08-stable.txt
wget -c https://scop.berkeley.edu/downloads/parse/dir.des.scope.2.08-stable.txt

DeepEnzyme 等「序列 + 结构」联合输入的管线对接时,需核对作者使用的结构来源(实验 vs 预测)与预处理脚本


4. 深度突变扫描与突变效应基准

ProteinGym

  • 内容:大规模 深度突变扫描(Deep Mutational Scanning,DMS) 替代/插入评分基准,用于训练或评估突变效应预测模型。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
wild_type_sequence / protein_id 亲本序列或蛋白标识 与突变列联合唯一确定变体
mutantvariant(记法依子集) 单点/多点/插入缺失 各 subset HGVS 或自定义格式见基准说明
scorefitnesslabel 适应度或活性代理分数 量纲与归一化以 ProteinGym 文档为准
assaysource 测定类型与数据来源 深扫、文献汇总等,不可混比需分任务
train/val/test split 官方划分索引 防泄漏需严格遵循
(覆盖)聚合酶 子集因版本而异 未必含目标 DNA 聚合酶

下载命令(示例)

1
2
3
mkdir -p data/proteingym && cd data/proteingym
git clone https://github.com/OATML-Markslab/ProteinGym.git
huggingface-cli download OATML-Markslab/ProteinGym --repo-type dataset --local-dir ./ProteinGym_hf

MaveDB

  • 内容:存档多种 多重变异效应测定(multiplexed assays of variant effect,MAVE) 实验;可按目标蛋白检索是否有聚合酶相关研究。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
Target(基因/蛋白/序列) 实验对象标识 站内检索聚合酶相关 target
Varianthgvs 变异写法 与参考序列坐标系一致方可合并
Scorefunctional score 效应分数或选择系数 score setassay 定义
Score setExperiment 实验与分数集元数据 导出粒度常为 score set
Condition文库类型 筛选条件、深度等 合并跨实验需标准化
PublicationDOI 文献与数据可用性 追溯原始 MAVE 设计

下载命令(示例)

1
2
mkdir -p data/mavedb && cd data/mavedb
wget -c https://www.mavedb.org/ -O mavedb_home.html

注:MaveDB 常按 score set 单独导出,建议在站内定位目标条目后下载 TSV/CSV。

DMS 文献补充材料

  • 内容:单篇论文 补充材料表(Supplementary Tables) 常含完整突变–适应度表;无统一中心时,宜通过期刊页面或 Zenodo / Figshare 数字对象标识符(Digital Object Identifier,DOI) 获取。

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
mutationpositionaa_change 突变与位点 列名因期刊/作者而异,无统一 schema
fitnessenrichmentread count 适应度、富集或测序计数 需读 Methods 理解符号与归一化
replicatebatch 生物学/技术重复 用于方差与质量控制
selection conditiontemperature 筛选或测定条件 ProteinGym 合并时必作元数据对齐
reference sequence 亲本或 WT 参照 UniProt 坐标不一致时需转换
(获取)DOISupplementary file name 附录与仓储链接 优先跟 Data availability

下载命令(示例)

1
2
mkdir -p data/dms && cd data/dms
git clone https://github.com/allydunham/dms_mutations.git

说明:ProteinGym 覆盖大量蛋白家族,未必含你关心的特定 DNA 聚合酶;可作通用预训练或迁移学习,再以自有筛选数据微调。


5. 通用蛋白质表征基准(非酶专一)

TAPE

  • 用途:评估蛋白质迁移学习在二级结构、接触、remote homology 等任务上的表现;不直接提供酶动力学回归标签

库内信息字段(按子任务;建模可对齐的列/段)

信息字段 内容简介 备注说明
sequence 输入氨基酸序列 各任务共享
secondary_structure 标签 每残基 Q8Q3 序列到结构迁移任务
remote_homology foldfamilysuperfamily 等标签 含官方 train/valid/test 划分
contactdistance 残基对接触或距离二值/实值 接触预测任务
fluorescencestability 连续值回归标签 酶活性,为稳定性代理
ProteinNet 衍生特征 依仓库预处理脚本 路径以 TAPE README 为准
(无)k_cat / 错配率 无酶动力学标签 不能替代 BRENDA 类监督
  • GitHub(任务定义与数据获取脚本)https://github.com/songlab-cal/tape
    具体 预处理后数据路径 以仓库 README 与 release 说明为准(部分任务需按脚本从原始来源拉取)。

下载命令(示例)

1
2
3
4
5
6
7
mkdir -p data/tape && cd data/tape
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/pfam.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/secondary_structure.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/proteinnet.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/remote_homology.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/fluorescence.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/stability.tar.gz

适合检验 PLM checkpoint 表征质量,而非替代酶活性回归数据。


6. 论文补充数据、代码与聚合酶相关仓库

通用数据仓储检索

库内信息字段(建模可对齐的列/段)

信息字段 内容简介 备注说明
DOIversion 记录版本与引用 冻结复现用具体版本号
files[]filenamechecksum 附件清单与校验 常见 TSV/CSV/FASTA/FASTQ
titleauthorslicense 元数据 商用需核对许可
keywordsdescription 检索与摘要 搜「polymerase」「DMS」等
(文件内)任意列 由上传者决定 突变表、丰度、NGS 计数等,无统一 schema

下载命令(示例)

1
2
3
4
mkdir -p data/archives && cd data/archives
pip install -U zenodo-get figshare
zenodo_get 10.5281/zenodo.3727875
figshare-cli download --article-id 9782777 --outdir ./figshare_9782777

DeepEnzyme(示例:酶 kcat 预测,序列 + 结构)

库内信息字段(以仓库发布 CSV/脚本为准;建模可对齐的列/段)

信息字段 内容简介 备注说明
sequenceEC 氨基酸序列与 EC 用于序列编码与任务定义
structuregraphpocket 三维坐标或图神经网络输入 来源 PDB 或预处理后的结构张量
k_cat(及可能 K_m 动力学回归标签 单位与底物定义以论文为准
substratecondition 底物与反应条件 合并多来源时需对齐
train/val/test 划分 若提供 复现实验需一致
(非)聚合酶全集 覆盖多种酶 DNA 聚合酶专用数据集

下载命令(示例)

1
2
mkdir -p data/deepenzyme && cd data/deepenzyme
git clone https://github.com/hongzhonglu/DeepEnzyme.git

定向进化、高通量筛选类工作还常在 GitHub 单独发布 变异列表、丰度表、活性表;建议检索关键词如 DNA polymerase directed evolutiondeep mutational scanning polymerase 并跟进论文 Data availability 段落中的 URL。


7. 使用建议(避免常见坑)

  1. 条件对齐:同一 kcat 可能在不同 pH、辅助因子下不可比;建模时保留元数据字段。
  2. 泄漏控制:按 UniProt ID、家族或聚类划分 train/val/test,避免同源泄漏抬高指标。
  3. 标签语义:「测序读数错误率」≠「体外纯酶错配率」;合并数据前统一表型定义。
  4. 许可与再分发:商业产品需逐条核对各数据库对批量镜像、二次发布模型权重的条款。
  5. 链接失效:FTP 目录会随 current_release 变更;若 404,回到各站点 Download / Help 首页找最新路径。

8. 系列索引

-------------本文结束感谢您的阅读-------------