酶改造-03.聚合酶筛选的开源训练数据汇总

训练或微调「预测酶活性、稳定性、动力学」类模型时，公开数据的许可、实验条件与目标蛋白家族是否匹配决定可迁移性。本篇按数据类型汇总常用资源；专门针对某一商品化 DNA 聚合酶的大规模统一标注数据集在公开域仍较分散，实际项目常需结合自测数据与下列通用资源。

相关笔记：动力学/功能预测模型若以底物 SMILES 为输入之一，见《酶改造-酶功能大模型与SMILES表征》（双支路架构、代表工作与清洗注意）。

维度多≠都有标签：序列库往往无实验活性，动力学库往往无结构，需多库 JOIN（以 UniProt ID、EC、PDB ID 等为键）。

维度类型	含义（建模时常对应的字段）
标识与序列	接入号（如 UniProtKB AC）、氨基酸序列、异构体、物种
注释与分类	酶学委员会编号（Enzyme Commission number，EC）、基因本体（Gene Ontology，GO）、家族/结构域（InterPro/Pfam 等）
动力学与条件	米氏常数（Michaelis constant，K_m）、催化常数（k_cat）、抑制常数（K_i）、测定 pH、温度、缓冲液、辅因子
结构	原子坐标、分辨率、实验方法、链/配体、置信度（预测结构）
突变–效应	突变写法、适应度/活性分数、测定类型、亲本序列参照
交叉引用	指向 PDB、文献 PubMed ID（PMID）、其他数据库 ID

段末注释：GO（Gene Ontology）描述分子功能/过程/定位；EC 为酶学委员会反应分类；PMID 为 PubMed 文献标识；K_m、k_cat 含义见 酶改造-01。

1. 序列与进化信息

UniProt

内容：蛋白质序列、功能注释、文献交叉引用；可与 Rhea、蛋白质数据银行（Protein Data Bank，PDB） 等互链。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
UniProtKB AC、Entry Name	条目唯一标识与简称	与 BRENDA、PDB、AlphaFold DB 等互链时的主键之一
Sequence（含 isoform）	标准氨基酸单字母序列	异构体需看 Alternative sequence 段
Protein names、Gene names	推荐名与别名	Swiss-Prot 审阅条目更完整
EC number、GO、Keywords	酶分类与功能注释	筛聚合酶时需核对 EC 是否为聚合/合成类
Feature（FT）	结构域、活性位点、PTM、自然变异位点	可做位点级特征或 mask
Cross-reference	PDB、RefSeq、PMID、Reactome 等	链到结构与文献，无统一动力学表
Annotation source	Swiss-Prot（审阅）vs TrEMBL（自动）	噪声与覆盖度不同，合并数据时建议记录

段末注释：PDB 为国际蛋白三维结构数据库；Rhea（Rhea DB）为代谢与酶反应注释库；PTM 为翻译后修饰。

检索与门户：https://www.uniprot.org/
下载总说明：https://www.uniprot.org/help/downloads
FTP（当前 release 目录）：https://ftp.uniprot.org/pub/databases/uniprot/current_release/

段末注释：REST（表述性状态转移）为无状态 HTTP 接口风格；API 为应用程序接口；FTP（文件传输协议，File Transfer Protocol）见下文 FTP 小节链接。

下载命令（示例）

1
2
3

mkdir -p data/uniprot && cd data/uniprot
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz

UniRef50 / UniRef100

内容：聚类去冗余序列，常用于 蛋白质语言模型（Protein Language Model，PLM） 预训练或同源序列检索。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
Cluster ID（如 UniRef50_xxx）	非冗余簇唯一标识	命名规则与版本随 UniProt release 更新
Representative sequence	簇代表氨基酸序列	FASTA 头含簇 ID 与成员统计
Member count、identity 阈值	簇规模与 50%/90%/100% 含义	详见 UniRef 帮助
Taxonomy（若给出）	代表序列物种信息	常用于过滤宏基因组噪声
注释继承	多数字段来自代表 UniProt 条目	非簇内每条序列独立审阅

段末注释：见 酶改造-04/05；UniRef50/100 为不同聚类阈值下的 UniProt 参考簇。

说明文档：https://www.uniprot.org/help/uniref
FTP（UniRef FASTA 等）：https://ftp.uniprot.org/pub/databases/uniprot/uniref/

下载命令（示例）

1
2
3

mkdir -p data/uniref && cd data/uniref
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
wget -c https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

BFD（Big Fantastic Database）

内容：宏基因组导向的大规模蛋白序列聚类资源，多见于 AlphaFold / ColabFold / PLM 训练管线说明；体积极大。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
Cluster / representative ID	宏基因组聚类与代表序列标识	以 bfd.mmseqs.com 当期包说明为准
Amino acid sequence	代表或成员蛋白序列	体量 TB 级，需磁盘与带宽规划
Cluster size（若提供）	簇内序列条数	用于过滤小簇
（通常缺）EC / GO / K_m	无系统手工注释	适用于 MSA、PLM 预训练、多样性增广，不直接作动力学监督

官方下载说明与镜像：https://bfd.mmseqs.com/
MMseqs2 数据索引页：https://data.mmseqs.com/

下载命令（示例）

1 2	mkdir -p data/bfd && cd data/bfd aria2c -x 16 -s 16 -c https://bfd.mmseqs.com/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt.tar.gz

用途简述：构建同源家族 多序列比对（Multiple Sequence Alignment，MSA）、PLM 嵌入、序列相似度过滤时，以上三类是最常用的公开序列来源。

段末注释：MSA 为多条同源序列按列对齐的结果，是共进化与结构预测常用输入。

2. 酶动力学与功能参数

文献与数据

Deep learning allows genome-scale prediction of Michaelis constants from structural features，项目仓库提供了训练数据，涵盖 BRENDA、SABIO

BRENDA

内容：手工整理的 Km、kcat、Ki 等及实验条件（pH、温度、底物等）。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
EC number、酶推荐名、反应 ID	酶与反应条目归属	一酶可对应多反应、多文献值
Substrate / Product	底物与产物名称或结构	聚合酶任务需核对是否为 DNA/RNA 聚合
Organism、来源组织/细胞器	生物物种与样本来源	影响跨物种迁移
K_m、k_cat、K_i、k_cat/K_m 等	动力学参数数值与单位	同酶同底物可有多条文献，需保留引用 ID
pH、Temperature、缓冲液、离子强度	测定条件	建模作必要元数据，否则标签不可比
Literature reference	文献与 BRENDA 条目 ID	追溯原始实验
（缺）UniProt 序列	库内以酶条目为中心	需用 EC+物种等与 UniProt 对齐序列

门户：https://www.brenda-enzymes.org/
数据下载页（JSON 等）：https://www.brenda-enzymes.org/download.php
许可：以官网当前声明为准（常见为 CC BY 4.0 一类开放许可）。

下载命令（示例）

1 2	mkdir -p data/brenda && cd data/brenda wget -c https://www.brenda-enzymes.org/download.php -O brenda_download_page.html

注：BRENDA 部分数据下载通常需要登录后选择文件，自动化下载以官网登录态与当期下载规则为准。

SABIO-RK

内容：结构化反应与动力学实验条目，支持多种导出格式。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
SABIO Reaction ID、Kinetic Law ID	反应与动力学定律唯一标识	便于 API/TSV 批量导出
Enzyme、Substrate、Product	参与者与反应方向	可与 Rhea、ChEBI 映射
Parameter name、value、unit	如 K_m、k_cat、抑制常数	列结构较 BRENDA 更机器可读
Kinetic mechanism	如 Michaelis-Menten、抑制类型	建模时需与方程一致
pH、Temperature、Buffer	实验条件	与参数绑定存储
Organism、Uniprot ID（若给出）	物种与酶序列链接	有利于直接 JOIN 序列
Publication	文献	验证与去重

门户：https://sabiork.h-its.org/
REST / Web Service 说明：https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/RESTWebserviceIntro.gsp
Python 示例：https://sabiork.h-its.org/layouts/content/docuRESTfulWeb/searchPython.gsp

下载命令（示例）

1 2	mkdir -p data/sabiork && cd data/sabiork curl -L "http://sabiork.h-its.org/sabioRestWebServices/kineticlawsExportTsv?q=Organism:\"Escherichia coli\"" -o sabiork_ecoli_kinetics.tsv

Rhea

内容：酶促反应本体、与 EC、ChEBI、UniProt 等映射，适合反应级标签或知识图。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
Rhea ID	反应唯一标识	稳定 ID，适合知识图节点
Equation、Direction	反应式与方向	参与者用 ChEBI 化合物 ID
EC number	与 IUBMB EC 映射	用于粗分类与与 BRENDA 对齐
rhea2uniprot 等映射表	反应关联的 UniProt 酶	链到序列
GO、Reactome 交叉引用	通路/功能注释	适合多任务标签，无动力学数值
（无）K_m / k_cat	不提供实验测定参数	需与 BRENDA/SABIO-RK 联用

门户：https://www.rhea-db.org/
下载页（Turtle/TSV 等）：https://www.rhea-db.org/help/download

下载命令（示例）

1
2
3

mkdir -p data/rhea && cd data/rhea
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea-tsv.tar.gz
wget -c https://ftp.expasy.org/databases/rhea/tsv/rhea2uniprot.tsv

聚合酶注意：BRENDA / SABIO 中条目按 EC、物种与反应式组织，训练模型时需核对底物是否为 DNA/RNA 聚合，避免错将其它水解/转移反应标成聚合酶任务。

3. 三维结构

PDB（wwPDB）

内容：实验解析结构；聚合酶家族可参考多条代表条目。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
entry.id（PDB ID）	结构条目标识	4 字符，与 CATH/SCOPe 映射
_atom_site.*	原子坐标、元素、B-factor	mmCIF 为主流格式
_exptl.method	X 射线、cryo-EM、NMR 等	影响分辨率解读
_refine、_em_3d_reconstruction 等	分辨率、R-free 等质量指标	方法依条目类型不同
_entity_poly、_pdbx_poly_seq_scheme	聚合物序列、与 UniProt 映射	序列监督与对齐
非聚合物配体	离子、小分子、核苷酸片段等	对接与活性位点特征
（无）突变–效应表	单条结构为野生型背景常见	DMS 需另库

检索：https://www.rcsb.org/
批量数据（FTP）：https://www.wwpdb.org/ftp/pdb-ftp-sites#sub-ftp-services（各中心镜像链接见该页）

下载命令（示例）

1 2	mkdir -p data/pdb && cd data/pdb rsync -avz --delete rsync.wwpdb.org::ftp_data/structures/divided/mmCIF/ ./mmCIF/

AlphaFold 蛋白质结构数据库（EBI）

内容：预测结构，覆盖大量 UniProt；无实验结构时作构象先验或接触约束（注意置信度与结构域）。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
UniProt Accession	与预测模型一一对应	与序列/注释主键一致
Coordinates（PDB / mmCIF）	预测主链/全原子坐标	非实验结构
pLDDT（predicted Local Distance Difference Test）	每残基置信度	低分区段慎用几何特征
PAE（Predicted Aligned Error）	残基对误差矩阵	用于接触/域间不确定性
Model version（如 v6）	数据库与模型代次	与论文/管线版本对齐
（无）实验 R-free	无晶体学质量指标	与 PDB 混用时需标注来源

门户：https://alphafold.ebi.ac.uk/
批量下载说明：https://alphafold.ebi.ac.uk/download

下载命令（示例）

1
2
3

mkdir -p data/alphafold && cd data/alphafold
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_pdb_v6.tar
wget -c https://ftp.ebi.ac.uk/pub/databases/alphafold/latest/swissprot_cif_v6.tar

CATH

内容：结构域与折叠分类，便于按家族划分训练/测试。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
domain_id	CATH 结构域唯一 ID	与 PDB 链区间绑定
pdb_id、chain、boundaries	结构域在结构中的范围	用于切域与划分同源
C、A、T、H	Class / Architecture / Topology / Homology	四层分类层次
superfamily_id	超家族	常与功能模块对应
S35/S60/S95/S100 等聚类	序列相似度聚类子集	版本见当期 release 说明
（无）fitness / k_cat	无突变与动力学标签	仅作划分与泄漏控制

门户：https://www.cathdb.info/
下载：https://www.cathdb.info/download

下载命令（示例）

1 2	mkdir -p data/cath && cd data/cath wget -c https://download.cathdb.info/cath/releases/latest-release/cath-classification-data/cath-domain-list.txt

SCOPe

内容：蛋白结构分类（与 CATH 类似用途，择一或交叉验证划分）。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
sunid	分类树节点数字 ID	与 dir.des、dir.cla 文件对应
sccs、层次（Family / Superfamily / Fold / Class）	结构分类路径	版本以发布文件名为准（如 2.08-stable）
PDB ID、chain、残基区间	与结构的映射	用于同源/远分划分
description	节点文字描述	辅助人工核对
（无）动力学 / 突变	无酶活与 DMS 字段	与 CATH 类似用途

门户：https://scop.berkeley.edu/
下载：https://scop.berkeley.edu/downloads/

下载命令（示例）

1
2
3

mkdir -p data/scope && cd data/scope
wget -c https://scop.berkeley.edu/downloads/parse/dir.cla.scope.2.08-stable.txt
wget -c https://scop.berkeley.edu/downloads/parse/dir.des.scope.2.08-stable.txt

与 DeepEnzyme 等「序列 + 结构」联合输入的管线对接时，需核对作者使用的结构来源（实验 vs 预测）与预处理脚本。

4. 深度突变扫描与突变效应基准

ProteinGym

内容：大规模 深度突变扫描（Deep Mutational Scanning，DMS） 替代/插入评分基准，用于训练或评估突变效应预测模型。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
wild_type_sequence / protein_id	亲本序列或蛋白标识	与突变列联合唯一确定变体
mutant、variant（记法依子集）	单点/多点/插入缺失	各 subset HGVS 或自定义格式见基准说明
score、fitness、label	适应度或活性代理分数	量纲与归一化以 ProteinGym 文档为准
assay、source	测定类型与数据来源	深扫、文献汇总等，不可混比需分任务
train/val/test split	官方划分索引	防泄漏需严格遵循
（覆盖）聚合酶	子集因版本而异	未必含目标 DNA 聚合酶

项目站：https://proteingym.org/
GitHub：https://github.com/OATML-Markslab/ProteinGym
Hugging Face 数据集（示例镜像）：https://huggingface.co/datasets/OATML-Markslab/ProteinGym

下载命令（示例）

1
2
3

mkdir -p data/proteingym && cd data/proteingym
git clone https://github.com/OATML-Markslab/ProteinGym.git
huggingface-cli download OATML-Markslab/ProteinGym --repo-type dataset --local-dir ./ProteinGym_hf

MaveDB

内容：存档多种 多重变异效应测定（multiplexed assays of variant effect，MAVE） 实验；可按目标蛋白检索是否有聚合酶相关研究。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
Target（基因/蛋白/序列）	实验对象标识	站内检索聚合酶相关 target
Variant、hgvs 等	变异写法	与参考序列坐标系一致方可合并
Score、functional score	效应分数或选择系数	依 score set 与 assay 定义
Score set、Experiment	实验与分数集元数据	导出粒度常为 score set
Condition、文库类型	筛选条件、深度等	合并跨实验需标准化
Publication、DOI	文献与数据可用性	追溯原始 MAVE 设计

门户：https://www.mavedb.org/
API 文档：https://www.mavedb.org/docs/docs/mavedb-api

下载命令（示例）

1 2	mkdir -p data/mavedb && cd data/mavedb wget -c https://www.mavedb.org/ -O mavedb_home.html

注：MaveDB 常按 score set 单独导出，建议在站内定位目标条目后下载 TSV/CSV。

DMS 文献补充材料

内容：单篇论文 补充材料表（Supplementary Tables） 常含完整突变–适应度表；无统一中心时，宜通过期刊页面或 Zenodo / Figshare 数字对象标识符（Digital Object Identifier，DOI） 获取。

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
mutation、position、aa_change	突变与位点	列名因期刊/作者而异，无统一 schema
fitness、enrichment、read count	适应度、富集或测序计数	需读 Methods 理解符号与归一化
replicate、batch	生物学/技术重复	用于方差与质量控制
selection condition、temperature 等	筛选或测定条件	与 ProteinGym 合并时必作元数据对齐
reference sequence	亲本或 WT 参照	与 UniProt 坐标不一致时需转换
（获取）DOI、Supplementary file name	附录与仓储链接	优先跟 Data availability

综合数据集示例（VEP 相关汇总，非酶专一）：https://github.com/allydunham/dms_mutations

下载命令（示例）

1 2	mkdir -p data/dms && cd data/dms git clone https://github.com/allydunham/dms_mutations.git

说明：ProteinGym 覆盖大量蛋白家族，未必含你关心的特定 DNA 聚合酶；可作通用预训练或迁移学习，再以自有筛选数据微调。

5. 通用蛋白质表征基准（非酶专一）

TAPE

用途：评估蛋白质迁移学习在二级结构、接触、remote homology 等任务上的表现；不直接提供酶动力学回归标签。

库内信息字段（按子任务；建模可对齐的列/段）

信息字段	内容简介	备注说明
sequence	输入氨基酸序列	各任务共享
secondary_structure 标签	每残基 Q8 或 Q3 态	序列到结构迁移任务
remote_homology	fold、family、superfamily 等标签	含官方 train/valid/test 划分
contact、distance	残基对接触或距离二值/实值	接触预测任务
fluorescence、stability	连续值回归标签	非酶活性，为稳定性代理
ProteinNet 衍生特征	依仓库预处理脚本	路径以 TAPE README 为准
（无）k_cat / 错配率	无酶动力学标签	不能替代 BRENDA 类监督

GitHub（任务定义与数据获取脚本）：https://github.com/songlab-cal/tape
具体 预处理后数据路径 以仓库 README 与 release 说明为准（部分任务需按脚本从原始来源拉取）。

下载命令（示例）

mkdir -p data/tape && cd data/tape
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/pfam.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/secondary_structure.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/proteinnet.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/remote_homology.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/fluorescence.tar.gz
wget -c http://s3.amazonaws.com/songlabdata/proteindata/data_pytorch/stability.tar.gz

适合检验 PLM checkpoint 表征质量，而非替代酶活性回归数据。

6. 论文补充数据、代码与聚合酶相关仓库

通用数据仓储检索

Zenodo：https://zenodo.org/（可按 DOI、关键词检索附录与数据集）
Figshare：https://figshare.com/

库内信息字段（建模可对齐的列/段）

信息字段	内容简介	备注说明
DOI、version	记录版本与引用	冻结复现用具体版本号
files[]、filename、checksum	附件清单与校验	常见 TSV/CSV/FASTA/FASTQ
title、authors、license	元数据	商用需核对许可
keywords、description	检索与摘要	搜「polymerase」「DMS」等
（文件内）任意列	由上传者决定	突变表、丰度、NGS 计数等，无统一 schema

下载命令（示例）

mkdir -p data/archives && cd data/archives
pip install -U zenodo-get figshare
zenodo_get 10.5281/zenodo.3727875
figshare-cli download --article-id 9782777 --outdir ./figshare_9782777

DeepEnzyme（示例：酶 kcat 预测，序列 + 结构）

GitHub：https://github.com/hongzhonglu/DeepEnzyme
处理脚本、权重与训练数据构成以仓库及 Briefings in Bioinformatics 正文为准。

库内信息字段（以仓库发布 CSV/脚本为准；建模可对齐的列/段）

信息字段	内容简介	备注说明
sequence、EC	氨基酸序列与 EC 号	用于序列编码与任务定义
structure、graph、pocket	三维坐标或图神经网络输入	来源 PDB 或预处理后的结构张量
k_cat（及可能 K_m）	动力学回归标签	单位与底物定义以论文为准
substrate、condition	底物与反应条件	合并多来源时需对齐
train/val/test 划分	若提供	复现实验需一致
（非）聚合酶全集	覆盖多种酶	非 DNA 聚合酶专用数据集

下载命令（示例）

1 2	mkdir -p data/deepenzyme && cd data/deepenzyme git clone https://github.com/hongzhonglu/DeepEnzyme.git

定向进化、高通量筛选类工作还常在 GitHub 单独发布 变异列表、丰度表、活性表；建议检索关键词如 DNA polymerase directed evolution、deep mutational scanning polymerase 并跟进论文 Data availability 段落中的 URL。

7. 使用建议（避免常见坑）

条件对齐：同一 kcat 可能在不同 pH、辅助因子下不可比；建模时保留元数据字段。
泄漏控制：按 UniProt ID、家族或聚类划分 train/val/test，避免同源泄漏抬高指标。
标签语义：「测序读数错误率」≠「体外纯酶错配率」；合并数据前统一表型定义。
许可与再分发：商业产品需逐条核对各数据库对批量镜像、二次发布模型权重的条款。
链接失效：FTP 目录会随 current_release 变更；若 404，回到各站点 Download / Help 首页找最新路径。

8. 系列索引

聚合酶的评估指标：指标与标签含义对齐。
筛选方法发展脉络：NGS 偶联与文库设计上下文。
PLMs 模型架构：序列表征与通用预训练入口。