引物设计相关工具-PrimeGen

1. 文献与资源

类型	说明
论文	Wang Y, et al. Accelerating primer design for amplicon sequencing using large language model-powered agents. Nat Biomed Eng (2025). DOI: 10.1038/s41551-025-01455-z
PubMed	PMID 40738975
代码	melobio/PrimeGen
补充材料	文章页 Additional/Supplementary/Source Data（以期刊页面更新为准）

说明：该论文为期刊授权发布（非 CC BY 开放全文），本文配图用于学习解读，请按期刊版权条款规范使用。

PrimeGen 是一个以 GPT-4o 为中央控制器的引物设计多智能体系统：把“需求理解→目标检索→引物设计→机器人脚本→实验异常检测→重设计”串成闭环，面向**靶向下一代测序（targeted next-generation sequencing，tNGS）**高重数面板设计。

段末注释：tNGS 指针对选定区域（而非全基因组）进行测序，常用于病原体分型、遗传病 panel、肿瘤靶向位点和耐药位点检测。

PrimeGen 的控制器负责意图解析与任务编排，调用 4 个子智能体：

文献原图（Fig. 1）：PrimeGen 全流程工作图（论文主图）。

Fig. 1 Overview of PrimeGen workflow（来源：Nat Biomed Eng 2025）

在目标区间上采用滑动窗口生成候选，再按 GC、复杂度、二级结构与互补性等规则筛选；若局部连续失败，逐步放宽阈值，避免整段设计中断。

设目标区长度为 (L)，窗口长 (w)，步长 (s)，窗口起点：

$$
t \in {0,s,2s,\dots}\cap[0,L-w]
$$

每个窗口内生成 forward/reverse 组合候选，进入面板级优化。

若第 (i) 个扩增子有 (a_i) 个候选引物对，搜索空间为：

$$
|\Omega|=\prod_{i=1}^{n}a_i
$$

面板优化目标可写作加权损失：

$$
\text{Loss}(P)=w_1,\phi_{\mathrm{dimer}}(P)+w_2\sum_{i=1}^{n}\psi_{\mathrm{off\text{-}target}}(A_i)
$$

其中 (\phi) 对应二聚体风险（文中基于 SADDLE 思路），(\psi) 对应 BLAST 脱靶风险项。

段末注释：SADDLE 为多重 PCR 面板优化相关算法框架；BLAST 为序列局部比对工具，此处用于非目标匹配惩罚。

论文把 LLM 优化器 与 Greedy、GA、AdaLead 对比：LLM 可一次联动修改多个扩增子位点的引物选择（而非单点微调），在高维组合空间中表现出较快收敛趋势与可用解质量。

文献原图（Fig. 2）：Search/Primer agent 工作流与面板优化效果对比。

Fig. 2 Search agent and primer agent workflow（来源：Nat Biomed Eng 2025）

将引物面板与建库流程映射到可调代码块，通过 检索增强生成（retrieval-augmented generation，RAG） + 模板参数化输出机器人可执行脚本。

在液体处理过程中做视觉异常检测（吸头状态、孔板位置、混匀异常等），触发自动修复或人工介入，并把异常信息返回设计端用于下一轮优化。

段末注释：RAG 指“先检索知识片段，再条件生成”的流程，可降低纯生成式模型的事实漂移。

文献原图（Fig. 4）：Protocol Agent 代码生成流程。
Fig. 4 Protocol agent workflow（来源：Nat Biomed Eng 2025）

文献原图（Fig. 5）：液体处理系统与异常检测流程。
Fig. 5 Liquid handling and anomaly detection（来源：Nat Biomed Eng 2025）

论文在 4 类任务展示了有效性（原文为准）：

文献原图（Fig. 3）：多场景实验结果统计图。
Fig. 3 Experiment result analysis（来源：Nat Biomed Eng 2025）