软件仓库: Expansion Hunter: a tool for estimating repeat sizes
参考文献: ExpansionHunter: A sequence-graph based tool to analyze variation in short tandem repeat regions
人类基因组中有许多区域由重复的 短单元序列(通常是三聚体)。这样的重复区域可以扩展为尺寸远大于读取长度,从而导致疾病。 脆性 X 综合征 , ALS ,以及 亨廷顿舞蹈症 都是众所周知的例子。
部署安装
参考原文档
算法原理
软件开发环境基于 PCR-free WGS 数据,如果处理经过PCR的数据,需要进行评估性能。
结果格式说明
Expansion Hunter 生成的 JSON 文件包含样本参数信息(SampleParameters 字段)以及按位点汇总的分析结果信息( LocusResults 字段)。原文参考[结果格式说明]](https://github.com/Illumina/ExpansionHunter/blob/master/docs/05_OutputJsonFiles.md)。
示例如下:
1 | "ATXN2": { |
配套工具
全基因组 STR 目录 含有与已知致病基因具有相似特性的多态性重复序列, 功能性 STR
REViewer, a tool for visualizing alignments of reads in regions containing tandem repeats
REViewer ,一种用于可视化包含串联重复的区域中的读取比对的工具
其他验证检测方法
| 方法 | 荧光PCR-毛细管电泳法 (CE) | 一代测序法 (Sanger) | 二代测序法 (NGS / MPS) |
|---|---|---|---|
| 技术原理 | 基于片段长度分离DNA,通过荧光信号检测 | 基于双脱氧链终止法,直接读取DNA碱基序列 | 基于大规模并行测序,直接读取海量DNA碱基序列 |
| 核心信息 | 长度多态性 (Repeat Unit Number) | 序列多态性 (Base Sequence) | 序列多态性 (Base Sequence + 长度) |
| 分辨率 | 高 (可区分1-4 bp的差异) | 极高 (黄金标准,可识别单个碱基差异) | 超高 (可同时检测长度和序列变异) |
| 优势 | 1. 技术成熟稳定,全球标准; 2. 自动化程度高,通量大 ;3. 成本相对较低;4. 流程标准化,数据库完善;5. 数据分析简单快捷 | 1. 准确性最高,是验证其他方法的“金标准”;2. 序列结果明确,无歧义;3. 可检测侧翼区SNP; | 1. 信息量最丰富:能发现“等位基因丢失”;2. 高通量:可同时检测数百个基因座(STR+SNP);3. 卓越的混合样本分析能力;4. 更适合降解DNA (测序读长短) |
| 劣势 | 1. 无法区分序列变异 (等位基因丢失);2. 对高度降解DNA的分析能力有限;3. 复杂混合样本解析困难 | 1. 通量极低,一次反应只能测一个片段;2. 成本高昂 (按片段收费);3. 操作繁琐,耗时漫长;4. 完全不适用于常规STR分型筛查 | 1. 初始设备和试剂成本;2. 数据分析复杂,需生物信息学支持;3. 标准化仍在进行中;4. 数据存储和管理挑战大 |
| 检测通量 | 高 (一次运行可检测16-24个STR基因座) | 极低 (一次运行只能检测一个片段的序列) | 超高 (一次运行可检测数百个样本的数百个基因座) |
| 成本效益 | 高 (适合大规模常规检测) | 低 (仅适合疑难样本的靶向验证) | 初期投入高,但单位数据成本低 (适合大批量样本的多基因座检测) |
| 主要应用场景 | 法医DNA数据库建设、亲子鉴定、个体识别 (绝对主流) | CE结果的验证、疑难等位基因的序列确认、新STR基因座的发现与验证 | 疑难案件检验 (降解检材、复杂混合样本)、祖先推断/表型预测 (同步测SNP)、研究领域、未来数据库扩展 |