微卫星不稳定性 (MSI) 是多种癌症类型中常见的一种现象,其特征是在整个基因组中发现的微卫星区域中插入和缺失(indels)的积累,具有高微卫星不稳定性 (MSI-H) 的癌症可能是免疫检查点抑制剂治疗的良好候选者。所以MSI自1993年首次在结直肠癌中被提出后,不断发展。目前作为帮助指导免疫检查点抑制剂治疗的生物标志物,已经进入数十种癌症的指南/共识之中。详细信息可以参考我们之前的合集文章 。
虽然尚未在实验室环境中确切证明 MSI 是如何产生的,但主要的假设是 DNA 错配修复途径的缺陷可能导致微卫星位点插入/缺失数量的增加。这种插入缺失率的显着增加是 MSI 的主要特征及其主要识别方式。
目前已经有很多基于不同原理的检测方法包括IHC、PCR、NGS。之前的文章也有介绍,在这里我们也不进行赘述,今天介绍的是最近刚发表在发表在《Briefings in Bioinformatics》期刊上的一篇对现有公开的基于NGS数据进行MSI检测软件进行的评估文章。
因为MSI-L不是在所有软件都支持,所以所有测评都是进行的二分类:MSI-H 和 MSS(MSI-L视为MSS)。
测试数据集
数据分为两个部分:TCGA数据 和 其他测试数据。
- TCGA的测试数据都是从GDC下载的,数据格式都是Bam文件格式,数据类型包括 WXS(852)、WGS(321)、RNA(825) 的测序数据。具体清单如下:
Project ID Cancer Sequencing Number of Samples Number of MSS Number of MSI-H COAD Colon WGS 56 46 10 ESCA Esophageal WGS 2 0 2 STAD Stomach WGS 136 107 29 UCEC Uterine/endometrial WGS 145 102 43 COAD Colon WXS 284 232 52 ESCA Esophageal WXS 3 0 3 READ Rectum WXS 3 0 3 STAD Stomach WXS 292 228 64 UCEC Uterine/endometrial WXS 268 196 72 COAD Colon RNA 280 230 50 ESCA Esophageal RNA 3 0 3 READ Rectum RNA 3 0 3 STAD Stomach RNA 272 213 59 UCEC Uterine/Endometrial RNA 268 196 72 - 非TCGA数据都是从SRA数据库数据库中提取出来的,然后参考TCGA的处理流程(BWA比对到GRCh38.p14)进行的相关处理。
Project ID Cancer Sequencing Number of Samples Number of MSS Number of MSI-H PRJNA629785 Colorectal End-seq 34 7 27 PRJNA810563 Pan 6 Marker Panel 178 166 12 SRP008162 Prostate T/O WXS 21 16 5 PRJNA727917 Colorectal P/N WXS 21 0 21 PRJNA256024 Prostate 53 Marker Panel 43 30 13 PRJNA701182 Pan 161 Marker Panel 191 185 6 PRJNA841034 Gastric TSO500 36 34 2 PRJEB57620 Male Breast TSO500 14 14 0 PRJNA843231 Pan TSO500 14 11 3 PRJNA748264 Colon RNA 143 122 21
测评的软件
文章总共评估了8款软件,分别是:MSIsensor , MSIsensor2 , MSIsensor-pro , mSINGS, MANTIS , MSINGB , PreMSIm , and MSIsensor-RNA。 当然所有的相关处理基本(除了 MANTIS 调整了质量阈值,否则找不到可用位点无法分析)都是按着研发作者的推荐设置进行的配置。
| Tool | Original evaluation data | Algorithm used for MSI detection | Output (MSI score) | Recommended threshold | Requires paired normal |
|---|---|---|---|---|---|
| MSIsensor | 242 endometrial TCGA WXS samples | χ2 test between tumor and normal read counts | Percent of unstable microsatellites | 3.5 | Yes |
| MSIsensor-pro | 1532 pan-cancer TCGA WXS samples | Multinomial distribution model distinguishes MSI sites by comparing probability of polymerase slippage | Percent of unstable microsatellites | None | No |
| MSIsensor2 | 117 EGA samples and 10 TSO500 samples (TCGA also used but not numerically described) | Machine learning based (specifics not given) | Percent of unstable microsatellites | 20 | No |
| mSINGS | 26 TCGA pan-cancer WXS and 298 pan-cancer gene panel samples | Read count differences between tumor sample and baseline normal | Fraction of unstable microsatellites | 0.2 | No |
| MANTIS | 387 pan-cancer TCGA WXS samples | Absolute stepwise difference between tumor and normal read counts | Average aggregate instability | 0.4 | Yes |
| MSINGB | 1432 pan-cancer TCGA WXS samples and 1055 pan-cancer non-TCGA WXS samples | NGBoost machine learning model based on somatic mutations | MSI status and probability of the classification | N/A (No score output) | No |
| PreMSIm | 1383 pan-cancer TCGA RNA samples and 2006 gastric/colorectal microarray samples | K-nearest neighbors machine learning model based on gene expression | MSI status and probability of the classification | N/A (No score output) | No |
| MSIsensor-RNA | 1428 pan-cancer TCGA RNA samples, 247 non-TCGA RNA samples, 1468 gastric/colorectal microarray samples, and 133 SC-RNA colorectal samples | Support vector machine learning classifier based on gene expression | MSI status and probability of the classification | N/A (No score output, but there are recommendations for feature selection thresholds) | No |
测评结果
MSI 工具在 WXS 样本上的表现优于 WGS 样本
大多数 MSI 工具在 WXS 数据上的表现优于在 WGS 数据上的表现。两个例外是 mSINGS 和 MSINGB,它们在额外的配对正常和仅肿瘤 WXS 数据集上的性能指标较低。所有 MSI 工具都对 TCGA WXS 数据表现出良好的性能,但 mSINGS 除外,它的召回率和 F1 分数较低。在所有 MSI 工具中,只有 MSIsensor2 在 WGS 数据的所有性能指标上都具有较高的值
所有 MSI 工具及其在创建混淆矩阵的所有数据集上的性能的热图(具体数据不影响我们整体理解软件性能,有需要可以在文章原文中查看)。黑色图块是 NA 值,黑白条纹图块是无法计算指标的实例。
- P/N WXS 是额外的配对正常全外显子组测序数据集,
- T/O WXS 是额外的仅肿瘤全外显子组测序数据集。
- 6 Marker是 6 个单核苷酸芯片。
- TCGA WGS 是由来自TCGA的全外显子组
- WXS 是由来自TCGA的 WGS 数据。
- all 是每个工具的合并结果。
MSIsensor、MSIsensor-pro、MSIsensor2 和 MANTIS 的 ROC 和 PR 曲线均具有较高的曲线下面积 (AUC)。除 MSIsensor2 和 MANTIS 之外,所有工具的 WGS 数据的 ROC 和 PR AUC 值也显着低于 WXS 数据(A、B、C、D )。在 ROC 空间与 PR 空间中测量时,AUC 也出现大幅下降,这意味着工具可能会遗漏更多真实的阳性结果(2C、D )。 ROC 和 PR AUC 最显着的差异体现在 WXS 数据上的 mSINGS 以及 WGS 数据上的 MSIsensor 和 MSIsensor-pro
所有 TCGA 样本的 ROC 和 PR 曲线。 TCGA WXS(A、B)和 WGS(C、D)样本的所有 ROC 曲线和 PR 曲线。