bedtools是一个针对bed进行处理的工具,算是类似bwa一样,接触该行业不会陌生的一个软件。再次介绍一下bedtools的一些常用的功能。
单个bed文件的处理
- 对原始bed进行排序
1
bedtools sort -i BedPrePare/Pancancer_v2.bed > BedPrePare/Pancancer_v2.sort.bed
对原始bed区域进行合并(合并有交集的区域)
1 | bedtools merge -i BedPrePare/Pancancer_v2.sort.bed > BedPrePare/Pancancer_v2.merge.bed |
多个bed文件的处理处理
保留两个 bed 的交集部分
1
bedtools intersect -a Pancancer_v2.anno.Oldtrans.bed -b Pancancer_v2.anno.Newtrans.bed > old_new.overlap.bed
基于结构文件(-b)对原始bed区域进行注释,保留-b文件的注释列(-wb)
1
bedtools intersect -a BedPrePare/Pancancer_v2.merge.bed -b NCBI.gff2bed.bed -wb | cut -f1-3,7-10 > BedPrePare/Pancancer_v2.anno.bed
评估相关基因的覆盖情况
1
bedtools intersect -b BedPrePare/Pancancer_v2.merge.bed -a NCBI.gff2bed.bed -wao > BedPrePare/Pancancer_v2.covercheck.bed
保留 -a文件的所有区域,并记录交集区域的注释信息$ bedtools intersect -a WESv5withSafeRisk.bed -b GeneTranscript_RD_Tumor.NewTrans.20231109.bed -wao | head
chr1 65498 65638 chr1 65434 65519 OR4F5 NM_001005484.2 IU IVS1 + - 21
chr1 65498 65638 chr1 65565 65573 OR4F5 NM_001005484.2 C1 EX2 + - 8
chr1 65498 65638 chr1 65574 69036 OR4F5 NM_001005484.2 IC1 IVS2 + - 64
chr1 65498 65638 chr1 65520 65564 OR4F5 NM_001005484.2 5'UTR EX2 + - 44
chr1 69036 70008 chr1 69037 70008 OR4F5 NM_001005484.2 C2 EX3 + - 971
chr1 367648 368607 chr1 367659 368597 OR4F29 NM_001005221.2 C1 EX1 + - 938
chr1 564537 564657 . -1 -1 . . . . . . 0
chr1 621085 622044 chr1 621096 622034 OR4F16 NM_001005277.1 C1 EX1 - - 938
- 获得两个 bed 的差集, B(-b) 产品比 A(-A) 产品缺少的区域
1
bedtools subtract -a Pancancer_v2.anno.Oldtrans.bed -b Pancancer_v2.anno.Newtrans.bed > old.subtract.new.bed
bed文件的注释
- 使用参考基因组进行bed的注释
1
2
3
4
5
6
7
8bedtools nuc -fi $hg19 -bed /jdfstj6/B2C_RD/liubo4/product/cWES/src/db/Hyper_ExMit_TR/cns_region_GRCh37_bychr/WESv5withSafeRisk.bed
# 结果前面几列是bed输入字段,后面是区域内各个碱基的情况统计结果,示例如下:
#1_usercol 2_usercol 3_usercol 4_pct_at 5_pct_gc 6_num_A 7_num_C 8_num_G 9_num_T 10_num_N 11_num_oth 12_seq_len
chr1 65498 65638 0.692857 0.307143 49 19 24 48 0 0 140
chr1 69036 70008 0.573045 0.426955 231 228 187 326 0 0 972
chr1 367648 368607 0.541189 0.458811 204 245 195 315 0 0 959
chr1 564537 564657 0.608333 0.391667 43 40 7 30 0 0 120