13 Annovar注釋 annovar也是一款比較有名的變異位點注釋工具,使用起來也非常容易,使用vcf格式就可以進行注釋,軟件會首先對其進行格式轉換,然后進行注釋。 #生成annovar格式 14 clinvar臨床數(shù)據(jù)庫注釋 clinvar是收集了與人類疾病相關突變位點的數(shù)據(jù)庫,將得到的突變位點與clinvar數(shù)據(jù)庫進行比對即可根據(jù)突變情況進行疾病的預測。使用clinvar數(shù)據(jù)庫首先需要下載clinvar數(shù)據(jù)庫,下載之后可以使用snpEFF后者annovar軟件進行注釋。
15 一致性序列 所謂一致性序列,就是一條與參考序列長度一致,但是僅將突變位點進行替換的序列,一致性序列完全根據(jù)參考序列為模板生成,是并不存在的序列,主要用于后面構建系統(tǒng)發(fā)育樹。 bcftools consensus -f ref.fna -s Sample1 -o Sample1_consensus.fa file.vcf.gz 16 VQSR VQSR是Variant Quality Score Recalibration,是GATK的核心功能,也就是利用機器學習算法對vcf進行過濾。利用機器學習算法對突變位點進行過濾比采用“一刀切”對所有位點處理的方式準確性更高。進行VQSR,首要要準備的已知變異集作為訓練集,可以是Hapmap、OMNI,1000G,dbsnp,瓶中基因組計劃等這些國際性項目的數(shù)據(jù),然后利用訓練集對每一個位點進行過濾。利用VariantRecalibrator工具進行機器學習,ApplyVQSR工具進行處理。VQSR過濾SNP和InDel分別進行,首先處理SNP,得到結果后,在進行InDel處理。具體方法可以參加gatk軟件的VQSR說明部分。 https://gatkforums./gatk/discussion/39/variant-quality-score-recalibration-vqsr ---------- END ---------- |
|
來自: 生物_醫(yī)藥_科研 > 《待分類》