乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      #軟件工具#解密GWAS的利器--Plink 使用解析

       生物_醫(yī)藥_科研 2018-12-15

      GWAS全基因組關(guān)聯(lián)分析,近年來一直為研究的熱點,不管是研究復雜疾病或是遺傳育種,均有廣泛的用途。但是GWAS的數(shù)據(jù)動輒上千的樣本數(shù)據(jù),如何對這龐大的數(shù)據(jù)進行分析?這里我們介紹一個強大的工具--PLINK的使用方法。

      1. 數(shù)據(jù)準備

      Plink的輸入文件及格式

      原始文件:pedmap文件

      二進制文件:bedbim、fam

      拓展的格式:ped文件、tped、tfam等

      其中ped文件包含了基因型信息,一個樣本一行;map文件包含了ped文件中的位點的信息。ped文件有7列,分別是家族ID、個人ID、父親ID、母親ID、性別、表型phenotype1/2 代表case or control)后面是基因型genotypes,基因型必須是成對存在的。性別編碼可以使用1、2、other。

      map文件默認條件下有4列,類似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩爾根距離,第四列堿基距離,對簡單的關(guān)聯(lián)分析來說摩爾根距離可以設(shè)成0,但是如果要查找個體間共享的片段摩爾根距離就很重要了。

      2. 數(shù)據(jù)格式轉(zhuǎn)換

      plink工具可以將原始的mapped格式文件轉(zhuǎn)換成二進制文件可以節(jié)約存儲空間。如下圖所示:下圖為plinkjava圖形界面使用方法(后文默認)這里簡單說一下,plink命令行使用非常便捷,但是需要記住一些常用參數(shù),linux下直接在命令行輸入plink 后面跟參數(shù)即可。

      而在命令行下面可以使用:

      plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb

      或者plink --file hapmap1 --make-bed --out mkbed --noweb

      來完成轉(zhuǎn)換

      3. Haploview的用法

      在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看結(jié)果。

      v Haploview是一個進行單倍型分析的一個軟件,該軟件具有如下功能:
      連鎖不平衡與單倍型分析

      v 單倍型人群頻率估算

      v SNP與單倍型關(guān)系分析

      v 相互關(guān)系的排列測驗

      LD Plot表示該基因所snp的的連鎖情況,各個方塊的顏色由淺至深(白-紅),表示連鎖程度由低到高,深紅色表示完全連鎖。如下圖所示:圖中展示了7SNP位點之間的連鎖程度。稱為單體型圖,單體型圖給出了關(guān)聯(lián)緊密及不緊密的區(qū)域。


      他們構(gòu)成了第一個block,即haplotype一個單體型,大多數(shù)的染色體區(qū)域只有少數(shù)幾個常見的單體型,每個具有至少5%的頻率,他們代表了人和人之間大部分 多態(tài)性。一個染色體區(qū)域可以有很多SNP位點,但是只用少數(shù)幾個標簽SNP就能提供該區(qū)域大多數(shù)的遺傳多態(tài)性,下面這個的意思是上面的三個SNP構(gòu)成了一個單體型,其中三個SNP之間為ACC CCC CAA CAC CCA 的概率分別如下所示,如果有其他的單體型可能會之間連接一下,線的粗細代表了關(guān)聯(lián)性。例如右邊的圖。

      對每個SNP點擊下面那個run tager可以查看相應(yīng)的標簽SNP,可以限定R^2的大小可以當成一個haplotype




      4. 丟失檢驗

      --missing 報告丟失率按每個個體和每個SNP,生成兩個文件*.imissing *.lmissing

      這個對GWAS中的質(zhì)量控制非常有用。

      命令行下輸入:plink --file infile --missing --out miss --noweb

      生成miss.imissing miss.lmissing

      Lmiss格式文件的內(nèi)容計息 N_MISS指的是缺失的個體數(shù)目,F_MISS指的是確實的比例。

      同樣imissing中,MISS_PHENO 指的是缺失的基因型,N_MISS 缺失的數(shù)目 F_MISS是指頻率。

      生成的文件中:

      F_MISS_A case組的丟失rate

      F_MISS_Ucontrol組的丟失的rate

      P 漸進pvalueFisher精確檢驗的pvalue

      關(guān)于基因型丟失的具體數(shù)據(jù)在lmiss文件中可以查找到。

      5. 等位基因頻率

      --freq 得到等位基因的頻率,得到的*.frq文件這里控制顯示的maf的大小可以篩選snp

      如果想查看某個SNP 在種群中的頻率:

      Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb


      6. 哈迪溫伯格平衡檢驗

      --hardy 報告精確的哈迪溫伯格不平衡的檢驗結(jié)果

      plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件

      樣品代表+次要等位基因編碼+主要的等位基因編碼+觀察到 的雜合率+期望的雜合率+哈迪溫伯格檢驗的pvalue。


      --hardy2 報告漸進的哈迪溫伯格不平衡檢驗的結(jié)果,結(jié)果和--hardy有所不同,在pvalue那一列差異最大

      7. 孟德爾錯誤率計算

      --mendel 報告孟德爾錯誤檢查的結(jié)果,生成4個文件

      文件內(nèi)容如下:

      --check-sex 使用X染色體的數(shù)據(jù)來檢查個體是否正確的標注了性別

      --impute-sex 使用X染色體的數(shù)據(jù)來推測性別

      8. 關(guān)聯(lián)分析

      基本的case/control關(guān)聯(lián)檢驗

      等位基因的關(guān)聯(lián)分析檢驗

      參數(shù)解析:

        --assoc case/control關(guān)聯(lián)分析/QTL關(guān)聯(lián)分析

        --adjust 使用調(diào)整的p-value

      會在產(chǎn)生上面assoc文件的同時產(chǎn)生一個*.assoc.adjusted文件:一些控制的參數(shù):

      --ci 置信度區(qū)間 例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原來的assoc文件列有所變化

      --perm 模擬 默認100萬次,得到*.assoc.perm文件

      --aperm 后面有6個參數(shù) 是adaptive模擬模型的6個參數(shù) permutation(這里我譯成模擬)

      --mperm 后面跟數(shù)字例如1000 在最大模擬模型中的模擬次數(shù)

      --rank 用在--mperm后面 rank-based 模擬

      --fisher Fisher精確檢驗 plink --file hapmap1 --chr 18   --fisher --out fisher --noweb

      得到*.assoc.fisher 這個結(jié)果其實包含在了剛才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb

      --model Cochran-Armitage full-model C/C 關(guān)聯(lián)分析,得到的結(jié)果:


      --assoc / --fisher /--model /--linear /--logistic 都是檢驗單個genotype

      關(guān)于關(guān)聯(lián)檢驗的方法PLINK還提供了如 Genotypic C/C association tests;TDT 家庭檢驗;分層檢驗等檢驗方法。

      9. 線性回歸/logistic回歸分析方法

      --linear 檢驗數(shù)量性狀和多個協(xié)方差之間的關(guān)系test for quantitative traits and multiple covariates

        --logistic 疾病治療和多個協(xié)方差之間的檢驗

      其他參數(shù),參考PLINK的manual 文檔

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章