#軟件工具#解密GWAS的利器--Plink 使用解析

生物_醫(yī)藥_科研 2018-12-15

展開全文

GWAS全基因組關(guān)聯(lián)分析，近年來一直為研究的熱點，不管是研究復雜疾病或是遺傳育種，均有廣泛的用途。但是GWAS的數(shù)據(jù)動輒上千的樣本數(shù)據(jù)，如何對這龐大的數(shù)據(jù)進行分析？這里我們介紹一個強大的工具--PLINK的使用方法。

1. 數(shù)據(jù)準備

Plink的輸入文件及格式

原始文件：ped和map文件

二進制文件：bed、bim、fam等

拓展的格式：ped文件、tped、tfam等

其中ped文件包含了基因型信息，一個樣本一行；map文件包含了ped文件中的位點的信息。ped文件有7列，分別是家族ID、個人ID、父親ID、母親ID、性別、表型phenotype（1/2 代表case or control）后面是基因型genotypes，基因型必須是成對存在的。性別編碼可以使用1、2、other。

map文件默認條件下有4列，類似call snp之后的vcf文件，第一列chr，第二列snp的名字rs#,第三列摩爾根距離，第四列堿基距離，對簡單的關(guān)聯(lián)分析來說摩爾根距離可以設(shè)成0，但是如果要查找個體間共享的片段摩爾根距離就很重要了。

2. 數(shù)據(jù)格式轉(zhuǎn)換

plink工具可以將原始的map和ped格式文件轉(zhuǎn)換成二進制文件可以節(jié)約存儲空間。如下圖所示：下圖為plink的java圖形界面使用方法（后文默認）這里簡單說一下，plink命令行使用非常便捷，但是需要記住一些常用參數(shù)，linux下直接在命令行輸入plink 后面跟參數(shù)即可。

而在命令行下面可以使用：

plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb

或者plink --file hapmap1 --make-bed --out mkbed --noweb

來完成轉(zhuǎn)換

3. Haploview的用法

在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看結(jié)果。

v Haploview是一個進行單倍型分析的一個軟件，該軟件具有如下功能：
連鎖不平衡與單倍型分析

v 單倍型人群頻率估算

v SNP與單倍型關(guān)系分析

v 相互關(guān)系的排列測驗

LD Plot表示該基因所有snp的的連鎖情況，各個方塊的顏色由淺至深（白-紅），表示連鎖程度由低到高，深紅色表示完全連鎖。如下圖所示：圖中展示了7個SNP位點之間的連鎖程度。稱為單體型圖，單體型圖給出了關(guān)聯(lián)緊密及不緊密的區(qū)域。

他們構(gòu)成了第一個block，即haplotype一個單體型，大多數(shù)的染色體區(qū)域只有少數(shù)幾個常見的單體型，每個具有至少5%的頻率，他們代表了人和人之間大部分多態(tài)性。一個染色體區(qū)域可以有很多SNP位點，但是只用少數(shù)幾個標簽SNP就能提供該區(qū)域大多數(shù)的遺傳多態(tài)性，下面這個的意思是上面的三個SNP構(gòu)成了一個單體型，其中三個SNP之間為ACC CCC CAA CAC CCA 的概率分別如下所示，如果有其他的單體型可能會之間連接一下，線的粗細代表了關(guān)聯(lián)性。例如右邊的圖。

對每個SNP點擊下面那個run tager可以查看相應(yīng)的標簽SNP，可以限定R^2的大小可以當成一個haplotype。

4. 丟失檢驗

--missing 報告丟失率按每個個體和每個SNP，生成兩個文件*.imissing 和*.lmissing

這個對GWAS中的質(zhì)量控制非常有用。

命令行下輸入：plink --file infile --missing --out miss --noweb

生成miss.imissing 和miss.lmissing

Lmiss格式文件的內(nèi)容計息 N_MISS指的是缺失的個體數(shù)目，F_MISS指的是確實的比例。

同樣imissing中，MISS_PHENO 指的是缺失的基因型，N_MISS 缺失的數(shù)目 F_MISS是指頻率。

生成的文件中：

F_MISS_A 在case組的丟失rate

F_MISS_U在control組的丟失的rate

P 漸進pvalue值Fisher精確檢驗的pvalue

關(guān)于基因型丟失的具體數(shù)據(jù)在lmiss文件中可以查找到。

5. 等位基因頻率

--freq 得到等位基因的頻率，得到的*.frq文件這里控制顯示的maf的大小可以篩選snp

如果想查看某個SNP 在種群中的頻率：

Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb

6. 哈迪溫伯格平衡檢驗

--hardy 報告精確的哈迪溫伯格不平衡的檢驗結(jié)果

plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件

樣品代表+次要等位基因編碼+主要的等位基因編碼+觀察到的雜合率+期望的雜合率+哈迪溫伯格檢驗的pvalue。

--hardy2 報告漸進的哈迪溫伯格不平衡檢驗的結(jié)果，結(jié)果和--hardy有所不同，在pvalue那一列差異最大

7. 孟德爾錯誤率計算

--mendel 報告孟德爾錯誤檢查的結(jié)果，生成4個文件

文件內(nèi)容如下：

--check-sex 使用X染色體的數(shù)據(jù)來檢查個體是否正確的標注了性別

--impute-sex 使用X染色體的數(shù)據(jù)來推測性別

8. 關(guān)聯(lián)分析

基本的case/control關(guān)聯(lián)檢驗

等位基因的關(guān)聯(lián)分析檢驗

參數(shù)解析：

　　--assoc case/control關(guān)聯(lián)分析/QTL關(guān)聯(lián)分析

　　--adjust 使用調(diào)整的p-value

會在產(chǎn)生上面assoc文件的同時產(chǎn)生一個*.assoc.adjusted文件：一些控制的參數(shù)：

--ci 置信度區(qū)間例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原來的assoc文件列有所變化

--perm 模擬默認100萬次，得到*.assoc.perm文件

--aperm 后面有6個參數(shù) 是adaptive模擬模型的6個參數(shù) permutation（這里我譯成模擬）

--mperm 后面跟數(shù)字例如1000 在最大模擬模型中的模擬次數(shù)

--rank 用在--mperm后面 rank-based 模擬

--fisher Fisher精確檢驗 plink --file hapmap1 --chr 18 　　--fisher --out fisher --noweb

得到*.assoc.fisher 這個結(jié)果其實包含在了剛才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb中

--model Cochran-Armitage 和full-model C/C 關(guān)聯(lián)分析，得到的結(jié)果：

--assoc / --fisher /--model /--linear /--logistic 都是檢驗單個genotype的

關(guān)于關(guān)聯(lián)檢驗的方法PLINK還提供了如 Genotypic C/C association tests；TDT 家庭檢驗；分層檢驗等檢驗方法。

9. 線性回歸/logistic回歸分析方法

--linear 檢驗數(shù)量性狀和多個協(xié)方差之間的關(guān)系test for quantitative traits and multiple covariates

　　--logistic 疾病治療和多個協(xié)方差之間的檢驗

其他參數(shù)，參考PLINK的manual 文檔

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：生物_醫(yī)藥_科研 > 《方法原理》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章

生物_醫(yī)藥_科研

關(guān)注對話

TA的最新館藏

國產(chǎn)第2款MET抑制劑獲批，盤點30億級賽道的入局者和新機會
黑色素瘤一線治療又添新方案！FDA批準首個免疫+雙靶向療法用于BRAFV600突變晚期黑色素瘤
國際視野丨膽道惡性腫瘤的靶點及耐藥機制
恒瑞創(chuàng)新藥卡瑞利珠單抗聯(lián)合阿帕替尼非小細胞肺癌研究發(fā)表于JTO
17 款四代靶向藥，全面攻堅 EGFR 耐藥
最全整理匯總：HER2陽性乳腺癌靶向治療研究進展

喜歡該文的人也喜歡更多

熱門閱讀換一換

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

#軟件工具#解密GWAS的利器--Plink 使用解析