GWAS全基因組關(guān)聯(lián)分析,近年來一直為研究的熱點,不管是研究復雜疾病或是遺傳育種,均有廣泛的用途。但是GWAS的數(shù)據(jù)動輒上千的樣本數(shù)據(jù),如何對這龐大的數(shù)據(jù)進行分析?這里我們介紹一個強大的工具--PLINK的使用方法。 1. 數(shù)據(jù)準備 Plink的輸入文件及格式 原始文件:ped和map文件 二進制文件:bed、bim、fam等 拓展的格式:ped文件、tped、tfam等 其中ped文件包含了基因型信息,一個樣本一行;map文件包含了ped文件中的位點的信息。ped文件有7列,分別是家族ID、個人ID、父親ID、母親ID、性別、表型phenotype(1/2 代表case or control)后面是基因型genotypes,基因型必須是成對存在的。性別編碼可以使用1、2、other。 map文件默認條件下有4列,類似call snp之后的vcf文件,第一列chr,第二列snp的名字rs#,第三列摩爾根距離,第四列堿基距離,對簡單的關(guān)聯(lián)分析來說摩爾根距離可以設(shè)成0,但是如果要查找個體間共享的片段摩爾根距離就很重要了。 2. 數(shù)據(jù)格式轉(zhuǎn)換 plink工具可以將原始的map和ped格式文件轉(zhuǎn)換成二進制文件可以節(jié)約存儲空間。如下圖所示:下圖為plink的java圖形界面使用方法(后文默認)這里簡單說一下,plink命令行使用非常便捷,但是需要記住一些常用參數(shù),linux下直接在命令行輸入plink 后面跟參數(shù)即可。 而在命令行下面可以使用: plink --map hapmap1.map --ped hapmap1.ped --make-bed --out mkbed --noweb 或者plink --file hapmap1 --make-bed --out mkbed --noweb 來完成轉(zhuǎn)換 3. Haploview的用法 在第二部分中有一步就是查看部分的SNP的信息并recodeHV保存成haploview可以查看的info格式并用haploview查看結(jié)果。 v Haploview是一個進行單倍型分析的一個軟件,該軟件具有如下功能: v 單倍型人群頻率估算 v SNP與單倍型關(guān)系分析 v 相互關(guān)系的排列測驗 LD Plot表示該基因所有snp的的連鎖情況,各個方塊的顏色由淺至深(白-紅),表示連鎖程度由低到高,深紅色表示完全連鎖。如下圖所示:圖中展示了7個SNP位點之間的連鎖程度。稱為單體型圖,單體型圖給出了關(guān)聯(lián)緊密及不緊密的區(qū)域。 他們構(gòu)成了第一個block,即haplotype一個單體型,大多數(shù)的染色體區(qū)域只有少數(shù)幾個常見的單體型,每個具有至少5%的頻率,他們代表了人和人之間大部分 多態(tài)性。一個染色體區(qū)域可以有很多SNP位點,但是只用少數(shù)幾個標簽SNP就能提供該區(qū)域大多數(shù)的遺傳多態(tài)性,下面這個的意思是上面的三個SNP構(gòu)成了一個單體型,其中三個SNP之間為ACC CCC CAA CAC CCA 的概率分別如下所示,如果有其他的單體型可能會之間連接一下,線的粗細代表了關(guān)聯(lián)性。例如右邊的圖。 對每個SNP點擊下面那個run tager可以查看相應(yīng)的標簽SNP,可以限定R^2的大小可以當成一個haplotype。 4. 丟失檢驗 --missing 報告丟失率按每個個體和每個SNP,生成兩個文件*.imissing 和*.lmissing 這個對GWAS中的質(zhì)量控制非常有用。 命令行下輸入:plink --file infile --missing --out miss --noweb 生成miss.imissing 和miss.lmissing Lmiss格式文件的內(nèi)容計息 N_MISS指的是缺失的個體數(shù)目,F_MISS指的是確實的比例。 同樣imissing中,MISS_PHENO 指的是缺失的基因型,N_MISS 缺失的數(shù)目 F_MISS是指頻率。 生成的文件中: F_MISS_A 在case組的丟失rate F_MISS_U在control組的丟失的rate P 漸進pvalue值Fisher精確檢驗的pvalue 關(guān)于基因型丟失的具體數(shù)據(jù)在lmiss文件中可以查找到。 5. 等位基因頻率 --freq 得到等位基因的頻率,得到的*.frq文件這里控制顯示的maf的大小可以篩選snp 如果想查看某個SNP 在種群中的頻率: Plink --file hapmap1 --snp rs4074137--freq --out 1snp --noweb
--hardy 報告精確的哈迪溫伯格不平衡的檢驗結(jié)果 plink --file hapmap1 --hardy --out hw --noweb得到的hwe文件 樣品代表+次要等位基因編碼+主要的等位基因編碼+觀察到 的雜合率+期望的雜合率+哈迪溫伯格檢驗的pvalue。 --hardy2 報告漸進的哈迪溫伯格不平衡檢驗的結(jié)果,結(jié)果和--hardy有所不同,在pvalue那一列差異最大 7. 孟德爾錯誤率計算 --mendel 報告孟德爾錯誤檢查的結(jié)果,生成4個文件 文件內(nèi)容如下: --check-sex 使用X染色體的數(shù)據(jù)來檢查個體是否正確的標注了性別 --impute-sex 使用X染色體的數(shù)據(jù)來推測性別 8. 關(guān)聯(lián)分析 基本的case/control關(guān)聯(lián)檢驗 等位基因的關(guān)聯(lián)分析檢驗 參數(shù)解析: --assoc case/control關(guān)聯(lián)分析/QTL關(guān)聯(lián)分析 --adjust 使用調(diào)整的p-value 會在產(chǎn)生上面assoc文件的同時產(chǎn)生一個*.assoc.adjusted文件:一些控制的參數(shù): --ci 置信度區(qū)間 例如 plink --file hapmap1 --assoc --ci 0.9 --out test --noweb 得到的文件中相比原來的assoc文件列有所變化 --perm 模擬 默認100萬次,得到*.assoc.perm文件 --aperm 后面有6個參數(shù) 是adaptive模擬模型的6個參數(shù) permutation(這里我譯成模擬) --mperm 后面跟數(shù)字例如1000 在最大模擬模型中的模擬次數(shù) --rank 用在--mperm后面 rank-based 模擬 --fisher Fisher精確檢驗 plink --file hapmap1 --chr 18 --fisher --out fisher --noweb 得到*.assoc.fisher 這個結(jié)果其實包含在了剛才的plink --file hapmap1 --chr 18 --assoc --ci 0.9 --out * --noweb中 --model Cochran-Armitage 和full-model C/C 關(guān)聯(lián)分析,得到的結(jié)果: --assoc / --fisher /--model /--linear /--logistic 都是檢驗單個genotype的 關(guān)于關(guān)聯(lián)檢驗的方法PLINK還提供了如 Genotypic C/C association tests;TDT 家庭檢驗;分層檢驗等檢驗方法。 9. 線性回歸/logistic回歸分析方法 --linear 檢驗數(shù)量性狀和多個協(xié)方差之間的關(guān)系test for quantitative traits and multiple covariates --logistic 疾病治療和多個協(xié)方差之間的檢驗 其他參數(shù),參考PLINK的manual 文檔
|
|
來自: 生物_醫(yī)藥_科研 > 《方法原理》