GWAS分析后續(xù)：用PrediXcan建立受SNP調(diào)控的基因表達(dá)和性狀的關(guān)系

生物_醫(yī)藥_科研 2019-02-12

展開全文

導(dǎo)讀

GWAS找到大量的SNP，可是可以解釋生物學(xué)功能的SNP位點卻是很有限的。其結(jié)果讓人看得眼花繚亂，但是單個SNP功能做不出怎么破？別擔(dān)心，本文給你新思路。

從GWAS的結(jié)果中找到具有潛在功能性的基因一直的遺傳學(xué)研究的重點。以往的經(jīng)驗告訴人們，離最顯著SNP最近的基因的易感性最大，但越來越多的證據(jù)表明這種經(jīng)驗并不十分可靠。

隨著越來越多的SNP在非編碼區(qū)被發(fā)現(xiàn)，并且通過遠(yuǎn)端或近端調(diào)控機制影響特定基因的表達(dá)，人們有理由相信那些由SNP調(diào)控的基因表達(dá)改變是影響性狀的一個重要機制。因此，來自芝加哥大學(xué)的研究者們就開發(fā)了一個gene-based關(guān)聯(lián)分析軟件——PredicXcan

PrediXcan工作原理

作者認(rèn)為基因表達(dá)水平受到三個因素的調(diào)控，其中主要的兩個是遺傳因素和疾病狀態(tài)（圖1）。 PrediXcan的目的是建立起受遺傳調(diào)控的基因表達(dá)與性狀之間的關(guān)系。

整個工作流程分為兩步：

（1）估算SNP調(diào)控的基因表達(dá)水平；

（2）建立基因表達(dá)水平與性狀之間的關(guān)聯(lián)。第一步中，作者借助類似于機器學(xué)習(xí)的思想，利用GTEx Project, GEUVADIS 和 DGN數(shù)據(jù)庫中基因型數(shù)據(jù)和基因表達(dá)數(shù)據(jù)做訓(xùn)練集，然后估算用戶導(dǎo)入的基因型數(shù)據(jù)中缺失的表達(dá)數(shù)據(jù)。

一旦得到表達(dá)數(shù)據(jù)，就可建立起基因表達(dá)與性狀之間的關(guān)系。（圖2）

圖1 基因表達(dá)受到遺傳，表型以及其他因素的調(diào)控

圖2 PrediXcan工作流程

如何使用PrediXcan

2.1：文件準(zhǔn)備

運行PrediXcan需要輸入三個文件：轉(zhuǎn)錄組預(yù)測模型文件，基因型文件和樣本信息文件。下面一一介紹。

轉(zhuǎn)錄組預(yù)測模型文件：該文件不用自己制作，去PredictDB網(wǎng)站下載即可：http:///。大家可以根據(jù)自己的需要選擇不同的組織數(shù)據(jù)。

基因型文件：該文件每一行表示一個SNP，包含的信息分別為：chromosome rsid position allele1 allele2 MAF，后面的每一列的內(nèi)容是每一個樣本在該SNP allele2的dosage，最好是每一條染色體分開制作文件。

樣本信息文件：直接將PLINK的fam文件導(dǎo)入即可。

2.2：基因表達(dá)預(yù)測

該步驟需要用到PrediXcan 的“predict”功能，代碼如下：

$./PrediXcan.py --predict --dosages genotype/ --dosages_prefix chr --samples samples.txt --weights model/DGN-HapMap-2015/DGN-WB_0.5.db --output_prefix results/DGN-HapMap

（↑可按住屏幕左右滑動）

這一步中，我們在PrediXcan.py腳本存放的目錄運行程序，假設(shè)我們的基因型文件的名稱前綴是“chr”,樣本信息文件的名稱為“samples.txt”且存放在基因型文件同一目錄下。該步驟會生成一個后綴為“predicted_expression.txt”的文件，存放估算的基因表達(dá)水平，可直接用于下一步。

2.3：基因表達(dá)與性狀的關(guān)聯(lián)分析

該步驟需要制作一個額外的表型文件，前兩列分別是FID和IID。從第三列起可以存放表型，數(shù)據(jù)類型可以是分類變量也可以是連續(xù)變量，如果是分類變量，0表示unaffected，1表示affected。默認(rèn)缺失值是NA。

如果有多個表型列，可以用參數(shù)—mpheno指定要分析的表型位于那一列，如—mpheno 1則表示將文件中第三列作為要分析的表型。

代碼如下：

$./PrediXcan.py --assoc --pheno My_pheno.txt --mpheno 1 --pred_exp results/TW_Brain_Frontal_predicted_expression.txt --logistic --output_prefix results/DGN-HapMap

（↑可按住屏幕左右滑動）

最后奉上PrediXcan在GitHub上的下載地址 https://github.com/hakyimlab/PrediXcan。

小伙伴們有沒有g(shù)et新技能？快用不同的分析方法，豐富大家的文章內(nèi)容吧。趕快拿起自己的GWAS數(shù)據(jù)操練起來~