這里,總結(jié)一下GWAS的學(xué)習(xí)筆記,GWAS全稱“全基因組關(guān)聯(lián)分析”,使用統(tǒng)計模型找到與性狀關(guān)聯(lián)的位點,用于分子標記選擇(MAS)或者基因定位,這次學(xué)習(xí)的教程是plink做GWAS,plink是個很好的軟件,但是我之前做GWAS都是使用R包,聽說plink 和EMMAX 做GWAS更快,更好,更容易寫出pipeline 。就利用網(wǎng)上的信息寫一個操作筆記,先操作plink,然后是EMMAX。對于一些有模型基礎(chǔ)的同學(xué),理解起來應(yīng)該不難。 GWAS分析的兩類性狀: - 分類性狀(閾值性狀,質(zhì)量性狀):比如抗病性,顏色等等
- 連續(xù)性狀(數(shù)量性狀):比如株高,體重,產(chǎn)量等等
GWAS的分析方法: 「一般線性模型(GLM):」 這里,SNP作為固定因子,可以考慮其它協(xié)變量(比如性別,PCA,群體結(jié)構(gòu)等等) 「混合線性模型(MLM):」 - 固定因子:SNP + 可以考慮其它協(xié)變量(比如性別,PCA,群體結(jié)構(gòu)等等),這里固定因子和前面的GLM一樣
- 隨機因子:親緣關(guān)系矩陣(K矩陣或者A矩陣)

參考:?教程代碼和數(shù)據(jù)下載:https://github.com/MareesAT/GWA_tutorial/ ? 這個教程非常的經(jīng)典,我看網(wǎng)上很多人推薦。 ?相關(guān)的文章:https://onlinelibrary./doi/full/10.1002/mpr.1608 ? 教程中包括數(shù)據(jù)的過濾,SNP的過濾,樣本的過濾,質(zhì)控的標準等等,介紹的非常清楚,看完這篇文章,感覺plink的語法知識又增加了很多。 1. 下載數(shù)據(jù)和代碼首先,在linux環(huán)境下,新建一個文件夾,進入后運行下面命令: git clone https://github.com/MareesAT/GWA_tutorial.git
下載之后,目錄如下: . └── GWA_tutorial ├── 1_QC_GWAS.zip ├── 2_Population_stratification.zip ├── 3_Association_GWAS.zip ├── 4_PRS.doc └── README.md
1 directory, 5 files
2. 下載R語言和plink軟件如果你已經(jīng)安裝了這兩個軟件,就不用下載安裝了。 - plink:http://zzz.bwh./plink/ https://www./plink2
3. 解壓文件這里,使用unzip 命令,解壓zip文件。 unzip 1_QC_GWAS.zip unzip 2_Population_stratification.zip unzip 3_Association_GWAS.zip
4. 文件介紹4.1 質(zhì)控主要是根據(jù)一些篩選標準,去掉一些位點。篩選標準有缺失百分比,哈溫等等。 「文件夾:」1_QC_GWAS 主要文件: 1_Main_script_QC_GWAS.txt HapMap_3_r3_1.bed HapMap_3_r3_1.bim HapMap_3_r3_1.fam check_heterozygosity_rate.R Relatedness.R hist_miss.R pops_HapMap_3_r3 hwe.R MAF_check.R gender_check.R heterozygosity_outliers_list.R inversion.txt
其中1_Main_script_QC_GWAS.txt 里面包括所有運行的代碼,HapMap* 文件是plink格式的文件,*R 是幾個用于檢測和可視化的R腳本,我們后面會依次講解這些代碼。 4.2 群體分層「文件夾:」2_Population_stratification 1_Main_script_QC_GWAS.txt 2_Main_script_MDS.txt MDS_merged.R
其中,1_Main_script_QC_GWAS.txt ,2_Main_script_MDS.txt 為運行代碼。 4.3 GWAS分析「文件夾:」 3_Association_GWAS QQ_plot.R Manhattan_plot.R 3_Main_script_association_GWAS.txt
其中,3_Main_script_association_GWAS.txt 為運行代碼。 4.4 多基因風(fēng)險評分(PRS)分析是一個word文件: 這是獨立的一步,有需要的可以查看里面的分析方法。 5. 未完待續(xù)!
|