GCTA軟件介紹系列1. GCTA介紹在群體遺傳中,GCTA中做PCA非常方便, 下面介紹一下GCTA的安裝方法. 2. 安裝命令使用conda自動安裝 conda install -c biobuilds gcta
手動安裝 官方地址 說明文檔 3. 安裝成功測試這里, 應該鍵入gcta64 , 而不是gcta (base) [dengfei@localhost bin]$ gcta64 ******************************************************************* * Genome-wide Complex Trait Analysis (GCTA) * version 1.26.0 * (C) 2010-2016, The University of Queensland * MIT License * Please report bugs to: Jian Yang <jian.yang@uq.edu.au> ******************************************************************* Analysis started: Wed Apr 24 14:07:43 2019
Options:
Error: no analysis has been launched by the option(s).
Analysis finished: Wed Apr 24 14:07:43 2019 Computational time: 0:0:0
顯示上面信息, 表明軟件安裝成功. 4. 功能介紹
5. 參數(shù)說明5.1 輸入輸出文件輸入文件: --bfile test : 類似plink 的參數(shù)格式. 支持binary文件(test.fam ,test.bim ,test.bed )
--dosage-mach test.mldose test.mlinfo 支持其它數(shù)據(jù)格式
輸出文件: 5.2 數(shù)據(jù)清洗ID保留和刪除 如果不寫, 默認全部使用 選擇SNP --chr 1 :選擇染色體
--autosome 選擇所有SNP
6. 構建G矩陣--make-grm 會生成三個文件:
 如何你想在R中讀取二進制文件, 可以使用如下代碼:
ReadGRMBin=function(prefix,AllN=F,size=4){
sum_i=function(i){return(sum(1:i))}
BinFileName=paste(prefix,".grm.bin",sep="") NFileName=paste(prefix,".grm.N.bin",sep="") IDFileName=paste(prefix,".grm.id",sep="") id = read.table(IDFileName) # read the ID of the gmatrix n=dim(id)[1] BinFile=file(BinFileName,"rb") grm=readBin(BinFile,n=n*(n+1)/2,what=numeric(0),size=size) # generate the fack gmatrix NFile=file(NFileName,"rb"); if(AllN==T){ N=readBin(NFile,n=n*(n+1)/2,what=numeric(0),size=size) }else{ N=readBin(NFile,n=1,what=numeric(0),size=size) } i=sapply(1:n,sum_i) return(list(diag=grm[i],off=grm[i],id=id,N=N)) }
計算近交系數(shù) --ibc : 會用三種方法計算近交系數(shù).
示例: gcta64 --bfile test --autosome --make-grm --out grm
這里: 會生成如下三個文件夾: (base) [dengfei@localhost plink_file]$ ls grm* grm.grm.bin grm.grm.id grm.grm.N.bin
7. 利用構建好的G矩陣, 計算PCA分析--grm test : 這里的xx是前綴, 它其實包括三個文件:
test.grm.bin, test.grm.N.bin test.grm.id
命令: gcta64 --grm grm --pca 3 --out out_pca
--grm grm文件
--pca PCA的數(shù)目為3
--out 結果輸出文件
結果生成兩個文件: (base) [dengfei@localhost plink_file]$ ls out_pca.eigenv* out_pca.eigenval out_pca.eigenvec
8. 利用PCA結果畫圖在R語言中, 設置好工作路徑, 鍵入如下命令: dd=read.table("out_pca.eigenvec",header=F) head(dd) names(dd) = c("Fid","ID","PC1","PC2","PC3") plot(dd$PC1,dd$PC2,pch=c(rep(1,112),rep(2,103)),col=c(rep("blue",112),rep("red",103)),main="PCA",xlab="pc1",ylab="pc2") legend("bottomright",c("TEXT1","TEXT2"),pch=c(rep(1),rep(2)),col=c(rep("blue"),rep("red")))
結果:
 后記1, 使用示例數(shù)據(jù)b.ped 和b.map 使用gcta64做PCA分析看完gcta , 發(fā)現(xiàn)plink 也可以構建G矩陣, 也可以進行PCA分析, 本數(shù)據(jù)使用plink 的解決方案: plink --file b --make-bed --out test
生成test.bed , test.bim ,test.fam 三個文件 gcta64 --bfile test --autosome --make-grm --out grm
生成三個文件: grm.grm.bin grm.grm.id grm.grm.N.bin
gcta64 --grm grm --pca 3
生成兩個文件: gcta.eigenval gcta.eigenvec
dd=read.table("gcta.eigenvec",header=F) head(dd) names(dd) = c("Fid","ID","PC1","PC2","PC3") plot(dd$PC1,dd$PC2,pch=c(rep(1,112),rep(2,103)),col=c(rep("blue",112),rep("red",103)),main="PCA",xlab="pc1",ylab="pc2") legend("bottomright",c("TEXT1","TEXT2"),pch=c(rep(1),rep(2)),col=c(rep("blue"),rep("red")))
結果:
 后記2, 使用示例數(shù)據(jù)b.ped 和b.map 使用plink 做PCA分析看完gcta , 發(fā)現(xiàn)plink 也可以構建G矩陣, 也可以進行PCA分析, 本數(shù)據(jù)使用plink 的解決方案: 只用一行代碼, 就可以生成PCA的數(shù)據(jù), 比gcta64簡單太多了. plink --file b --pca 3
比較兩個數(shù)據(jù)的結果, 可以看出, plink 和gcta64 結果一致.
 對PCA作圖:
 結果一致, 因為plink調用的是gcta64的算法, 構建G矩陣, 構建PCA. 福利1 計算gcta64或者plink可以構建矩陣, asreml 也支持下三角的G矩陣或者G逆矩陣, 問題來了, 兩者怎么聯(lián)系到一起呢? 這樣asreml 就可以愉快的進行GBLUP的分析了. 福利2 之前的博客中有提到利用H矩陣構建PCA 分析, 那么如何操作呢? 欲聽后事如何, 請聽下回分解. 公眾號后臺回復:plink, 獲得測試數(shù)據(jù):b.ped 和b.map , 用于本次分析.
如果您對于數(shù)據(jù)分析,對于軟件操作,對于數(shù)據(jù)整理,對于結果理解,有任何問題,歡迎聯(lián)系我。 作者其它博文: 生物統(tǒng)計: 主要包括試驗設計,生物統(tǒng)計中的數(shù)據(jù)分析,育種中的數(shù)據(jù)分析,相關的文獻解讀。 1,用R語言生成增廣試驗設計
5,如何對數(shù)據(jù)進行匯總統(tǒng)計(R語言) 6,關于聯(lián)合方差分析的討論-1 7,農業(yè)統(tǒng)計分析系列1-軟件包介紹
9,Excel中的數(shù)據(jù)透視功能處理農業(yè)數(shù)據(jù)
10,進軍機器學習--序言 11, 植物育種中全基因組選擇是成熟的方法么? 12, 不同試驗設計遺傳力的計算方法
13, 農業(yè)大數(shù)據(jù)時代的幾個案例 14, 農業(yè)試驗中如何分析單因素方差分析 15, P-rep designs 文獻解析及實現(xiàn)方法
16, 文獻閱讀:林木中遺傳參數(shù)評估 17, 育種4.0世代的到來個人應該準備什么 18, 農業(yè)試驗設計中田間種植圖的繪制方法
數(shù)量遺傳:
主要是動物數(shù)量遺傳,動物育種中應用比較廣泛,無論是基于系譜的動物模型,近交系數(shù),親緣關系系數(shù),配合力,育種值,還是單性狀模型,重復力模型,多性狀模型等相關知識。 1,R語言求解混合線性方程組(有系譜)
2,R語言混合線性模型包代碼演示 3,DMU-遺傳參數(shù)評估-學習筆記1 4,DMU-單性狀動物模型-學習筆記2 5,DMU-單性狀重復力模型-學習筆記3 6,DMU-多性狀動物模型-學習筆記4 7,DMU-單性狀母體效應-學習筆記5 8,DMU軟件 語法高亮-學習筆記6 9,DMU從入門到放棄系列匯總 10, DMU遺傳參數(shù)評估cookbook pdf
11,育種中一般和特殊配合力的計算方法
12,為什么要學習數(shù)量遺傳學1--序言 13,2-數(shù)量遺傳學課程介紹 14,3-數(shù)量遺傳學課程介紹-R語言基礎 15,4-數(shù)量遺傳學課程介紹-R挖掘數(shù)據(jù) 16,利用系譜計算近交親緣關系系數(shù) 17,單性狀動物模型矩陣形式計算BLUP值
18, 文獻閱讀: ABLUP-GBLUP-SSGBLUP模擬數(shù)據(jù)比較 19, 文獻閱讀:林木中遺傳參數(shù)評估 20, 遺傳變異系數(shù)怎么計算 21, 測定日模型及隨機模型介紹 22, Admixture使用說明文檔cookbook
編程語言: 包括Python,R語言,Julia,Perl語言,Linux的Shell語言,主要是我平時學習時的一些筆記和總結。 1,R,Julia以及Python共享數(shù)據(jù)
2,Python生物統(tǒng)計---筆記1 3,Python學生物統(tǒng)計---筆記2 4,Python學生物統(tǒng)計---筆記3 5,Python學生物統(tǒng)計---數(shù)據(jù)導入筆記4
6,Python學生物統(tǒng)計---可視化---筆記5 7,Python學生物統(tǒng)計---T檢驗筆記6
8,Python學生物統(tǒng)計---方差分析筆記7 9,shiny學習筆記1---上傳數(shù)據(jù)
10,shiny學習筆記2-下載數(shù)據(jù) 11,shiny學習筆記3--生成html報告 12,data.table學習筆記1 13,data.table學習筆記2 14, R語言與獨孤九劍以及Python與降龍十八掌 15, snakemake 學習筆記1 16, snakemake 學習筆記2 17, 遠程訪問服務器 jupyter的設置方法 18, WOX 糙快猛的實現(xiàn)方法 19, R語言中如何寫入xlsx的不同sheet表格 20, 幾種加快R語言運算的方法 21, 如何批量安裝R語言包 22, 如何高效的在服務器和本地進行上傳和下載文件
23, 如何優(yōu)雅的使用markdown寫博客
基因組選擇: 育種數(shù)據(jù)分析中,表型選擇,方差分析,混合線性模型的BLUP育種值是學科的枝干,MAS,GWAS是花苞, GS則是盛開的花朵,其依賴于常規(guī)的數(shù)量遺傳理論,但青出于藍而勝于藍,具有光明的前景,由于GS的應用,分子育種的落地又大大提前了一步?,F(xiàn)在GS在動物育種中,特別是牛,豬,雞,羊中正在大規(guī)模落地,以后再玉米,水稻,小麥,大豆的應用也將落地。冬天來了,春天還會遠么?這個章節(jié)有文獻解析,SNP數(shù)據(jù)清洗,G矩陣及H矩陣構建,模擬數(shù)據(jù),軟件使用,理論介紹等等。 3,GS中G矩陣和H矩陣構建時的計算效率
4,JWAS: 基于貝葉斯的GWAS和GS軟件 5,多性狀分析中FA Model的用法 6,如何構建G矩陣-基因組親緣關系矩陣 7,基因型數(shù)據(jù)012及-1,0,1計算基因頻率 8,rrBLUP和asreml-r計算GBLUP比較 9,全基因組選擇介紹-1 10,全基因組選擇介紹2:構建H矩陣 11,基因組選擇技術在動物育種中的應用 12,plink格式轉化為012的方法 13, 全基因組選擇GS軟件: MiXBLUP 2.1介紹 14, 基因組選擇和SNP分析在ASREML-SA中的實現(xiàn)方法
15, 基因組選擇分析軟件調研 16, 軟件介紹: BLUPF90的無敵和寂寞
放飛自我系列: 所謂放飛自我, 就是放飛自我系列. 1,使用搖床通過微信運動進行市場推廣
2,關于寫長文有助于思考的感想 3,《大國憲制》讀后感---題記 4,一只特立獨行的豬 5,銘記: 首例基因編輯嬰兒在中國誕生 6,月薪8000出租車司機給我上的一課 7,DMU從入門到放棄系列匯總 8,讀龍場大悟--有感 9,學習方法論與花心大蘿卜的博文 10,玉米育種理論在談戀愛中的應用分析 11,學習編程, 我為什么建議你不要看視頻 12,人際交往能力遠比你想象的重要 13,從年終總結到買兇殺人 14,科學算命以及全基因組選擇的討論 15,如何科學的理解算命及深度思考 16,有公眾號的少年不可欺 17,情人節(jié)--下雪的白色情人節(jié) 18,農學研究生的前途 19,奇文讀后感:農學勸退論 20,奇文共賞:農學專業(yè)有多坑? 21,為什么搞數(shù)據(jù)分析的人要學學打麻將
22, 上士聞道 23, 我與紅寶書《玉米數(shù)量遺傳學》的故事 24, 我年薪百萬的故事
25, 從讀書到別人思想的跑馬場 26, 反對996為什么是一場鬧劇
|