GWAS分析,QQ圖和曼哈頓圖是標配,可是這兩個圖具體是什么意思?怎么判斷好壞,且聽我一一道來。 QQ圖和曼哈頓圖是嘛意思?GWAS分析中,會有一個結果,每個SNP的P值,可以根據(jù)這個值,以及SNP的染色體和物理位置,進行作圖。 常見的圖是QQ圖和曼哈頓圖。比如: 什么是QQ圖QQ圖,全稱 「為何要用QQ圖來表示GWAS的結果呢?」 一般,我們認為,P值達到顯著性,那就說明不同的SNP分型,對表型數(shù)據(jù)是有顯著性影響的,但是在GWAS中,我們將顯著的原因分為兩個部分: ? 第一個部分,是由于突變導致的表型變異,比如AA變異了AT或者TT,導致產(chǎn)奶量增加,AA比如是10Kg,AT是15Kg,TT是20Kg,而且達到極顯著水平,我們可以認為該突變導致產(chǎn)奶量變化,是我們關注的位點或者基因。GWAS的目的就是找到這樣的位點,進而找到這樣的基因。 第二個部分,是隨機遺傳漂變,它顯示的統(tǒng)計顯著性只是偶然,并不是該位點真的影響表型值。隨機漂變,是隨機在染色體上變化,它符合均勻分布,所以一定范圍內(nèi)有一定的概率。這些位點,是我們需要排除的。 QQ圖的x坐標是均勻分布的值(理論值),經(jīng)過-log10轉換了。QQ圖的y坐標實際的P值(觀測值),經(jīng)過-log10轉換了。 「如果所謂的變異都是遺傳漂變引起的:」 那就是這樣一個圖:橫坐標和縱坐標都是在一條直線上,他們是完全一致的,因為X坐標是模擬的均勻分布的P值,而Y坐標是真實的P值,它與X一致,就說明它的分布也是均勻分布的,那我們就可以認為它是隨機漂變的產(chǎn)物。 那它的圖應該是這樣的:剛開始的位點,比如-log10在3之前,都是和均勻分布是一致的,是隨機漂變導致的。在大于3之后,均勻分布還是在直線上,但是由于隨機漂變+真實位點的存在,開始偏離直線,并且上翹,這些上翹的位點就是我們關注的位點。 所以,好的GWAS分析,有結果的QQ圖,都是前期在直線上,后面上翹。有點翹的QQ圖才是好的QQ圖。 什么是曼哈頓圖首先,曼哈頓是一個地名,是這樣的: 因為建筑高低錯落有致,我們將GWAS中不同染色體表示不同的位置,將不同SNP的P值比作不同的建筑,就會有種曼哈頓夜景的感覺: 「好的曼哈頓圖:」 GWAS分析中,原理就是SNP位點和控制性狀的基因存在LD狀態(tài),即SNP的分型可以代表基因的不同分型,所以,真實的顯著位點應該是在基因兩側分布的,有一個上升和下降的趨勢,比如這樣的圖: ![]() 「壞的曼哈頓圖:」 只有孤零零的一個點,周圍沒有顯著的點,這很有可能是假陽性,因為GWAS分析和培育品種是類似的:一出出一窩! 下一章介紹,GWAS可視化實操,畢竟,只知道qqman,而不知道cmplot,是不專業(yè)的。 |
|
來自: 育種數(shù)據(jù)分析 > 《待分類》