引言 遺傳學(xué)的研究成功地找到了很多致病突變體,這些突變體是指染色體上的變異位點(diǎn)。GWAS(全基因組關(guān)聯(lián)分析)試圖找到染色體上的變異位點(diǎn),并研究這些變異位點(diǎn)與疾病或其它性狀的關(guān)聯(lián)。 GWAS常用的方法是回歸分析?;貧w分析的一個(gè)假設(shè)是,數(shù)據(jù)是獨(dú)立分布的(identically and independently distributed (i.i.d.))。實(shí)際上,很多個(gè)體可能有遠(yuǎn)緣關(guān)系,個(gè)體間的這種親緣關(guān)系會(huì)給關(guān)聯(lián)分析帶來(lái)困難。當(dāng)個(gè)體間存在親緣關(guān)系的時(shí)候,會(huì)導(dǎo)致關(guān)聯(lián)分析出現(xiàn)假陽(yáng)性的結(jié)果。 現(xiàn)在有不同的計(jì)算方法在回歸分析中考慮群體結(jié)構(gòu)的影響,這篇小文探索了關(guān)聯(lián)分析中假陽(yáng)性的來(lái)源。 常規(guī)GWAS 關(guān)聯(lián)分析的目標(biāo)是尋找snp和性狀之間的關(guān)系。Fig 1a中顯示某個(gè)snp位點(diǎn)和血壓的關(guān)系,可以看到紅色標(biāo)示出的C位點(diǎn)與高血壓有明顯的關(guān)系。 為了研究某個(gè)snp位點(diǎn)與某個(gè)性狀的關(guān)聯(lián)在統(tǒng)計(jì)上是否顯著,我們有兩個(gè)假設(shè)。第一個(gè)假設(shè)是H0假設(shè),該假設(shè)也被稱為null hypothesis,它認(rèn)為snp和性狀沒(méi)有關(guān)聯(lián),也即是說(shuō),性狀y等于總體平均與環(huán)境因素的加和。如果沒(méi)有其它的信息,我們認(rèn)為H0假設(shè)是正確的,也就是說(shuō)某個(gè)snp并不影響性狀,如Fig 1b所示。
第二個(gè)假設(shè)是H1假設(shè),該假設(shè)認(rèn)為snp和性狀存在關(guān)系,也就是說(shuō)當(dāng)存在某個(gè)snp的時(shí)候,某個(gè)性狀或某個(gè)疾病會(huì)傾向于發(fā)生在該個(gè)體身上。如Fig 1c所示,該公式中的β是指該snp對(duì)性狀影響的大小,也就是說(shuō), β越大,該snp對(duì)性狀的影響越大,在文獻(xiàn)中經(jīng)常把 β 稱作effect size。如果H1假設(shè)中的擬合達(dá)到一定的程度,就可以說(shuō)snp與性狀之間存在顯著性的關(guān)系。 某個(gè)個(gè)體的基因型可以用0或1或2來(lái)表示,0代表該snp位點(diǎn)沒(méi)有出現(xiàn)變異,1代表該位點(diǎn)有一個(gè)變異,2代表該位點(diǎn)有兩個(gè)變異。為了減少關(guān)聯(lián)分析中的復(fù)雜度,需要對(duì)基因型做一個(gè)歸一化的轉(zhuǎn)換。歸一化后的基因型如Fig 2所示。該公式中的pk是指某個(gè)變異的平均頻率。 Fig 2. 我們需要擬合的公式如Fig 3所示。
其中環(huán)境因素是一個(gè)隨機(jī)變量,它的分布如Fig 4中所示。 Fig 4. 根據(jù)觀測(cè)到的數(shù)據(jù),我們可以計(jì)算如下的量:
這些公式看起來(lái)比較簡(jiǎn)單,部分原因是我們用了歸一化的基因型。 下一步就是檢驗(yàn)每個(gè)snp與表型的關(guān)系是否具有統(tǒng)計(jì)學(xué)上的顯著性,用到的公式是Fig 6:
準(zhǔn)確基因模型 在上邊的討論中,我們用到了Fig 7中的(1)式,但實(shí)際上,表型數(shù)據(jù)是由(2)式產(chǎn)生的。在(2)式中多出的項(xiàng)稱為unmodelled factor,這個(gè)因子是假陽(yáng)性的來(lái)源。
一個(gè)例子:群體結(jié)構(gòu)影響關(guān)聯(lián)分析 實(shí)驗(yàn)材料:classical inbred laboratory mouse vs wild-derived strains,前者來(lái)源于寵物鼠,后者是從自然界捕獲的鼠,這兩類鼠的進(jìn)化樹(shù)如Fig 8所示,可以看到野生的鼠形成一個(gè)population,寵物鼠形成一個(gè)population.
實(shí)驗(yàn)數(shù)據(jù):鼠的體重,如Fig 9所示。
實(shí)驗(yàn)結(jié)果:如果我們用常規(guī)線性模型來(lái)擬合數(shù)據(jù),結(jié)果如Fig 10所示.
10a是每個(gè)snp位點(diǎn)計(jì)算的p值,然后取對(duì)數(shù)后進(jìn)行作圖,10b和10c是用另外一種方式對(duì)數(shù)據(jù)進(jìn)行顯示。這兩個(gè)圖的基本思路是:在我們的H0假設(shè)中,snp位點(diǎn)與表型是沒(méi)有關(guān)系的,在這個(gè)假設(shè)下所有位點(diǎn)的p值會(huì)有一個(gè)分布,但是實(shí)際上我們通過(guò)回歸分析會(huì)得到另一個(gè)分布,10b和10c就是計(jì)算這兩個(gè)分布是否一致,如果這兩個(gè)分布一致,那么圖中的兩條直線就會(huì)重合,如果不一致,那么這兩條線就會(huì)出現(xiàn)分離。 數(shù)據(jù)分析:Fig 10中的數(shù)據(jù)一看就有問(wèn)題,不可能有這么多的snp,那么問(wèn)題出在哪里呢?Fig 11中的小點(diǎn)代表snp,大點(diǎn)代表體重,點(diǎn)的顏色越相近,代表值越相似。Fig 11b中的線段的長(zhǎng)度代表兩個(gè)strain的親緣關(guān)系。差異snp越多,則線段越長(zhǎng),代表兩個(gè)strain的親緣關(guān)系越遠(yuǎn)。 顯然,遺傳上的差異可以導(dǎo)致性狀的差異,但是并不是所有的遺傳差異都會(huì)造成性狀上的差異,這就是假陽(yáng)性出現(xiàn)的原因。
混合線性模型 混合線性模型通過(guò)引入一個(gè)額外的項(xiàng)來(lái)矯正線性模型導(dǎo)致的誤差。首先通過(guò)下邊的例子來(lái)說(shuō)明怎樣估計(jì)unmodeled factors的大小。Fig12.b中B6和C3H這兩個(gè)strain的基因型非常相似,它們只有一個(gè)snp不一樣。在這里我們假設(shè)偶數(shù)位點(diǎn)的snp影響性狀,而奇數(shù)位點(diǎn)的snp則對(duì)性狀沒(méi)有影響。因?yàn)锽6和C3H的基因型非常相似,所以它們的unmodeled factors也相似。相反,B6和CAST的基因型很不一樣,所以它們的unmodeled factor也不一樣。
Unmodeled factors可以通過(guò)兩個(gè)strain的相同snp的個(gè)數(shù)來(lái)表征,我們可以建立一個(gè)矩陣,如Fig 13所示,矩陣中的元素代表兩個(gè)strain相同snp的數(shù)目。根據(jù)這個(gè)矩陣可以得到unmodeled factor的大小,然后用一個(gè)隨機(jī)變量u來(lái)代表unmodeled factors。u也被稱為隨機(jī)效應(yīng)或variance component。 Fig 13. 【參考文獻(xiàn)】 Martin L S, Eskin E. Population Structure in Genetic Studies: Confounding Factors and Mixed Models[J]. bioRxiv, 2017: 092106. ![]() |
|
來(lái)自: 生物_醫(yī)藥_科研 > 《方法原理》