大家好,我是鄧飛,今天繼續(xù)介紹《統(tǒng)計遺傳學》這本書 ,本次介紹第四章:GWAS分析,主要是綜述介紹,具體的實操介紹要到八九十章節(jié)。
這一章節(jié)內容很豐富,人類中GWAS關注的點,GWAS和LD與填充的關系,GWAS中影響的因素,包括群體結構、異質性。另外還有GWAS結果的矯正,包括Bonferroni ,F(xiàn)DR以及置換檢驗,最后還有位點注釋。
不同學科,GWAS關注的點不一樣,動植物可能就是群體分析+基因注釋,人類中會有多基因得分(PGS),這個相當于動植物中的分子標記輔助(MAS)或者是基因組選擇(GS)。雖然概念有所區(qū)分,但是理論都是相通的。
這本書的電子版,之前是不能選擇復制的,后來有位老師將其轉化為文字版的,就可以復制了,這樣結合pdf閱讀器的翻譯,可以更方便的閱讀。明天介紹一下使用的方法。
引文部分是原書的谷歌翻譯,正文部分是我的理解。
第一部分基礎,分為六個章節(jié),分別是:
今天,介紹第四章的內容,GWAS分析,看一下目錄:
掌握基因分型和測序陣列的基礎和局限性及其與連鎖不平衡和填充的關系 了解全基因組關聯(lián)研究研究設計、元分析和數據分析計劃 了解全基因組關聯(lián)研究的統(tǒng)計推斷、方法和異質性的基本方面 了解NHGRI-EBI GWAS目錄以概述全基因組關聯(lián)研究 認識到在祖先、地理、時間,迄今為止全基因組關聯(lián)研究的人口多樣性及其對研究的影響
簡介和背景? 隨著基因分型技術的發(fā)展、成本的降低和先進數據分析方法的發(fā)展,遺傳關聯(lián)研究的設計在過去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標準的,但早期的研究只關注有限數量的“候選”基因座。候選基因研究一詞是指這一領域的早期工作,其重點是預先確定的感興趣的基因座,這些基因座被認為與所研究的性狀有關。正如我們在關于基因-環(huán)境相互作用的第6章中詳細討論的那樣,許多早期候選基因研究由于多種原因存在問題,主要是由于缺乏重復,雖然我們的目標是讓這一領域的新研究人員避免犯類似的錯誤,但我們應該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學表型。當時,許多性狀的極端多基因性和候選基因作為藥物靶點的失?。ɡ缫钟舭Y)讓許多人感到真正的驚訝。另一種選擇是全基因組關聯(lián)研究(GWAS),該研究同時測量了數百萬個基因位點。
GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關聯(lián)的主要方法。正如我們稍后更詳細地討論的那樣,GWASs測試了數百萬個單獨的回歸模型,以確定遺傳變異和表型之間的關聯(lián)?;仡櫟谝徽?,表型可以是單基因性狀。
受單個基因內變異的強烈影響。但許多是多基因復雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結果。GWAS的結果顯示了每個單核苷酸多態(tài)性與特定性狀或表型的關聯(lián)。與候選基因研究相比,GWASs是無假設的,可以在所有基因型區(qū)域中尋找關聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點差異是我們與眾不同的原因。
由于許多性狀是復雜的,并且與多個遺傳位點(即多基因)相關,GWAS通常識別出許多遺傳變異,每個變異對表型的影響很小。由于影響大小較小,需要非常大的數據源,GWAS發(fā)現(xiàn)通常會在多個數據源上進行許多GWAS分析,然后合并到一個元分析中。在GWASs中識別的大多數變體不被認為是生物學上的因果關系,而是由于連鎖不平衡(LD),可以識別包含一個或多個生物學功能變體的區(qū)域。到2019年初,已經進行了近4000次GWASs,從不可知的角度確定了數千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測量(身高、體重)和行為特征,如初生年齡或教育程度。
本章介紹了GWAS研究和基本概念。由于GWASs的結果通常是許多實際應用的基礎,因此本章對于第二部分的后續(xù)應用章節(jié)至關重要,包括如何對遺傳數據進行質量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學的基礎知識,包括遺傳數據收集、研究設計和方法方面的細節(jié),以及糾正多重測試的必要性。接下來,我們將在第8章介紹個體水平和遺傳標記水平QC的類型。第4節(jié)簡要介紹了GWAS元分析和進一步的擴展。最后,我們對NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡要歷史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國家集中。最后,我們做了一個簡短的總結,并指出了未來的研究方向。
? GWAS研究分析和元分析 數據分析流程? 基因發(fā)現(xiàn)不僅是一項智力挑戰(zhàn),也是一項組織和后勤挑戰(zhàn)。由于GWA的質量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財團,進行獨立的GWA,隨后由領導該項目的核心小組進行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識、需要成立的財團以及長期和耗時的投資。這一領域的新研究人員很少會啟動自己的獨立GWA。然而,了解GWA的構思過程是有用的。
首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內容、測量和先前的遺傳力估計或其他GWAS結果(如果可用)。這一研究領域在總結現(xiàn)有結果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對50多個雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個名為MaTCH(雙胞胎相關性和遺傳力的元分析)的web應用程序,可通過http://match.ctglabnl/。還有其他網站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關的遺傳力估計值。Ben Neale的實驗室還擁有一個令人難以置信的網站,用于檢測英國生物庫中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復雜性狀遺傳學虛擬實驗室(CTG-VL)生成結果的可視化,包括曼哈頓圖和許多其他結果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。
下一步是隔離哪些數據源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個聯(lián)盟,或獲取現(xiàn)有或公開可用的數據(如英國生物銀行)。組建一個財團需要花費大量的時間和精力,包括經常等待道德和準入許可,在某些情況下還需要處理付款以使用數據。盡管英國生物銀行(約500000個)等大型數據集最近已經面世,但通常會形成大型聯(lián)合體,將多個數據集組合在一起,以產生盡可能大的樣本。在許多情況下,每個數據源的獨立分析師負責執(zhí)行
? 分析步驟:
? GWAS內部,并將結果發(fā)送回聯(lián)合體領導人。這通常與數據的隱私和同意問題有關,如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計的元分析因此是發(fā)現(xiàn)與表型相關的遺傳變異的最常用方法。由于常見等位基因的遺傳效應很小,我們從第一章之前的討論中了解到,信號檢測需要更大的樣本量。由于單個GWASs的動力不足,研究人員需要進行元分析并合并多個數據源。
? 數據分析計劃這部分,主要是如何收集數據,包括設置問卷調查注意事項。還應該注意,應該包括一些協(xié)變量。然后常用的數據質控,使用的模型,有時候會考慮家系的作用。
? 如果您的目標是收集大量樣本,請說明如何選擇加入聯(lián)盟和關鍵截止日期。
然后經常列出詳細的樣本納入標準。例如,在我們對人類生殖的研究中,我們還檢查了有史以來出生的兒童數量(NEB),只包括那些已經到了生育期結束的兒童(女性至少45歲,男性55歲),并澄清說,我們還希望分析人員將從未生過孩子的個人包括在內。這也是您指定任何祖先要求、相關協(xié)變量、基因分型率(>95?)和其他質量控制的地方(另見第8章)。
基因型和插補信息,包括插補前需要應用的任何推薦標記過濾器,我們將很快討論。在前面提到的示例分析計劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價值背后的邏輯將在第8章中詳細討論。
用于關聯(lián)測試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對男性和女性的兩種表型(AFB、NEB)的回歸模型進行估計,然后合并。例如,一個方程是Y=m+SNP,β+Zy+e。許多研究還經常包括基于家庭的數據,其中82第4章應提供明確的案例說明,以考慮數據中的脆弱性結構或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個協(xié)變量(例如,控制人口分層、控制非線性效應的出生隊列或任何研究特定協(xié)變量)。
為結果指定fle格式。例如,許多人經常選擇費用聯(lián)合體共享格式。!文件命名方案同樣重要,因為您將收到數百個不同的文件。
數據交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數據保護條例)(見第14章,道德)。
然后,還經常包括薈萃分析的描述。這包括標記排除篩選、基因組控制、顯著性閾值以及頂級SNP的報告方式。
每個參與的數據源(在這一研究領域通常稱為隊列)單獨運行分析,或者可以授權訪問數據。每個研究的匯總統(tǒng)計結果通常會與特定數據源數據的一些描述性信息一起上傳。然后將這些結果結合起來進行薈萃分析。
? 元分析? 元分析是對來自多個獨立研究的信息進行統(tǒng)計綜合,從而提高功效,進而降低假陽性發(fā)現(xiàn)的風險【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數據,提供回歸系數、標準誤差、,依此類推,對于遵循預先指定的分析計劃的群體中的每個遺傳標記。因此,它不是單個級別的數據,而是匯總的匯總結果。我們2016年的生殖行為研究【6】。
例如,涉及一個元分析,它使用來自60多個不同數據源的匯總統(tǒng)計數據。在第8章中,我們描述了如何在個人層面上參與OC,然后再進行GWAS(例如,去除等位基因頻率低的變體。插補質量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復制的特定研究驅動的結果)。GWAS薈萃分析中一個重要且耗時的步驟是第二套質量控制,它基本上是協(xié)調各研究的結果。盡管提供了統(tǒng)一的分析計劃,但此清理過程可能在初始項目中花費的時間最長,因為分析人員可能使用不同的軟件,或者結果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎上,為meta-OC過程提供了一個優(yōu)秀的協(xié)議。
? 統(tǒng)計推斷、方法和異質性 表型數據確定數據的類型,以及需要考慮的協(xié)變量
? GWA研究的核心前提是對特定人群中的大量樣本同時進行數百萬個假設檢驗,或者換言之,對每個變量進行一個假設檢驗。每個遺傳關聯(lián)研究都采用統(tǒng)計推斷來確定和量化遺傳位點和表型之間的關聯(lián)強度。關聯(lián)方法的選擇通常取決于表型的性質,以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊列)也是常見的。
對于數量或連續(xù)特征(例如,初生年齡或體重指數),分析會在表型的連續(xù)分布范圍內對個體進行比較,通常使用線性回歸。在這里,我們比較了基于檢驗統(tǒng)計量的分布與任何標記無關聯(lián)的零假設,并考慮了標準誤差。刪失數據生存模型的其他擴展也越來越可能。對于二元或二元性狀,它通常使用邏輯回歸來比較高(病例)值和低(對照)值。與典型的logistic模型一樣,假設所研究性狀的logit變換與等位基因呈線性關系,但通常用優(yōu)勢比來解釋。
? 使用P-values和Z-scoresP-value一般用于單個數據的分析,Z-score可以用于元分析,表示結果。
? 第2章更詳細地闡述了這類研究的統(tǒng)計基礎。簡而言之,目標是對遺傳位點和正在研究的表型之間的每一個真實關聯(lián)進行統(tǒng)計顯著性估計。正如大多數讀者所知,正如前面第2章所討論的,統(tǒng)計顯著性通常由p值決定。p值估計獲得測試統(tǒng)計值的概率,該值與通過所選統(tǒng)計方法為潛在關聯(lián)估計的值一樣極端(即,在零下)。這并不是一個基因座與一個特征相聯(lián)系的可能性。當我們進行這種回歸時,我們使用t檢驗等檢驗統(tǒng)計量來檢驗特定遺傳變異的β參數是否顯著不同于零。檢驗統(tǒng)計量是用來衡量對無效假設支持程度的數據的數值總結。在零假設下,檢驗統(tǒng)計量可能具有已知的概率分布(例如,x’),或者估計其零分布?;叵胍幌拢瑹o效假設是對特定人群之間沒有顯著差異的假設的統(tǒng)計檢驗,在GWAS的情況下,是病例和對照之間的差異。任何觀察到的差異都歸因于采樣或實驗誤差。如果從遺傳位點產生的檢驗統(tǒng)計量值與我們從無效假設中預期的值顯著偏離,則有證據表明存在替代性組間存在顯著差異(病例組與對照組)或與數量性狀存在顯著關系。
在薈萃分析中,p值的缺點是不能提供效應大小的總體估計,這一點已被廣泛討論。此外,無法評估數據集之間的異構性。還使用了一個相關的統(tǒng)計數據,即Z分數,它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關,但使用Z值的優(yōu)勢在于,它們考慮了影響的方向,并且您能夠引入權重(例如,如果您希望某項特定研究的權重更高或更低)。單核苷酸多態(tài)性被標記為或被視為“點擊率”,以p值為衡量標準。
如前所述,商定的全基因組顯著閾值為p<5×10-8。
這對應于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應使用更嚴格的閾值[9]。
? 矯正GWAS結果常用的方法有:
Bonferroni correction,一般用0.05/N,或者1/N來確定P值 「第一種:Bonferroni矯正」
? DNA微陣列和下一代測序使我們能夠檢測大量串聯(lián)基因組位點的相關性。GWAS結果中進行比較的程度稱為多重測試問題。這是兩種誤報(l類錯誤)的可能性,如果多重比較的校正過于保守或功率不足,則會產生誤報(2類錯誤)。我們測試了整個基因組中數百萬個基因變體的關聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關。
問題是,當我們進行這么多測試時,我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強大關聯(lián)的危險。在GWAS中,對每個遺傳位點和表型進行統(tǒng)計檢驗,以產生檢驗統(tǒng)計量和相關的p值。如果我們取標準p值0.05.
即使給定的遺傳變異與我們的表型無關,我們也有1/20的機會發(fā)現(xiàn)顯著的關聯(lián)。這就是所謂的類型1錯誤或假陽性。由于在GWAS中,我們實際上并行執(zhí)行了數百萬次測試,如果我們采用標準的0.05顯著性閾值,我們很可能會獲得許多誤報。為了解決這個多重測試問題,最常用和最直接的修正是Bonferroni修正。簡單地說,我們將所選的顯著性閾值(p值)除以所執(zhí)行的測試數量。如果進行了10次測試,我們只會聲明,如果p值小于0.005,結果才是顯著的。在基因組的情況下,我們正在測試100萬個獨立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計學中獨立性的基本假設有關,或者說你應該從你的樣本中得到反映你會在人群中發(fā)現(xiàn)。
如果數據中存在最小的依賴性,而您違反了這一假設,則會產生有偏差的結果。GWASs的一個統(tǒng)計問題是,附近基因變體的基因型之間往往存在著很強的相關性。或者換句話說,實際測試100萬個遺傳變異實際上更像是測試70萬到80萬個不相關的遺傳變異。因此,在GWAS中,采用統(tǒng)計閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計顯著性的標準,而p<5×10-6通常用于表示“提示性命中”
? 「第二種:置換檢驗」
? 有人認為,Bonferroni校正過于保守,導致假陰性結果的比例增加,并假設每個基因變異都是獨立于其他變異進行測試的,這是獨立的。雖然對替代方法的詳細解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測試?;谂帕械臏y試多次對表型進行排列,然后每次重新計算統(tǒng)計測試,以產生可用于假設測試的經驗零分布。
將其視為標簽的洗牌可能更為直觀。為了計算基于排列的p值,結果度量標簽被隨機排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關聯(lián)。然后對所有置換數據集進行統(tǒng)計測試。
這提供了無關聯(lián)零假設下檢驗統(tǒng)計量和p值的經驗分布。然后將從觀察數據中獲得的原始檢驗統(tǒng)計量或p值與p值的經驗分布進行比較,以確定經驗調整的p值?;谥脫Q的測試是計算密集型的,尤其是當需要許多置換時,這對于精確計算非常小的p值是必要的[1]。
? 「第三種:FDR」
? 另一種技術是Benjamini-Hochberg錯誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號中誤報的預期比例,F(xiàn)DR值低于固定閾值,并假設SNP是獨立的。該方法將誤報的預期比例降至最低,但不具有統(tǒng)計意義。一個限制是,F(xiàn)DR方法仍然假設SNP和p值是獨立的。
而是一個“標簽”換句話說,它們是標記,因為附近的變體實際上可能是驅動關聯(lián)的因素。請記住,這是一項相關性研究,而不是因果關系研究,因此需要進一步的生物學和下游工作,以了解標記或其附近標記的生物學功能。在第10章第10.2節(jié)中,我們提供了一個更詳細的案例研究,說明如何使用FTO(通常被稱為“脂肪基因”)實現(xiàn)這一目標。第8章描述了我們在GWAS期間進行的各種其他診斷檢查,包括使用森林圖和分位數-分位數(Q-Q)圖按性別或數據源檢查結果的異質性。第9章還詳細介紹了控制人口分層的機制,這是第3章前面介紹的一個概念。
? 曼哈頓圖? GWAS的主要結果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時的年齡特征。該圖是一個散點圖,繪制了p值(軸)的負對數(以10為底)和按染色體(x軸)位置排序的SNP關聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。
圖中所示的單核苷酸多態(tài)性是標記,許多不會是實際的因果變異
? 二分類性狀和數量性狀二分類一般用卡方檢驗,連續(xù)性狀用F檢驗
? 為了評估二分性特征,卡方檢驗通常用于測試病例和對照組之間分布頻率的差異。它計算病例和對照組的預期等位基因頻率,就好像SNP與表型無關一樣。然后以卡方統(tǒng)計量(X)的形式測量與該期望的偏差。假設SNP和性狀不相關,則這些偏差偶然發(fā)生的概率的p值報告測試。如果p值低于定義的顯著性閾值(在控制多次測試后,稍后討論),則發(fā)現(xiàn)是顯著的。
然后,我們通常還會估計影響大小,這對于理解關聯(lián)的大小或強度很重要。為了計算二分性狀的效應大小,可以使用不同的方法,如優(yōu)勢比(OR)。這是給定表型相關等位基因的表型概率除以給定非相關等位基因的表型概率。請注意,這不應在個人層面上解釋為“個人風險”,而是與另一個基因組相比的風險計算。p值表示遺傳關聯(lián)是否符合我們選擇的統(tǒng)計顯著閾值,但不能用于比較遺傳關聯(lián)。這是因為p值受到樣本量、統(tǒng)計檢驗能力以及所研究關系之外的其他因素的強烈影響。正是出于這個原因,我們使用效應大小來比較兩個SNP:為了正確評估關聯(lián)的強度和解釋,你需要知道遺傳關聯(lián)的p值和效應大小估計。
? ? 為了評估數量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個感興趣的SNP相關聯(lián)。與之前的測試一樣,回歸模型以p值和β系數定義的效應大小的形式產生顯著性度量。然后對每個單核苷酸多態(tài)性進行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數量性狀的效應大小,我們使用β系數,其中每個風險等位基因的出現(xiàn)對應于數量性狀的增加,等于Beta系數。例如,假設我們將基因型AA、AG和GG的SNP與身高(厘米)相關聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數為0.5,則預測每個A等位基因對個體身高的貢獻為0.5厘米。
效應大小、樣本大小和統(tǒng)計能力是本分析中相互關聯(lián)的重要方面。雖然我們在這里沒有詳細探討這一點,但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測,因為重要關聯(lián)的統(tǒng)計能力很低,需要非常大的樣本量。或者,在病例對照研究中,重要的不僅是樣本量,還有病例和對照的相對數量。相同數量的案例和控件是功率的最佳選擇。
? 固定效應模型和隨機效應模型? 正如我們在第2章中所討論的,固定效應模型依賴于假設每個風險等位基因在每個數據集中的真實效應是相同的。雖然這個假設可能很脆弱,但與隨機效應模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒有詳細描述各種固定效應模型,但包括反向方差加權和Cochran-Mantel-Haenszel。隨機效應模型并不認為所有研究在功能上都是等效的,因為它們的能力有限,所以很少用于發(fā)現(xiàn)。當這些模型的目的是試圖將觀察到的關聯(lián)推廣到人群之外,并估計相關變體的平均效應大小以及不同人群的平均效應大小,以便進行預測時,更常用這些模型。
? 權重、FDR和填充? 當多個數據源組合在一起時,一些研究會有更多的數據,因此在薈萃分析結果中應該比較小的研究更重要或權重更大。最常用的最佳權重是逆方差加權(每個研究根據其平方標準誤差的倒數進行加權)。錯誤發(fā)現(xiàn)率(FDR)是指對已發(fā)現(xiàn)但被視為誤報的關聯(lián)比例的估計。這里,我們計算所謂的Q值,這是聲稱關聯(lián)可能的最小FDR。正如我們的應用章節(jié)所示,我們還測試了插補的可靠性。當存在MAFs低的多態(tài)性時,這可能是一個問題,因為MAFs<5的填充SNP被重新排除在分析之外。
? 數據來源方差異質? 一些表型可能難以測量或具有很高的測量變異性。在大型GWA研究中,通常需要協(xié)調不同的數據源并構建一個可比較的表型。因為已經收集了大多數表型。通常很難進行完全協(xié)調的分析。例如,2018年的一項研究考察了受教育年限的遺傳基礎,詳細考察了表型分類的差異如何影響結果【15】。
他們得出結論,在可能的情況下,最詳細的措施是最好的。然而,在協(xié)調多個數據集時,許多GWA通常協(xié)調到最常見的分類,因此通常最不詳細的分類。
除第3章詳細討論的基于祖先的異質性外,可能存在諸如出生隊列、國家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國等相對較小的國家,也存在不同的人口分層模式。GWAS通常會結合來自多個國家和歷史時期的數據,以獲得足夠大的樣本量。隱含的假設是,遺傳學對個體的影響在時間和地點上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項研究中,我們證明了事實并非如此,并且結合這些不同的數據集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當數據合并時,對教育和第一個孩子出生時間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個或是出生過的孩子的數量。相反,我們發(fā)現(xiàn)與身高相關的遺傳變異在不同人群中似乎是相同的。性別差異也可能導致異質性,這就是為什么一些分析,如與生殖或生殖行為相關,分別檢查雌性、雄性和匯總結果【6,17】。顯然,這可以擴展到考慮其他類型的異質性,如年齡或生命歷程影響或社會經濟地位。
? 基因型數據質控? 對遺傳數據進行分析以進行GWAS需要了解這種情況下的統(tǒng)計推斷,但也需要進行大量質量檢查,稱為質量控制(QC)。QC是處理遺傳數據的核心方面之一。我們在第8章中討論了與GWASs相關的OC(見第8.5節(jié))。QC對于可靠的GWAS結果是必要的,因為原始基因型數據本身就存在問題(見方框4.2)。例如,您可能有很大比例的個體缺失數據,或者個體中缺失基因型的比率很高,或者其他與低樣本質量相關的問題。正如我們在第8章中更詳細地概述的那樣,QC可分為個體的質控和SNP的質控
個體水平QC經常檢查(1)DNA數據質量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復或相關個體,以及,(5)祖先差異。第二組質量控制分析側重于基因型的數據質量或我們在第8章中根據標記OC討論的內容。在這里,我們采取幾個步驟來消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補SNP的情況下,排除插補質量低的變異研究。
? NHGRI-EBI GWAS目錄 什么是NHGRI-EBI GWAS目錄? 該領域的新手通常想知道哪些表型已經被研究過,以及已經鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡稱目錄),包括所有已發(fā)布GWAS的數據,位于https://www./gwas/.它是由美國生產的。
國家人類基因組研究所(NHGRI)[19]與歐洲生物信息學研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴格的標準(見www./gwas/docs/methods),包括基于陣列的gwas和對100000多個全基因組覆蓋的SNP的分析。目錄中報告的SNP性狀關聯(lián)是那些p值至少小于1×10-5的性狀關聯(lián)。目錄研究人員通過自動PubMed搜索找到研究,然后手動整理它們以進行評估和納入。所有GWAS性狀都映射到實驗因子本體(EFO)[21]中的術語,這是一個用于分子生物學的變量本體,包括疾病、解剖學、細胞類型、細胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關聯(lián)的結果和可視化結果。在這個例子中,潛臺詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說明了根據所有(人類)染色體的基因組位置報告的遺傳關聯(lián)。每一條線都鏈接到一個與p值閾值為p的性狀相關的基因座≤5×10-8,每個圓圈都有顏色編碼,以表示一個獨特的特征。他們根據17個主要特征類別進行分組,如消化系統(tǒng)疾病、血液學測量、癌癥或藥物反應??梢酝ㄟ^出版物、變體、性狀或基因搜索目錄,這些信息會隨著新出版物不斷更新。
? GWAS歷史介紹? 以下是幾篇關于GWASs的優(yōu)秀敘述性評論,描述了基本原理和科學結論,并強調了關鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個數據源,該論文被譽為外交方面的杰作【23】。
如前所述,要進行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計能力[25]。這意味著大多數GWASs發(fā)布到數據通常將來自多個數據源的單獨分析的匯總結果匯集到元分析中,以獲得盡可能大的樣本量。過去幾十年來,技術、方法、理論、計算能力和資金的進步極大地改變了GWAS的格局。
在我們之前的工作中,Mills和Rahal(2019)[3]對2005年至2018年10月的13年間的所有GWASs進行了系統(tǒng)和計算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數據庫。重要的是要注意,除了創(chuàng)建此aliving數據庫之外,我們還包括了在公開的GitHub站點上使用的所有代碼(https://github.com/crahal/GWASReview).
換句話說,隨著每個目錄的更新,我們的數據庫以及這里描述的數字和數字將隨著時間的推移自動更新。如圖4.4所示,隨著時間的推移,發(fā)布的GWASs數量、樣本量、關聯(lián)數量和研究的疾病都有顯著增長。
在上面的面板中,我們看到隨著時間的推移,發(fā)表的研究數量大幅增加(根據樣本大小劃分)。在這里,隨著時間的推移,我們看到樣本量的驚人增長,在2018年末和2019年初發(fā)布的樣本有時包含100多萬個個體。這些較大的研究主要歸功于英國生物銀行(約50萬個人)[26、27],以及參與這項研究的23andMe等大型直接面向消費者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關聯(lián)數量與GWASs中使用的參與者數量之間的強正相關關系。右下角的面板顯示了獨特特征數量的增長以及發(fā)布GWASs的期刊數量的增長。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項研究,涵蓋了5849個獨特的研究材料(論文中歸因于性狀的標識符),涉及3508個獨特的性狀,映射到2532個EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費或神經質。每次研究的平均命中數為15.3,最強風險等位基因的平均p值為1.3729×10-6。55歲左右?報告的關聯(lián)符合p的標準閾值≤5×10-8.
? GWAS多樣性的確定? 或者是該領域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們在前幾章中所討論的,受試者祖先多樣性的差異與人口分層等技術問題有關[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數據的社會濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數量和性狀隨著時間的推移確實呈爆炸式增長,但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復制階段進行檢查。這意味著這些非歐洲人群經常被用來測試歐洲祖先群體會在其他祖先群體中復制,因此通常不會作為這些群體中基本基因發(fā)現(xiàn)的基礎。
圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達95%的受試者到2017年的88%不等。特別是自201l年以來,對亞洲人群的研究一直在強勁而穩(wěn)定地增長(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國和韓國人口。隨著時間的推移,對非洲人口的研究最少,人們希望非洲基因組變異項目和其他促進多樣性的項目將繼續(xù)增加和改變這些趨勢。
與GWA研究相關的多樣性幾乎只討論了與祖先相關的多樣性,但我們在GWA審查中還發(fā)現(xiàn),地理、環(huán)境、時間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來自僅居住在三個國家(美國、英國和冰島)的參與者。正如我們在本章和其他地方所闡述的,需要做更多的工作來了解環(huán)境暴露和地理集中如何影響結果。例如,在美國、墨西哥和英國,有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國家截然不同如日本、韓國、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊列、歷史時期和生命歷程階段缺乏時間和人口多樣性。GWASs中最常用的數據通常是年齡過大、社會經濟地位較高、女性人數較多的數據,而且通常還包括“健康志愿者”的選擇,如英國生物銀行[35]。
? 結論和未來的方向? 自2005年第一次GWAS以來,這一研究領域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領域是如何迅速發(fā)展的,這不僅是因為研究的研究、疾病和關聯(lián)的數量之多,還因為樣本量的不斷擴大。截至2019年,許多大型研究的綜合樣本超過100萬例。然而,我們注意到,這種增長甚至沒有跨越不同的祖先或地理群體,大多數研究仍在歐洲祖先群體中進行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進一步增加了多樣性。一個新興而令人興奮的研究領域將是非歐洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應該注意到,組建這些大型財團也可能是過去的事情。
隨著英國生物銀行(UK Biobank)等大型數據集和23andMe等直接面向消費者的公司數量的不斷增加,收集許多小型數據隊列以生成大型樣本的情況似乎越來越不常見。
讀者還將對GWA研究所依據的方法學有一個基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經初步了解了這種類型的研究是如何進行的,GWASs中統(tǒng)計推斷的意義,以及為什么以及如何需要更正多次測試。
本書第8章還介紹了個人和遺傳標記水平上質量控制(QC)的重要性以及實際應用。
我們對GWAS的簡要歷史表明,這是一個快速發(fā)展的研究領域。
正如我們在關于倫理問題和未來方向的第14章和第15章中所闡述的,GWAS也并非完全沒有爭議。有人擔心,長長的優(yōu)先“熱門”名單并沒有帶來一些人承諾的個性化藥物、新療法和風險預測工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學后續(xù)研究已經找到了與已知生物途徑相關的變體,但也找到了其他未被臨床靶向的變體。
越來越多的研究不僅在研究常見的變異,也在研究罕見的變異。測序數據的進一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領域和新方法。分析和合成GWAS數據的新方法也出現(xiàn)了,例如復雜性狀遺傳學虛擬實驗室為GWAS后分析所做的工作(https:///updates).
? 練習:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-vAJKG9MP-1656835668257)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624102004288.png)]
本章節(jié)包括:
掌握基因分型和測序陣列的基礎和局限性及其與連鎖不定性和填充的關系 了解全基因組關聯(lián)研究研究設計、元分析和數據分析計劃 了解全基因組關聯(lián)研究的統(tǒng)計推斷、方法和異質性的基本方面 了解NHGRI-EBI GWAS目錄以概述全基因組關聯(lián)研究 認識到在祖先、地理、時間,迄今為止全基因組關聯(lián)研究的人口多樣性及其對研究的影響 簡介和背景? 隨著基因分型技術的發(fā)展、成本的降低和先進數據分析方法的發(fā)展,遺傳關聯(lián)研究的設計在過去幾十年中發(fā)生了巨大的變化。盡管高通量的全基因組分析現(xiàn)在是標準的,但早期的研究只關注有限數量的“候選”基因座。候選基因研究一詞是指這一領域的早期工作,其重點是預先確定的感興趣的基因座,這些基因座被認為與所研究的性狀有關。正如我們在關于基因-環(huán)境相互作用的第6章中詳細討論的那樣,許多早期候選基因研究由于多種原因存在問題,主要是由于缺乏重復,雖然我們的目標是讓這一領域的新研究人員避免犯類似的錯誤,但我們應該注意到,一些候選基因研究仍然成功地用于各種非行為醫(yī)學表型。當時,許多性狀的極端多基因性和候選基因作為藥物靶點的失敗(例如抑郁癥)讓許多人感到真正的驚訝。另一種選擇是全基因組關聯(lián)研究(GWAS),該研究同時測量了數百萬個基因位點。
GWAS是目前用于確定單核苷酸多態(tài)性(SNP)與表型之間關聯(lián)的主要方法。正如我們稍后更詳細地討論的那樣,GWASs測試了數百萬個單獨的回歸模型,以確定遺傳變異和表型之間的關聯(lián)?;仡櫟谝徽?,表型可以是單基因性狀。
受單個基因內變異的強烈影響。但許多是多基因復雜性狀,是多基因變異及其與行為和環(huán)境因素相互作用的結果。GWAS的結果顯示了每個單核苷酸多態(tài)性與特定性狀或表型的關聯(lián)。與候選基因研究相比,GWASs是無假設的,可以在所有基因型區(qū)域中尋找關聯(lián)。正如前面在第1章中所討論的,GWAS研究了將我們彼此區(qū)分開來的多態(tài)性。除了單卵(即同卵)雙胞胎外,這是0.1%的位點差異是我們與眾不同的原因。
由于許多性狀是復雜的,并且與多個遺傳位點(即多基因)相關,GWAS通常識別出許多遺傳變異,每個變異對表型的影響很小。由于影響大小較小,需要非常大的數據源,GWAS發(fā)現(xiàn)通常會在多個數據源上進行許多GWAS分析,然后合并到一個元分析中。在GWASs中識別的大多數變體不被認為是生物學上的因果關系,而是由于連鎖不平衡(LD),可以識別包含一個或多個生物學功能變體的區(qū)域。到2019年初,已經進行了近4000次GWASs,從不可知的角度確定了數千種基因變體[2,3]。已研究的特征包括許多常見的人類疾病,如乳腺癌、阿爾茨海默病和2型糖尿病,但也包括人體測量(身高、體重)和行為特征,如初生年齡或教育程度。
本章介紹了GWAS研究和基本概念。由于GWASs的結果通常是許多實際應用的基礎,因此本章對于第二部分的后續(xù)應用章節(jié)至關重要,包括如何對遺傳數據進行質量控制(QC)(第8章)。在本章中,我們將介紹GWAS方法學的基礎知識,包括遺傳數據收集、研究設計和方法方面的細節(jié),以及糾正多重測試的必要性。接下來,我們將在第8章介紹個體水平和遺傳標記水平QC的類型。第4節(jié)簡要介紹了GWAS元分析和進一步的擴展。最后,我們對NHGRI-EBI GWAS目錄,隨后是2005年至2018年末GWA發(fā)現(xiàn)的簡要歷史。我們注意到GWAS樣本中缺乏各種類型的多樣性,例如缺乏祖先和人口多樣性,以及受試者在特定國家集中。最后,我們做了一個簡短的總結,并指出了未來的研究方向。
? GWAS研究分析和元分析 數據分析流程? 基因發(fā)現(xiàn)不僅是一項智力挑戰(zhàn),也是一項組織和后勤挑戰(zhàn)。由于GWA的質量和成功傳統(tǒng)上取決于收集大量樣本,因此已成立了大型財團,進行獨立的GWA,隨后由領導該項目的核心小組進行元分析。圖4.1描述了GWAS階段,這可能是現(xiàn)代科學中最大類型的合作努力之一??紤]到所需的廣泛專業(yè)知識、需要成立的財團以及長期和耗時的投資。這一領域的新研究人員很少會啟動自己的獨立GWA。然而,了解GWA的構思過程是有用的。
首先從一般可行性分析開始,研究人員需要了解表型、迄今為止研究的內容、測量和先前的遺傳力估計或其他GWAS結果(如果可用)。這一研究領域在總結現(xiàn)有結果的在線工具和軟件包方面繼續(xù)蓬勃發(fā)展。例如,你可以參考對50多個雙生子研究中許多人類性狀遺傳力的綜合分析(見[4])。它還附帶了一個名為MaTCH(雙胞胎相關性和遺傳力的元分析)的web應用程序,可通過http://match.ctglabnl/。還有其他網站,如SNPedia(https://www./index,php/遺傳力),該目錄列出了與特定研究相關的遺傳力估計值。Ben Neale的實驗室還擁有一個令人難以置信的網站,用于檢測英國生物庫中許多性狀的遺傳力(http://www./uk-biobank/).您還可以從復雜性狀遺傳學虛擬實驗室(CTG-VL)生成結果的可視化,包括曼哈頓圖和許多其他結果,用于GWAS后分析[5],ttps:// and http/atlas.ctglab.nI/。
下一步是隔離哪些數據源可能具有您感興趣的表型,如果適用,組建或聯(lián)系一個聯(lián)盟,或獲取現(xiàn)有或公開可用的數據(如英國生物銀行)。組建一個財團需要花費大量的時間和精力,包括經常等待道德和準入許可,在某些情況下還需要處理付款以使用數據。盡管英國生物銀行(約500000個)等大型數據集最近已經面世,但通常會形成大型聯(lián)合體,將多個數據集組合在一起,以產生盡可能大的樣本。在許多情況下,每個數據源的獨立分析師負責執(zhí)行
? [外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-R98ZEGiC-1656835655879)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624094239840.png)]
分析步驟:
? GWAS內部,并將結果發(fā)送回聯(lián)合體領導人。這通常與數據的隱私和同意問題有關,如本書最后一部分第l4章所述,GWAS匯總統(tǒng)計的元分析因此是發(fā)現(xiàn)與表型相關的遺傳變異的最常用方法。由于常見等位基因的遺傳效應很小,我們從第一章之前的討論中了解到,信號檢測需要更大的樣本量。由于單個GWASs的動力不足,研究人員需要進行元分析并合并多個數據源。
? 數據分析計劃這部分,主要是如何收集數據,包括設置問卷調查注意事項。還應該注意,應該包括一些協(xié)變量。然后常用的數據質控,使用的模型,有時候會考慮家系的作用。
? 如果您的目標是收集大量樣本,請說明如何選擇加入聯(lián)盟和關鍵截止日期。
然后經常列出詳細的樣本納入標準。例如,在我們對人類生殖的研究中,我們還檢查了有史以來出生的兒童數量(NEB),只包括那些已經到了生育期結束的兒童(女性至少45歲,男性55歲),并澄清說,我們還希望分析人員將從未生過孩子的個人包括在內。這也是您指定任何祖先要求、相關協(xié)變量、基因分型率(>95?)和其他質量控制的地方(另見第8章)。
基因型和插補信息,包括插補前需要應用的任何推薦標記過濾器,我們將很快討論。在前面提到的示例分析計劃中,SNP call rate>95,HWE>10-6,MAF>5%這些價值背后的邏輯將在第8章中詳細討論。
用于關聯(lián)測試的模型的ear規(guī)范。例如,在我們的研究中,我們要求對男性和女性的兩種表型(AFB、NEB)的回歸模型進行估計,然后合并。例如,一個方程是Y=m+SNP,β+Zy+e。許多研究還經常包括基于家庭的數據,其中82第4章應提供明確的案例說明,以考慮數據中的脆弱性結構或選擇家庭成員。我們指定了線性回歸模型,其中包括幾個協(xié)變量(例如,控制人口分層、控制非線性效應的出生隊列或任何研究特定協(xié)變量)。
為結果指定fle格式。例如,許多人經常選擇費用聯(lián)合體共享格式。!文件命名方案同樣重要,因為您將收到數百個不同的文件。
數據交換和安全程序也很重要,最近在歐洲工作的許多人需要遵守GDPR(一般數據保護條例)(見第14章,道德)。
然后,還經常包括薈萃分析的描述。這包括標記排除篩選、基因組控制、顯著性閾值以及頂級SNP的報告方式。
每個參與的數據源(在這一研究領域通常稱為隊列)單獨運行分析,或者可以授權訪問數據。每個研究的匯總統(tǒng)計結果通常會與特定數據源數據的一些描述性信息一起上傳。然后將這些結果結合起來進行薈萃分析。
? 元分析? 元分析是對來自多個獨立研究的信息進行統(tǒng)計綜合,從而提高功效,進而降低假陽性發(fā)現(xiàn)的風險【7】。還建議聯(lián)合體中的所有研究人員簽署一份合作協(xié)議,其中包括,例如,在當前聯(lián)合體發(fā)布之前,不要發(fā)布該表型的GWAS,GWAS薈萃分析使用所謂的匯總數據,提供回歸系數、標準誤差、,依此類推,對于遵循預先指定的分析計劃的群體中的每個遺傳標記。因此,它不是單個級別的數據,而是匯總的匯總結果。我們2016年的生殖行為研究【6】。
例如,涉及一個元分析,它使用來自60多個不同數據源的匯總統(tǒng)計數據。在第8章中,我們描述了如何在個人層面上參與OC,然后再進行GWAS(例如,去除等位基因頻率低的變體。插補質量低,等位基因頻率與參考樣本有很大差異,或由其他地方未復制的特定研究驅動的結果)。GWAS薈萃分析中一個重要且耗時的步驟是第二套質量控制,它基本上是協(xié)調各研究的結果。盡管提供了統(tǒng)一的分析計劃,但此清理過程可能在初始項目中花費的時間最長,因為分析人員可能使用不同的軟件,或者結果中存在其他不一致之處。Winkler等人在GIANT consortium工作的基礎上,為meta-OC過程提供了一個優(yōu)秀的協(xié)議。
? 統(tǒng)計推斷、方法和異質性 表型數據確定數據的類型,以及需要考慮的協(xié)變量
? GWA研究的核心前提是對特定人群中的大量樣本同時進行數百萬個假設檢驗,或者換言之,對每個變量進行一個假設檢驗。每個遺傳關聯(lián)研究都采用統(tǒng)計推斷來確定和量化遺傳位點和表型之間的關聯(lián)強度。關聯(lián)方法的選擇通常取決于表型的性質,以及它是二分型(即二分型)還是定量型(即連續(xù)型),但考慮潛在的混雜因素(如gsex、年齡、出生隊列)也是常見的。
對于數量或連續(xù)特征(例如,初生年齡或體重指數),分析會在表型的連續(xù)分布范圍內對個體進行比較,通常使用線性回歸。在這里,我們比較了基于檢驗統(tǒng)計量的分布與任何標記無關聯(lián)的零假設,并考慮了標準誤差。刪失數據生存模型的其他擴展也越來越可能。對于二元或二元性狀,它通常使用邏輯回歸來比較高(病例)值和低(對照)值。與典型的logistic模型一樣,假設所研究性狀的logit變換與等位基因呈線性關系,但通常用優(yōu)勢比來解釋。
? 使用P-values和Z-scoresP-value一般用于單個數據的分析,Z-score可以用于元分析,表示結果。
? 第2章更詳細地闡述了這類研究的統(tǒng)計基礎。簡而言之,目標是對遺傳位點和正在研究的表型之間的每一個真實關聯(lián)進行統(tǒng)計顯著性估計。正如大多數讀者所知,正如前面第2章所討論的,統(tǒng)計顯著性通常由p值決定。p值估計獲得測試統(tǒng)計值的概率,該值與通過所選統(tǒng)計方法為潛在關聯(lián)估計的值一樣極端(即,在零下)。這并不是一個基因座與一個特征相聯(lián)系的可能性。當我們進行這種回歸時,我們使用t檢驗等檢驗統(tǒng)計量來檢驗特定遺傳變異的β參數是否顯著不同于零。檢驗統(tǒng)計量是用來衡量對無效假設支持程度的數據的數值總結。在零假設下,檢驗統(tǒng)計量可能具有已知的概率分布(例如,x’),或者估計其零分布。回想一下,無效假設是對特定人群之間沒有顯著差異的假設的統(tǒng)計檢驗,在GWAS的情況下,是病例和對照之間的差異。任何觀察到的差異都歸因于采樣或實驗誤差。如果從遺傳位點產生的檢驗統(tǒng)計量值與我們從無效假設中預期的值顯著偏離,則有證據表明存在替代性組間存在顯著差異(病例組與對照組)或與數量性狀存在顯著關系。
在薈萃分析中,p值的缺點是不能提供效應大小的總體估計,這一點已被廣泛討論。此外,無法評估數據集之間的異構性。還使用了一個相關的統(tǒng)計數據,即Z分數,它基于Z的平均值;值,即第i次研究的Z值,盡管p值和Z值高度相關,但使用Z值的優(yōu)勢在于,它們考慮了影響的方向,并且您能夠引入權重(例如,如果您希望某項特定研究的權重更高或更低)。單核苷酸多態(tài)性被標記為或被視為“點擊率”,以p值為衡量標準。
如前所述,商定的全基因組顯著閾值為p<5×10-8。
這對應于Bonferroni校正,將在下一節(jié)中討論。由于SNP、MAF、LD模式或陣列的變化,全基因組顯著性閾值可能因人群而異。在LD較低的人群中,如非洲祖先群體,應使用更嚴格的閾值[9]。
? 矯正GWAS結果常用的方法有:
Bonferroni correction,一般用0.05/N,或者1/N來確定P值 「第一種:Bonferroni矯正」
? DNA微陣列和下一代測序使我們能夠檢測大量串聯(lián)基因組位點的相關性。GWAS結果中進行比較的程度稱為多重測試問題。這是兩種誤報(l類錯誤)的可能性,如果多重比較的校正過于保守或功率不足,則會產生誤報(2類錯誤)。我們測試了整個基因組中數百萬個基因變體的關聯(lián),但只有很小一部分在全基因組顯著性水平上與表型相關。
問題是,當我們進行這么多測試時,我們也面臨著僅僅是偶然發(fā)現(xiàn)許多強大關聯(lián)的危險。在GWAS中,對每個遺傳位點和表型進行統(tǒng)計檢驗,以產生檢驗統(tǒng)計量和相關的p值。如果我們取標準p值0.05.
即使給定的遺傳變異與我們的表型無關,我們也有1/20的機會發(fā)現(xiàn)顯著的關聯(lián)。這就是所謂的類型1錯誤或假陽性。由于在GWAS中,我們實際上并行執(zhí)行了數百萬次測試,如果我們采用標準的0.05顯著性閾值,我們很可能會獲得許多誤報。為了解決這個多重測試問題,最常用和最直接的修正是Bonferroni修正。簡單地說,我們將所選的顯著性閾值(p值)除以所執(zhí)行的測試數量。如果進行了10次測試,我們只會聲明,如果p值小于0.005,結果才是顯著的。在基因組的情況下,我們正在測試100萬個獨立的遺傳變異是否存在常見的序列變異,因此,Bonferronicorrected p值的顯著性為p<5×10-8。這與統(tǒng)計學中獨立性的基本假設有關,或者說你應該從你的樣本中得到反映你會在人群中發(fā)現(xiàn)。
如果數據中存在最小的依賴性,而您違反了這一假設,則會產生有偏差的結果。GWASs的一個統(tǒng)計問題是,附近基因變體的基因型之間往往存在著很強的相關性?;蛘邠Q句話說,實際測試100萬個遺傳變異實際上更像是測試70萬到80萬個不相關的遺傳變異。因此,在GWAS中,采用統(tǒng)計閾值,以p<5×10-8(即p<0.0000000-5)作為全基因組統(tǒng)計顯著性的標準,而p<5×10-6通常用于表示“提示性命中”
? 「第二種:置換檢驗」
? 有人認為,Bonferroni校正過于保守,導致假陰性結果的比例增加,并假設每個基因變異都是獨立于其他變異進行測試的,這是獨立的。雖然對替代方法的詳細解釋超出了本介紹性書籍的范圍,但還有其他方法可以糾正多次測試?;谂帕械臏y試多次對表型進行排列,然后每次重新計算統(tǒng)計測試,以產生可用于假設測試的經驗零分布。
將其視為標簽的洗牌可能更為直觀。為了計算基于排列的p值,結果度量標簽被隨機排列或洗牌多次(例如1000-1000000),這有效地消除了基因型和表型之間的任何真正關聯(lián)。然后對所有置換數據集進行統(tǒng)計測試。
這提供了無關聯(lián)零假設下檢驗統(tǒng)計量和p值的經驗分布。然后將從觀察數據中獲得的原始檢驗統(tǒng)計量或p值與p值的經驗分布進行比較,以確定經驗調整的p值?;谥脫Q的測試是計算密集型的,尤其是當需要許多置換時,這對于精確計算非常小的p值是必要的[1]。
? 「第三種:FDR」
? 另一種技術是Benjamini-Hochberg錯誤發(fā)現(xiàn)率(FDR),它比Bonferroni校正更保守。它控制所有信號中誤報的預期比例,F(xiàn)DR值低于固定閾值,并假設SNP是獨立的。該方法將誤報的預期比例降至最低,但不具有統(tǒng)計意義。一個限制是,F(xiàn)DR方法仍然假設SNP和p值是獨立的。
而是一個“標簽”換句話說,它們是標記,因為附近的變體實際上可能是驅動關聯(lián)的因素。請記住,這是一項相關性研究,而不是因果關系研究,因此需要進一步的生物學和下游工作,以了解標記或其附近標記的生物學功能。在第10章第10.2節(jié)中,我們提供了一個更詳細的案例研究,說明如何使用FTO(通常被稱為“脂肪基因”)實現(xiàn)這一目標。第8章描述了我們在GWAS期間進行的各種其他診斷檢查,包括使用森林圖和分位數-分位數(Q-Q)圖按性別或數據源檢查結果的異質性。第9章還詳細介紹了控制人口分層的機制,這是第3章前面介紹的一個概念。
? 曼哈頓圖[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-U8GGy3fe-1656835655880)(C:\Users\df\AppData\Roaming\Typora\typora-user-images\image-20220624100503067.png)]
? GWAS的主要結果通常顯示在所謂的曼哈頓圖中,圖4.2顯示了第一次分娩時的年齡特征。該圖是一個散點圖,繪制了p值(軸)的負對數(以10為底)和按染色體(x軸)位置排序的SNP關聯(lián)的重要性。圖中的頂行代表了p<5×10-8的全基因組顯著閾值。圖中的底紅線顯示了p<5×10的提示性命中閾值。
圖中所示的單核苷酸多態(tài)性是標記,許多不會是實際的因果變異
? 二分類性狀和數量性狀二分類一般用卡方檢驗,連續(xù)性狀用F檢驗
? 為了評估二分性特征,卡方檢驗通常用于測試病例和對照組之間分布頻率的差異。它計算病例和對照組的預期等位基因頻率,就好像SNP與表型無關一樣。然后以卡方統(tǒng)計量(X)的形式測量與該期望的偏差。假設SNP和性狀不相關,則這些偏差偶然發(fā)生的概率的p值報告測試。如果p值低于定義的顯著性閾值(在控制多次測試后,稍后討論),則發(fā)現(xiàn)是顯著的。
然后,我們通常還會估計影響大小,這對于理解關聯(lián)的大小或強度很重要。為了計算二分性狀的效應大小,可以使用不同的方法,如優(yōu)勢比(OR)。這是給定表型相關等位基因的表型概率除以給定非相關等位基因的表型概率。請注意,這不應在個人層面上解釋為“個人風險”,而是與另一個基因組相比的風險計算。p值表示遺傳關聯(lián)是否符合我們選擇的統(tǒng)計顯著閾值,但不能用于比較遺傳關聯(lián)。這是因為p值受到樣本量、統(tǒng)計檢驗能力以及所研究關系之外的其他因素的強烈影響。正是出于這個原因,我們使用效應大小來比較兩個SNP:為了正確評估關聯(lián)的強度和解釋,你需要知道遺傳關聯(lián)的p值和效應大小估計。
? ? 為了評估數量性狀,如身高,我們通常使用線性回歸,目的是將性狀與每個感興趣的SNP相關聯(lián)。與之前的測試一樣,回歸模型以p值和β系數定義的效應大小的形式產生顯著性度量。然后對每個單核苷酸多態(tài)性進行回歸分析,以確定全基因組顯著性閾值(p≤5×10-8). 為了解釋數量性狀的效應大小,我們使用β系數,其中每個風險等位基因的出現(xiàn)對應于數量性狀的增加,等于Beta系數。例如,假設我們將基因型AA、AG和GG的SNP與身高(厘米)相關聯(lián)。如果我們發(fā)現(xiàn)A是“身高等位基因,β系數為0.5,則預測每個A等位基因對個體身高的貢獻為0.5厘米。
效應大小、樣本大小和統(tǒng)計能力是本分析中相互關聯(lián)的重要方面。雖然我們在這里沒有詳細探討這一點,但力量還取決于其他因素,如基因變體的MAF。罕見的因果變異比常見的因果變異更難檢測,因為重要關聯(lián)的統(tǒng)計能力很低,需要非常大的樣本量?;蛘?,在病例對照研究中,重要的不僅是樣本量,還有病例和對照的相對數量。相同數量的案例和控件是功率的最佳選擇。
? 固定效應模型和隨機效應模型? 正如我們在第2章中所討論的,固定效應模型依賴于假設每個風險等位基因在每個數據集中的真實效應是相同的。雖然這個假設可能很脆弱,但與隨機效應模型相比,這些模型能夠最大限度地提高發(fā)現(xiàn)率[14]。我們沒有詳細描述各種固定效應模型,但包括反向方差加權和Cochran-Mantel-Haenszel。隨機效應模型并不認為所有研究在功能上都是等效的,因為它們的能力有限,所以很少用于發(fā)現(xiàn)。當這些模型的目的是試圖將觀察到的關聯(lián)推廣到人群之外,并估計相關變體的平均效應大小以及不同人群的平均效應大小,以便進行預測時,更常用這些模型。
? 權重、FDR和填充? 當多個數據源組合在一起時,一些研究會有更多的數據,因此在薈萃分析結果中應該比較小的研究更重要或權重更大。最常用的最佳權重是逆方差加權(每個研究根據其平方標準誤差的倒數進行加權)。錯誤發(fā)現(xiàn)率(FDR)是指對已發(fā)現(xiàn)但被視為誤報的關聯(lián)比例的估計。這里,我們計算所謂的Q值,這是聲稱關聯(lián)可能的最小FDR。正如我們的應用章節(jié)所示,我們還測試了插補的可靠性。當存在MAFs低的多態(tài)性時,這可能是一個問題,因為MAFs<5的填充SNP被重新排除在分析之外。
? 數據來源方差異質? 一些表型可能難以測量或具有很高的測量變異性。在大型GWA研究中,通常需要協(xié)調不同的數據源并構建一個可比較的表型。因為已經收集了大多數表型。通常很難進行完全協(xié)調的分析。例如,2018年的一項研究考察了受教育年限的遺傳基礎,詳細考察了表型分類的差異如何影響結果【15】。
他們得出結論,在可能的情況下,最詳細的措施是最好的。然而,在協(xié)調多個數據集時,許多GWA通常協(xié)調到最常見的分類,因此通常最不詳細的分類。
除第3章詳細討論的基于祖先的異質性外,可能存在諸如出生隊列、國家或性別等不一致性。在第3章中,我們展示了即使在荷蘭或英國等相對較小的國家,也存在不同的人口分層模式。GWAS通常會結合來自多個國家和歷史時期的數據,以獲得足夠大的樣本量。隱含的假設是,遺傳學對個體的影響在時間和地點上是普遍的。在先前發(fā)表在《自然-人類行為》上的一項研究中,我們證明了事實并非如此,并且結合這些不同的數據集有可能掩蓋差異,尤其是行為表型【16】。在所謂的“大型分析”中,我們證明,當數據合并時,對教育和第一個孩子出生時間的遺傳影響中,約有40%是隱藏的或淡化的,這增加到75個或是出生過的孩子的數量。相反,我們發(fā)現(xiàn)與身高相關的遺傳變異在不同人群中似乎是相同的。性別差異也可能導致異質性,這就是為什么一些分析,如與生殖或生殖行為相關,分別檢查雌性、雄性和匯總結果【6,17】。顯然,這可以擴展到考慮其他類型的異質性,如年齡或生命歷程影響或社會經濟地位。
? 基因型數據質控? 對遺傳數據進行分析以進行GWAS需要了解這種情況下的統(tǒng)計推斷,但也需要進行大量質量檢查,稱為質量控制(QC)。QC是處理遺傳數據的核心方面之一。我們在第8章中討論了與GWASs相關的OC(見第8.5節(jié))。QC對于可靠的GWAS結果是必要的,因為原始基因型數據本身就存在問題(見方框4.2)。例如,您可能有很大比例的個體缺失數據,或者個體中缺失基因型的比率很高,或者其他與低樣本質量相關的問題。正如我們在第8章中更詳細地概述的那樣,QC可分為個體的質控和SNP的質控
個體水平QC經常檢查(1)DNA數據質量差,(2)常染色體雜合度高或低,(3)性別信息不一致,(4)重復或相關個體,以及,(5)祖先差異。第二組質量控制分析側重于基因型的數據質量或我們在第8章中根據標記OC討論的內容。在這里,我們采取幾個步驟來消除可能在研究中引入偏見的變體,即:(1)排除低呼叫率SNP;(2) 去除等位基因頻率極低的SNP(罕見變體);(3) 識別和排除極端偏離哈迪-溫伯格平衡的變體;(4) 在病例對照研究中,排除單核苷酸多態(tài)性組間的極端差異通話率;(5)在處理插補SNP的情況下,排除插補質量低的變異研究。
? NHGRI-EBI GWAS目錄 什么是NHGRI-EBI GWAS目錄? 該領域的新手通常想知道哪些表型已經被研究過,以及已經鑒定的各種SNP。主要資源是NHGRI-EBI GWAS目錄(以下簡稱目錄),包括所有已發(fā)布GWAS的數據,位于https://www./gwas/.它是由美國生產的。
國家人類基因組研究所(NHGRI)[19]與歐洲生物信息學研究所(EBI)[20]。要列入目錄,研究必須符合非常嚴格的標準(見www./gwas/docs/methods),包括基于陣列的gwas和對100000多個全基因組覆蓋的SNP的分析。目錄中報告的SNP性狀關聯(lián)是那些p值至少小于1×10-5的性狀關聯(lián)。目錄研究人員通過自動PubMed搜索找到研究,然后手動整理它們以進行評估和納入。所有GWAS性狀都映射到實驗因子本體(EFO)[21]中的術語,這是一個用于分子生物學的變量本體,包括疾病、解剖學、細胞類型、細胞系、化合物和分析信息。例如,如果您搜索“心血管疾病”,目錄將提供該特定特征及其子特征的所有研究和關聯(lián)的結果和可視化結果。在這個例子中,潛臺詞可能是“心肌梗死”或“冠心病”?圖4.3顯示了NHGRI-EBI GWAS目錄,說明了根據所有(人類)染色體的基因組位置報告的遺傳關聯(lián)。每一條線都鏈接到一個與p值閾值為p的性狀相關的基因座≤5×10-8,每個圓圈都有顏色編碼,以表示一個獨特的特征。他們根據17個主要特征類別進行分組,如消化系統(tǒng)疾病、血液學測量、癌癥或藥物反應??梢酝ㄟ^出版物、變體、性狀或基因搜索目錄,這些信息會隨著新出版物不斷更新。
? GWAS歷史介紹? 以下是幾篇關于GWASs的優(yōu)秀敘述性評論,描述了基本原理和科學結論,并強調了關鍵里程碑【2,22,23】。盡管第一份GWAS于2005年出版。maior突破是Wellcome Trust Case Control Consortium于2007年發(fā)表的一篇論文【24】,由于需要合作整合多個數據源,該論文被譽為外交方面的杰作【23】。
如前所述,要進行成功的GWAS,需要大樣本量以提供足夠的統(tǒng)計能力[25]。這意味著大多數GWASs發(fā)布到數據通常將來自多個數據源的單獨分析的匯總結果匯集到元分析中,以獲得盡可能大的樣本量。過去幾十年來,技術、方法、理論、計算能力和資金的進步極大地改變了GWAS的格局。
在我們之前的工作中,Mills和Rahal(2019)[3]對2005年至2018年10月的13年間的所有GWASs進行了系統(tǒng)和計算審查。我們使用NHGRI-EBI GWAS目錄,并將其鏈接到PubMed等外部數據庫。重要的是要注意,除了創(chuàng)建此aliving數據庫之外,我們還包括了在公開的GitHub站點上使用的所有代碼(https://github.com/crahal/GWASReview).
換句話說,隨著每個目錄的更新,我們的數據庫以及這里描述的數字和數字將隨著時間的推移自動更新。如圖4.4所示,隨著時間的推移,發(fā)布的GWASs數量、樣本量、關聯(lián)數量和研究的疾病都有顯著增長。
在上面的面板中,我們看到隨著時間的推移,發(fā)表的研究數量大幅增加(根據樣本大小劃分)。在這里,隨著時間的推移,我們看到樣本量的驚人增長,在2018年末和2019年初發(fā)布的樣本有時包含100多萬個個體。這些較大的研究主要歸功于英國生物銀行(約50萬個人)[26、27],以及參與這項研究的23andMe等大型直接面向消費者的公司[28]。左下角的面板顯示了發(fā)現(xiàn)的關聯(lián)數量與GWASs中使用的參與者數量之間的強正相關關系。右下角的面板顯示了獨特特征數量的增長以及發(fā)布GWASs的期刊數量的增長。截至2018年10月,我們發(fā)現(xiàn)發(fā)表了3639項研究,涵蓋了5849個獨特的研究材料(論文中歸因于性狀的標識符),涉及3508個獨特的性狀,映射到2532個EFO性狀。這些特征包括從身高到男性類型的禿頂、阿爾茨海默病、乳腺癌、咖啡消費或神經質。每次研究的平均命中數為15.3,最強風險等位基因的平均p值為1.3729×10-6。55歲左右?報告的關聯(lián)符合p的標準閾值≤5×10-8.
? GWAS多樣性的確定? 或者是該領域的新研究人員,有必要注意到目前基因樣本缺乏多樣性。正如我們在前幾章中所討論的,受試者祖先多樣性的差異與人口分層等技術問題有關[29]。減少了連鎖不平衡【30】、遺傳多樣性和混合【31】,但也由于文化不信任和數據的社會濫用而拒絕參與研究【32,33】。圖4.5顯示,盡管GWASs的數量和性狀隨著時間的推移確實呈爆炸式增長,但它仍然主要存在于歐洲祖先群體中,非歐洲群體更常在復制階段進行檢查。這意味著這些非歐洲人群經常被用來測試歐洲祖先群體會在其他祖先群體中復制,因此通常不會作為這些群體中基本基因發(fā)現(xiàn)的基礎。
圖4.5按常用的六大祖先類別顯示了祖先群體。歐洲血統(tǒng)的人受到的檢查最多。從2007-2008年高達95%的受試者到2017年的88%不等。特別是自201l年以來,對亞洲人群的研究一直在強勁而穩(wěn)定地增長(見方框4.3)。如Mills和Rahal(2019年,表2)[3]所述,這主要是日本、中國和韓國人口。隨著時間的推移,對非洲人口的研究最少,人們希望非洲基因組變異項目和其他促進多樣性的項目將繼續(xù)增加和改變這些趨勢。
與GWA研究相關的多樣性幾乎只討論了與祖先相關的多樣性,但我們在GWA審查中還發(fā)現(xiàn),地理、環(huán)境、時間和人口(如年齡、性別)的多樣性明顯不足【3】。正如我們所注意到的,盡管目前世界人口中約76.2%居住在亞洲或非洲,但72%的基因發(fā)現(xiàn)來自僅居住在三個國家(美國、英國和冰島)的參與者。正如我們在本章和其他地方所闡述的,需要做更多的工作來了解環(huán)境暴露和地理集中如何影響結果。例如,在美國、墨西哥和英國,有肥胖傾向的人面臨的環(huán)境刺激與其他一些肥胖率明顯較低的國家截然不同如日本、韓國、意大利和荷蘭。我們還發(fā)現(xiàn)出生隊列、歷史時期和生命歷程階段缺乏時間和人口多樣性。GWASs中最常用的數據通常是年齡過大、社會經濟地位較高、女性人數較多的數據,而且通常還包括“健康志愿者”的選擇,如英國生物銀行[35]。
? 結論和未來的方向? 自2005年第一次GWAS以來,這一研究領域發(fā)生了重大變化。我們向讀者介紹了NHGRI-EBI GWAS目錄,其中包含迄今為止所有已發(fā)布GWAS的摘要。我們還記錄了這一領域是如何迅速發(fā)展的,這不僅是因為研究的研究、疾病和關聯(lián)的數量之多,還因為樣本量的不斷擴大。截至2019年,許多大型研究的綜合樣本超過100萬例。然而,我們注意到,這種增長甚至沒有跨越不同的祖先或地理群體,大多數研究仍在歐洲祖先群體中進行。尤其是亞洲研究,隨著世界各地(如非洲)的新投資,進一步增加了多樣性。一個新興而令人興奮的研究領域將是非歐洲祖先群體遺傳多樣性的發(fā)現(xiàn)。我們還應該注意到,組建這些大型財團也可能是過去的事情。
隨著英國生物銀行(UK Biobank)等大型數據集和23andMe等直接面向消費者的公司數量的不斷增加,收集許多小型數據隊列以生成大型樣本的情況似乎越來越不常見。
讀者還將對GWA研究所依據的方法學有一個基本的了解。雖然這仍然是一本介紹性的書,但我們希望您已經初步了解了這種類型的研究是如何進行的,GWASs中統(tǒng)計推斷的意義,以及為什么以及如何需要更正多次測試。
本書第8章還介紹了個人和遺傳標記水平上質量控制(QC)的重要性以及實際應用。
我們對GWAS的簡要歷史表明,這是一個快速發(fā)展的研究領域。
正如我們在關于倫理問題和未來方向的第14章和第15章中所闡述的,GWAS也并非完全沒有爭議。有人擔心,長長的優(yōu)先“熱門”名單并沒有帶來一些人承諾的個性化藥物、新療法和風險預測工具。盡管超出了本書的支持范圍,但許多GWAS命中的生物學后續(xù)研究已經找到了與已知生物途徑相關的變體,但也找到了其他未被臨床靶向的變體。
越來越多的研究不僅在研究常見的變異,也在研究罕見的變異。測序數據的進一步發(fā)展也可能揭示令人興奮的新發(fā)現(xiàn)、研究領域和新方法。分析和合成GWAS數據的新方法也出現(xiàn)了,例如復雜性狀遺傳學虛擬實驗室為GWAS后分析所做的工作(https:///updates).
? 練習: