單倍型分型是指將二倍體細胞中兩條同源染色體上的各種遺傳多態(tài)性的連鎖關(guān)系準(zhǔn)確鑒定出來。它是終極分辨率的端粒到端粒的人類參考基因組組裝的必要成分。單倍型分型能夠幫助研究同一條染色體上不同調(diào)控元件遺傳變異之間的順式相互作用,例如,同一個基因中不同外顯子上的兩對雜合SNP(單核苷酸序列多態(tài)性)是位于同一條染色體上,還是分別位于兩條同源染色體上,這對于判斷該基因的功能狀態(tài)是純合突變狀態(tài)(該基因的兩個等位基因都失活)還是雜合突變狀態(tài)(該基因的兩個等位基因中一個失活、另外一個功能正常)非常重要。類似地,同一個基因的增強子-啟動子(或者兩個不同的增強子)上的兩對雜合SNP的相位關(guān)系也需要通過單倍型分型來判斷。 目前,最常用的單倍型分型方法是通過對指定人類個體的雙親基因組進行高通量測序?qū)崿F(xiàn)對該個體的二倍體基因組的單倍型分型。而在缺乏親本信息的情況下,使用長讀段、超長讀段或者鏈接讀段測序可以進行基因組局部單倍型分型。然而,想要實現(xiàn)整條染色體尺度(長度從幾千萬堿基對到幾億堿基對)的單倍型分型還需要額外的技術(shù)進行輔助,例如單條染色體分選,Strand-seq和Hi-C等,這些技術(shù)可以解析出更長的遺傳多態(tài)性連鎖信息,提供整條染色體尺度的單倍型分型結(jié)果。然而,這些方法耗時且昂貴,相比之下,直接對單個配子細胞(單倍體細胞)進行全基因組測序是一種更加高效和精準(zhǔn)的單倍型分型方法。 首個單精子基因組測序技術(shù)在10年前被開發(fā)出來,此后單精子基因組測序技術(shù)被不斷優(yōu)化和改進,為減數(shù)分裂、生殖細胞基因組不穩(wěn)定性和單倍型分型的研究提供了強有力的技術(shù)支持。然而目前為止幾乎所有的單精子基因組測序方法都僅限于二代測序平臺,由于所獲得的序列長度不超過600bp,對于單倍型分型的研究只限于SNP水平,對于基因組不穩(wěn)定性的研究幾乎都集中在基因組拷貝數(shù)變異(CNV)和單堿基突變上(SNV),對于基因組上更重要的遺傳多態(tài)性(例如結(jié)構(gòu)變異,特別是50bp—10kb的結(jié)構(gòu)變異)的鑒定和分型很難實現(xiàn)。 2023年6月24日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)湯富酬教授課題組在Nucleic Acids Research發(fā)表了題為“Long-read-based single sperm genome sequencing for chromosome-wide haplotype phasing of both SNPs and SVs”的研究論文。該研究開發(fā)了一種基于單分子測序(三代測序)平臺的單精子長讀段基因組測序方法和相應(yīng)的數(shù)據(jù)分析流程,通過高質(zhì)量的單精子基因組測序數(shù)據(jù)能夠準(zhǔn)確鑒定精子減數(shù)分裂過程中的交叉重組事件,并且能夠準(zhǔn)確檢測單個精子細胞基因組中的結(jié)構(gòu)變異。更重要的是,單精子長讀段基因組測序?qū)崿F(xiàn)了整條染色體尺度的單倍型分型(包括SNP和結(jié)構(gòu)變異)(圖1)。 文章封面 圖1. 基于長讀段測序平臺的單精子基因組測序方法及應(yīng)用 1. 首次基于單分子測序平臺開發(fā)了一種高通量單精子長讀段基因組測序方法(同時適用于ONT和PacBio單分子測序平臺)。該研究設(shè)計了24種帶有不同條碼序列的Tn5酶,并結(jié)合后續(xù)擴增引物中使用的96種條碼序列,對單個精子進行雙重條碼序列標(biāo)記,使得在一次測序中通量最高可以達到2304個單細胞。然后將24個帶有不同Tn5酶轉(zhuǎn)座標(biāo)記的精子混合在一起進行基因組擴增,以增加擴增的均勻性,并進行了嚴格的交叉污染實驗,驗證了該方法的低交叉污染率和可靠性。最終從B6D2F1/Crl [BDF1]雄性雜合小鼠中獲取了共1573個精子細胞的基因組測序數(shù)據(jù)(過濾掉含有多個精子細胞或基因組覆蓋度低于1%的樣本)。在平均測序深度只有0.1×的情況下,單個精子的基因組覆蓋度為1%到25.5%(基因組覆蓋度中位數(shù)為4.9%),平均測序讀長為5.5kb(圖2)。 圖2. 基于長讀測序平臺的單精子基因組測序方法實驗流程圖和數(shù)據(jù)質(zhì)控 2. 精準(zhǔn)鑒定出每個精子細胞中的減數(shù)分裂交叉重組事件和非整倍體事件。該研究使用隱馬爾可夫模型(HMM)來確定單個精子中出現(xiàn)的減數(shù)分裂交叉重組位點。最終在1573個精子樣本中鑒定出17,445個常染色體交叉重組事件。每個精子會發(fā)生4到27次交叉重組(平均每個精子發(fā)生12次)。同時在單精子基因組的測序數(shù)據(jù)中,也鑒定出了交叉干涉現(xiàn)象。同時,在23個精子細胞中鑒定到29個整條染色體丟失事件,其中15個發(fā)生在常染色體上,14個發(fā)生在性染色體上,此外,還在4個精子細胞中發(fā)現(xiàn)了4個常染色體拷貝數(shù)增加事件(圖3)。 圖3. 單精子中交叉重組事件的鑒定 3. 在單個精子細胞中精確鑒定出結(jié)構(gòu)變異(SV)。該研究以父母本小鼠大量細胞起始(bulk)的ONT單分子測序數(shù)據(jù)所鑒定出的結(jié)構(gòu)變異作為金標(biāo)準(zhǔn)(DBA/2NCrl小鼠和C57BL/6NCrl小鼠基因組中分別鑒定出57,116個和5901個結(jié)構(gòu)變異),來評估單精子基因組測序數(shù)據(jù)中結(jié)構(gòu)變異檢測的準(zhǔn)確性,發(fā)現(xiàn)6個以上精子細胞支持的結(jié)構(gòu)變異事件的檢測精度可以到達90%,而3個精子細胞支持的結(jié)構(gòu)變異F1評分最高(78%)。另外,該研究選取了70個涉及重復(fù)元件的結(jié)構(gòu)變異進行PCR實驗驗證,驗證準(zhǔn)確性達到90%左右(圖4)。 圖4. 單精子中基因組結(jié)構(gòu)變異的鑒定 4. 實現(xiàn)了對SNP和結(jié)構(gòu)變異等遺傳多態(tài)性的整條染色體尺度的高精度單倍型分型。該研究開發(fā)了一種新的染色體尺度的單倍型分型流程。在該流程中,總共鑒定出54,712個雜合結(jié)構(gòu)變異,其中94.36%的雜合結(jié)構(gòu)變異能夠通過該技術(shù)進行分型,分型準(zhǔn)確率達到98.59%。總共鑒定出4,664,507個雜合SNP,其中98.15%的雜合SNP能夠通過該技術(shù)進行分型,分型準(zhǔn)確率達到99.95%。同時,成功進行分型的結(jié)構(gòu)變異的長度分布顯示出一個約190bp的峰值和一個6kb的峰值,它們分別對應(yīng)了哺乳動物基因組中兩種數(shù)量較多的重復(fù)元件:SINE和LINE(圖5)。 圖5. 使用單精子基因組測序數(shù)據(jù)完成染色體尺度的單倍型分型 5. 精準(zhǔn)識別和分類包含重復(fù)元件的結(jié)構(gòu)變異。在長度大于100bp的36,271個成功進行分型的雜合結(jié)構(gòu)變異中,25,664個包含重復(fù)元件。其中,29.3%被單個LINE覆蓋,17.0%被單個SINE覆蓋,16.2%被單個LTR覆蓋,12.4%被串聯(lián)重復(fù)覆蓋,24.9%被多個重復(fù)元件的組合覆蓋。同時鑒定出3190個串聯(lián)重復(fù)序列在單倍型之間存在特異性擴增,為此該研究使用k-mer頻率信息來可視化這些串聯(lián)重復(fù)位點在B6和DBA單倍型中的結(jié)構(gòu)和序列組成差異(圖6)。 圖6. 涉及重復(fù)元件的基因組結(jié)構(gòu)變異鑒定和可視化 該研究有幾個潛在的應(yīng)用:首先,類似于Strand-seq技術(shù),該方法可以與大量細胞起始(bulk)的長讀段基因組測序相結(jié)合,實現(xiàn)高精度的單倍型組裝。或者通過對數(shù)百個單個精子細胞進行高深度長讀段基因組測序,直接完成單倍型從頭組裝。其次,該方法可以應(yīng)用于人類單個精子細胞的研究,通過在不育男性生殖細胞中鑒定基因組結(jié)構(gòu)變異(包含重復(fù)元件),可以為男性不育的研究和遺傳疾病的研究提供新的線索。第三,該研究結(jié)果顯示,最少只需要100個精子細胞就能完成整條染色體尺度的高精度單倍型分型,這大大降低了單倍型分型的成本,為未來構(gòu)建人類泛基因組圖譜開辟了新的途徑。 北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心、北京大學(xué)生命科學(xué)學(xué)院博士謝昊伶,北京大學(xué)前沿交叉學(xué)科研究院博士生李文以及北京大學(xué)生命科學(xué)學(xué)院博士生郭雨晴為該論文的并列第一作者。湯富酬為該論文的通訊作者。該研究項目得到了北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心、北京未來基因診斷高精尖創(chuàng)新中心、北大-清華生命科學(xué)聯(lián)合中心、北京昌平實驗室、北京市科技委的支持 |
|