乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      人類基因組的Phasing原理是什么?

       新用戶5987armE 2021-11-19

      什么是Phasing?

      Phasing,或者說(shuō)Genotype Phasing,它的中文名有很多:基因定相、基因分型、單倍體分型、單倍體構(gòu)建等在不同的語(yǔ)境下都有人說(shuō)過(guò)。但不管如何,所謂Phasing就是要把一個(gè)二倍體(甚至是多倍體)基因組上的等位基因(或者雜合位點(diǎn)),按照其親本正確地定位到父親或者母親的染色體上,最終使得所有來(lái)自同一個(gè)親本的等位基因都能夠排列在同一條染色體里面。

      現(xiàn)在流行的NGS測(cè)序技術(shù),都是把序列打亂混在一起測(cè)序的,測(cè)完之后,我們是無(wú)法直接區(qū)分這些序列中哪一個(gè)是父源,哪一個(gè)是母源的。我們通常都只是檢測(cè)出基因組上有哪些變異,以及這些變異的堿基組成(純合、雜合),也就是平時(shí)所說(shuō)的基因型(Genotype)。只有經(jīng)過(guò)Phasing,才能夠?qū)崿F(xiàn)這個(gè)區(qū)分(圖1)。

      圖1. 變異位點(diǎn)經(jīng)過(guò)Phasing和不經(jīng)過(guò)Phasing的示意圖。右上圖代表通常的Genotype,右下圖代表Phasing之后的情況,實(shí)現(xiàn)了親本的區(qū)分。

      為什么要Phasing

      因?yàn)镻hasing很重要。Phasing的重要性可以分為兩個(gè)方面。一方面, Phasing與遺傳變異的功能詮釋密切相關(guān)。這體現(xiàn)在遺傳咨詢師或者科學(xué)家需了解基因突變的相位后, 才能更好地判斷基因突變是否會(huì)產(chǎn)生臨床表型。比如在一個(gè)基因上發(fā)生多個(gè)Loss of function variants(LOF),通常當(dāng)這些變異出于不同的單倍型時(shí)(這稱為trans-configuration),即兩個(gè)拷貝的姐妹基因都發(fā)生了變異, 才會(huì)導(dǎo)致基因表達(dá)計(jì)量(Gene expression dosage)的錯(cuò)誤且產(chǎn)生危害。而當(dāng)它們出于同一個(gè)單倍型時(shí)(這稱為cis-configuration),因?yàn)檫€有一個(gè)正??截惖幕颍ㄗ鳛閭涮ィ? 基因表達(dá)很可能不會(huì)發(fā)生改變也不會(huì)產(chǎn)生危害。

      另一方面, Phasing在遺傳學(xué)研究中也有諸多應(yīng)用,具體如下:

      • 第一、人群Phasing后形成的單倍型參考序列集(Reference panel)是基因型推斷(Imputation)必須的數(shù)據(jù)材料。而基因型推斷(Imputation)是基因型-表型關(guān)聯(lián)分析研究中必不可少的環(huán)節(jié)。高質(zhì)量的Reference Panel能提升關(guān)聯(lián)分析的統(tǒng)計(jì)功效;

      • 第二、除了Reference Panel的制造需要使用Phasing技術(shù)之外,對(duì)被研究的對(duì)象進(jìn)行預(yù)先Phasing(Pre-phasing)也可以極大地提高基因型推斷(Imputation)的準(zhǔn)確性;

      • 第三、使用多個(gè)位點(diǎn)組成的Haplotype,而不是簡(jiǎn)單的單位點(diǎn)基因型, 可實(shí)現(xiàn)群體遺傳歷史的推斷;

      • 第四、可通過(guò)Phased后的家系人群?jiǎn)伪缎托蛄校浪闳旧w重組率、重組熱點(diǎn)等重要遺傳參數(shù);

      • 第五、Phasing可用于探測(cè)頻發(fā)突變、選擇信號(hào)以及基因表達(dá)的順勢(shì)調(diào)控。

      Phasing說(shuō)起來(lái)容易,做起來(lái)卻很難

      雖然Phasing理解起來(lái)并不難,但實(shí)現(xiàn)起來(lái)卻不容易,即使在理論上也是如此。這需要相關(guān)的統(tǒng)計(jì)學(xué)和計(jì)算機(jī)算法技術(shù),求解的過(guò)程往往還是一個(gè)NP問(wèn)題。目前通常采用馬爾科夫鏈蒙特卡洛算法來(lái)完成,因此,Phasing算法本身基本都是計(jì)算密集型的,做起來(lái)也比較耗時(shí)間,有時(shí)即使是在超算集群中也得跑很長(zhǎng)時(shí)間。

      Phasing的方法有哪些

      Phasing的方法總結(jié)起來(lái)主要有三個(gè):家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)下面我就來(lái)逐一展開(kāi)對(duì)其方法進(jìn)行說(shuō)明。

      目前,基因定相最準(zhǔn)確的方法是利用家系數(shù)據(jù)來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō),就是除了被研究的這個(gè)個(gè)體之外,同時(shí)對(duì)其父親和母親的基因組進(jìn)行測(cè)序。有了這三個(gè)人的數(shù)據(jù)之后,就可以很容易地區(qū)分出這個(gè)樣本的兩個(gè)單倍體。為了便于理解,我打個(gè)比方,比如我們知道他/她的基因組某一個(gè)位置上的基因型是AB,而父親的基因型是AA,母親的基因型是BB,那么我們就可以清楚地知道他/她這個(gè)基因上的A是來(lái)自于父親染色體,而B(niǎo)則是屬于母親染色體的,更多的具體情況可以參看下面這個(gè)示意圖。

      圖2. 家系數(shù)據(jù)實(shí)現(xiàn)對(duì)子/女基因組的Phasing示意圖

      這個(gè)方法的一大優(yōu)點(diǎn)就是定相(Phasing)的過(guò)程非常直接、簡(jiǎn)單,不需要進(jìn)行復(fù)雜的統(tǒng)計(jì)學(xué)計(jì)算,就可以準(zhǔn)確地實(shí)現(xiàn)長(zhǎng)距離的定相,并且還能夠知道每一個(gè)基因型的親本來(lái)源到底是什么,比如在上面的例子中,我們可以知道A和B分別屬于父本和母本(如上圖)。這個(gè)親本來(lái)源的問(wèn)題對(duì)于研究或者治療許多復(fù)雜疾病的意義是十分重大的,比如最近發(fā)表在《Science》上的一個(gè)研究中發(fā)現(xiàn),影響小孩發(fā)生孤獨(dú)癥(也稱自閉癥)的基因突變中父親的影響更大,除此之外還有很多母源或者父源性的疾?。ㄟ@里面其實(shí)還涉及到Transmitted和Non-Transmitted Chromosome的問(wèn)題),這些類型的結(jié)果如果沒(méi)有家系的數(shù)據(jù)是無(wú)法得出的。

      對(duì)于這個(gè)方法來(lái)說(shuō),家系越龐大它的Phasing效果會(huì)越好。萬(wàn)一很不幸我們沒(méi)能湊齊一家三口(Trio樣本)僅有雙樣本的情況,也不用灰心,雖然效果會(huì)差一些,但還是會(huì)比沒(méi)有任何族譜信息的數(shù)據(jù)要好。

      家系Phasing的這個(gè)方法雖有很多難以比擬的好處,但也有一些比較明顯的缺點(diǎn)。比如,我們?yōu)榱藢?duì)這個(gè)人進(jìn)行定相分析,就不得不多測(cè)另外兩個(gè)人的基因組。這一方面大大增加了原有的成本;另一方面則是有些人由于各種各樣的原因已經(jīng)難以獲取其雙親的樣本數(shù)據(jù)了;另外,這個(gè)方法其實(shí)也無(wú)法完成對(duì)該個(gè)體所有變異的完全定相,比如當(dāng)碰到父、母和子/女都是雜合突變的位點(diǎn)時(shí),就無(wú)法區(qū)分了。這樣的位點(diǎn)雖然在基因組上不是最主要的,但是也大約占到了總變異位點(diǎn)數(shù)的13%左右,或者說(shuō)有大約五分之一的雜合突變位點(diǎn)(注意只是占所有雜合的比例)是這種不可Phasing的狀態(tài),詳細(xì)的分類情況可以參考下表:

      表1. 能夠被Phasing和不能夠被Phasing的SNPs位點(diǎn)分類

      LD Phasing是另外一個(gè)非常常用的基因定相方法,它是利用群體中大量無(wú)血緣關(guān)系的個(gè)體,依據(jù)基本的連鎖不平衡(Linkage disequilibrium,LD)遺傳原理和相關(guān)數(shù)學(xué)模型,推斷群體中每個(gè)個(gè)體的單倍體的方法,因此它也是計(jì)算量最大的一個(gè)。

      我們知道人這個(gè)物種在減數(shù)分裂產(chǎn)生生殖細(xì)胞的過(guò)程中姐妹染色單體會(huì)發(fā)生重組,這個(gè)重組的發(fā)生率每代大約是10^-8,雖然很低,但是隨著一代接一代不斷地繁衍下去,經(jīng)過(guò)足夠長(zhǎng)的時(shí)間之后(比如說(shuō)無(wú)窮!無(wú)窮!無(wú)窮?。?。

      你這是在逗我嗎

      那么從理論上來(lái)講,來(lái)自同一祖先的兩條染色就會(huì)被均勻地重組一個(gè)遍。然而,遺憾的是我們現(xiàn)代人還是Too Youg Too Simple!從最早的證據(jù)來(lái)看現(xiàn)代人的共同祖先大概起源于15萬(wàn)-19萬(wàn)年前(第三次走出非洲的時(shí)間),所以至今我們也不過(guò)才經(jīng)歷了6,000-7,600代而已。

      這么少的代數(shù)也就意味著染色體的重組其實(shí)還很有限,因此人類基因組中許多相鄰的區(qū)域往往都是“黏”在一起遺傳下去的,這也就是所謂的存在連鎖不平衡的遺傳現(xiàn)象,這些“黏”在一起的區(qū)塊稱為“連鎖不平衡區(qū)塊”(LD Block)。

      常見(jiàn)變異——那些在人群中頻率占比達(dá)到5%以上的變異——所存在的連鎖不平衡區(qū)塊(LD Block,Tajima’s D > 0.5)的長(zhǎng)度大多集中在50Kbp-60Kbp。并且LD區(qū)塊的長(zhǎng)度在不同的人群中是不同的,比如,非洲人的LD區(qū)塊就比歐洲人和亞洲人的更短。為什么呢?這是因?yàn)榉侵奕吮葰W洲人或者亞洲人都要更古老,他們的基因組相比于另外的兩個(gè)人群發(fā)生了更多次數(shù)的重組,所以LD區(qū)塊的長(zhǎng)度就更短了。

      LD區(qū)塊的存在就意味著我們可以通過(guò)構(gòu)建相關(guān)的數(shù)學(xué)模型,來(lái)把這樣的連鎖關(guān)系求解出來(lái)。在開(kāi)展大規(guī)模的基因組研究計(jì)劃時(shí)(如Hapmap、國(guó)際千人基因組、Haplotype reference consortium以及各國(guó)家的國(guó)家基因組計(jì)劃),通過(guò)構(gòu)建基于隱馬爾可夫模型(HMM)等的Phasing算法就可以依據(jù)測(cè)序數(shù)據(jù)或者芯片數(shù)據(jù),反推出每個(gè)個(gè)體最有可能的單倍體,完成Phasing。

      目前,適合于以上兩種Phasing方法(家系和LD Phasing)的最好工具是Beagle和Shapeit。這兩個(gè)工具都同時(shí)包含了用于家系(Related individual Phasing)和LD Phasing的模塊。并且都可以用于測(cè)序數(shù)據(jù)和芯片數(shù)據(jù),但其中的差別在此不贅述。

      回過(guò)頭來(lái)想想LD Phasing方法的缺點(diǎn)是什么?其實(shí)通過(guò)上面的介紹,我想大家或多或少也注意到了,由于這個(gè)方法需要依據(jù)群體的信息,那么它所能夠Phasing的精度就會(huì)受到群體的制約。通常來(lái)說(shuō)它只能針對(duì)群體中常見(jiàn)的變異(如頻率在5%以上的變異),在這方面它的效果確實(shí)非常棒,很多基因檢測(cè)公司甚至?xí)堰@個(gè)作為公司產(chǎn)品的買點(diǎn),但對(duì)于罕見(jiàn)突變和個(gè)體特有的變異就不行了。雖然隨著人群基數(shù)的增大,它所能夠Phasing的變異范圍也會(huì)隨著不斷增加,比如從只能Phasing 5%以上頻率的變異,增大到能夠Phasing 1%以上頻率的變異,但說(shuō)到底它還是難以實(shí)現(xiàn)對(duì)一個(gè)個(gè)體單倍體的完全定相。

      那么,到底該怎么做才能實(shí)現(xiàn)完全定相呢?

      正所謂,求人不如求己。由于有了以上的種種限制,于是科學(xué)家們就研發(fā)了第三類方法:Physical Phasing——「物理定相(或叫物理分型)」。它不需要家系數(shù)據(jù),也不借助LD關(guān)系,完全依賴自身的測(cè)序數(shù)據(jù),就可以完成基因的定相。

      我們都知道在第二代或者三代測(cè)序中,一條read、一對(duì)reads或者一個(gè)clone上的每一個(gè)堿基都必定來(lái)自同一個(gè)染色體(也就是同一個(gè)單倍體)。對(duì)于每一個(gè)這樣的測(cè)序片段而言,它本身就是某一個(gè)單倍體的一個(gè)“局部”,因此現(xiàn)在的問(wèn)題就變成了要如何把這些一個(gè)一個(gè)的小”局部“連成一個(gè)整體,接出完整的單倍體,從而實(shí)現(xiàn)定相,這就是Physical Phasing。而且如果測(cè)序序列足夠長(zhǎng)(比如三代測(cè)序數(shù)據(jù)),深度足夠深,那么它就能夠?qū)崿F(xiàn)個(gè)體的完全定相,而且有必要的話還可以同時(shí)把這兩個(gè)單倍體的完整DNA序列組裝出來(lái),形成姐妹染色單體,這兩個(gè)優(yōu)點(diǎn)是另外兩個(gè)方法難以比擬的。

      長(zhǎng)序列可以來(lái)自特殊建庫(kù),如長(zhǎng)度約是40Kbp的Fosmid建庫(kù)后的測(cè)序和組裝,或者是華大測(cè)序儀的Long Fragment Read(LFR)測(cè)序技術(shù),當(dāng)然也可以是第三代測(cè)序的數(shù)據(jù)。

      這也是我(礦工)在華大基因深度負(fù)責(zé)的第一個(gè)研究課題(我的博士論文也是基于該課題)。當(dāng)時(shí)這一塊還比較空白,第三代測(cè)序技術(shù)也還不是很成熟,當(dāng)時(shí)為了獲得長(zhǎng)序列,我們采用了基于Fosmid構(gòu)建大長(zhǎng)度克隆片段然后進(jìn)行二代測(cè)序并組裝的方法(如下圖),成果發(fā)表在2015年的《Nature Biotechnology》上,我也是共同第一作者。

      圖3. 基于Fosmid和二代測(cè)序技術(shù)相結(jié)合的de novo Phasing方法

      由于我當(dāng)時(shí)已經(jīng)為課題中的一些細(xì)節(jié)寫過(guò)兩篇文章,因此這里就不再展開(kāi),感興趣的話你也可以查看本文最后的推薦閱讀,這里我只介紹物理定相的基本原理??偟膩?lái)說(shuō),要把局部的小片段連成一個(gè)大片段,從而實(shí)現(xiàn)Phasing,這個(gè)過(guò)程要做的好就需要充分借助小片段上的雜合SNPs作為區(qū)分的標(biāo)記。通過(guò)每個(gè)雜合位點(diǎn)上各個(gè)小片段中所含堿基的異同和彼此之間的重疊關(guān)系,我們可以把絕大部分的小片段分成兩類,然后通過(guò)一系列的連接、二分圖構(gòu)建、二分圖求解和重新組裝等方法,最后就可以把小片段逐步連成大片段,從而構(gòu)建出單倍體了,如下圖(請(qǐng)橫著看)。

      圖4.物理定相示意圖

      物理定相的方法,往往要求每個(gè)片段中都能包含較多的雜合SNPs位點(diǎn),但由于人類基因組中雜合SNPs位點(diǎn)之間的距離普遍在1.5Kbp左右——還是比較長(zhǎng)的,因此測(cè)序片段本身就要足夠長(zhǎng),這就需要使用包括三代測(cè)序技術(shù)在內(nèi)的一些測(cè)序方法,因此它的成本會(huì)比較高。我目前所知道的在Physica Phasing方面做得比較好的機(jī)構(gòu)中,除了我們自己當(dāng)時(shí)的小組之外,還有德國(guó)的馬克普朗克研究所( Max Planck Institute)Margret教授團(tuán)隊(duì)和華大基因Brock Peters博士所在的研究組,他們建立了LFR的實(shí)驗(yàn)和信息方法。

      小結(jié)

      關(guān)于Phasing原理的介紹到此就告一段落了,這里在介紹LD Phasing和物理定相的時(shí)候沒(méi)有從數(shù)學(xué)原理方面去展開(kāi),希望可以看起來(lái)比較通俗易懂,并且所有的Phasing算法都只對(duì)二倍體基因組比較有效,多倍體更加困難。在實(shí)際的項(xiàng)目中,我們還是需要根據(jù)樣本的特點(diǎn)、測(cè)序策略和結(jié)果預(yù)期,有針對(duì)性地選擇其中的一種或者多種進(jìn)行組合,從而達(dá)到最有效的Phasing效果,評(píng)價(jià)Phasing效果好壞的指標(biāo)有兩個(gè):

      • 第一,能夠被Phasing的變異位點(diǎn)越多越好;

      • 第二,正確被Phasing的位點(diǎn)數(shù)占比越高越好。


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多