1, 序言看到一篇論文, 介紹的特別好, 包羅萬象, 讀文章時好像看到作者指點江山, 摘抄學(xué)習如下, 引用部分是我的吐槽. 2, 摘要基因組選擇(genomic selection, GS)是畜禽經(jīng)濟性狀遺傳改良的重要方法。隨著高密度SNP芯片和二代測序價格的下降,GS技術(shù)越來越多被應(yīng)用于奶牛、豬、雞等農(nóng)業(yè)動物育種中。然而,降低全基因組SNP分型成本、提高基因組育種值(genomic estimated breeding value,GEBV)估計準確性仍然是GS研究的主要難題。本文從全基因組SNP分型策略和GEBV估計模型兩個方面進行了綜述,并對目前GS技術(shù)在主要畜禽品種中的應(yīng)用現(xiàn)狀進行了介紹, 以期為GS在農(nóng)業(yè)動物育種中的深入開展提供借鑒和參考。
3, 基因組選擇的優(yōu)勢由于GEBV計算可以不依賴系譜記錄和表型信息,這就為早期選擇提供了可能,可以大幅度縮短世代間隔,提高遺傳進展,降低農(nóng)業(yè)動物的育種成本[5,6]。此外,對于傳統(tǒng)育種受限的性狀,如低遺傳力的性狀和難以測量的性狀,GS也更加具有優(yōu)勢。
4, 基因組選擇的流程GS一般包括以下步驟(圖1):首先建立參考群體(reference population),參考群體中每個個體都有已知的表型和基因型,通過合適的統(tǒng)計模型可以估計出每個SNP或不同染色體片段的效應(yīng)值;然后對候選群體(candidate population)每個個體進行基因分型,利用參考群體中估計得到的SNP效應(yīng)值來計算候選群體中每個個體的GEBV;最后,根據(jù)GEBV排名對個體進行選留,待選留個體(selected candidates)完成性能測定后,這些個體又可以被放入?yún)⒖既后w,用于重新估計SNP的效應(yīng)值,如此反復(fù)。
5, 為什么減低成本這么重要隨著商業(yè)化高密度SNP芯片的普及和二代測序價格的下降,GS越來越多被應(yīng)用于除奶牛以外其他農(nóng)業(yè)動植物的育種實踐中,如豬(Sus scrofa)[7,8]、雞(Gallus gallus)[9,10]、水產(chǎn)動物[11,12]、水稻(Oryza sativa)[13]、玉米(Zea mays)[14]等。盡管如此,基因分型成本仍然是GS技術(shù)推廣和應(yīng)用的重大障礙,大多數(shù)育種企業(yè)限于長久的基因分型成本投入而不敢大規(guī)模應(yīng)用。多數(shù)已開展GS研究的研究院所或企業(yè)也囿于基因分型方面的投入,不得不通過縮小參考群體規(guī)?;蚪档蜆擞浢芏葋斫档统杀尽]^小的參考群或較低的標記密度一定程度上影響了GEBV的準確性,從而低估了GS技術(shù)在動物育種中的潛力,反而阻礙了這一技術(shù)的推廣和應(yīng)用。因此,降低個體分型費用一直是GS的研究熱點之一。
6, 未來GS的發(fā)展隨著基因分型個體數(shù)極大累積或標記密度極大提高,傳統(tǒng)基于單點SNP信息的統(tǒng)計模型無法利用所有個體表型數(shù)據(jù)或所有標記位點信息,此時基于單倍型的GEBV預(yù)測模型可以解決這一問題。通過將已知功能的基因組學(xué)信息,包括基因結(jié)構(gòu)、甲基化區(qū)域、轉(zhuǎn)錄因子調(diào)控結(jié)合位點、選擇信號候選區(qū)域等信息,以單倍型信息整合進GEBV預(yù)測模型,從而提高GEBV的準確性.
7, 常見的基因芯片高通量時代的SNP分型技術(shù)以高密度SNP芯片為代表,Illumina公司Infinium技術(shù)和Affymetrix公司Axiom技術(shù)是目前最流行的高密度SNP芯片解決方案。 Illumina芯片 ffymetrix 芯片
8, 其它幾種獲得基因組SNP信息的方法簡化基因組 特點:
基因組重測序 特點:
9, 基于單倍型的GS策略基于基因組重測序的GS還有另外一個策略(圖4),即首先對群體中遺傳貢獻較大的個體進行10~30×的中高覆蓋度的重測序,結(jié)合單倍型估計技術(shù)構(gòu)建群體主要的單倍型庫;對于大多數(shù)個體采用高密度SNP芯片或簡化基因組測序技術(shù)進行分型,通過基因型填充獲得全基因組的遺傳變異,從而用于GEBV的預(yù)測。 10, 芯片, GBS和二代測序的論述高密度SNP芯片和簡化基因組測序具有各自的優(yōu)勢。隨著測序價格的繼續(xù)下降,以及生物信息學(xué)分析的流程化,基于二代測序技術(shù)的全基因組重測序進行SNP的鑒定和分型會越來越普及,特別是對于一些沒有標準化芯片的非模式物種。當然,也可以選擇20~30個代表性的個體進行重測序,獲得這個群體具有一定代表性的SNP數(shù)據(jù)集,利用這些數(shù)據(jù)設(shè)計芯片,從而進行“廉價”的大規(guī)?;蚍中汀5?遇到無標準化芯片的物種,測序無疑是最佳選擇。即使對于一些有標準化芯片的模式生物,全基因組重測序也常常是更好的選擇。在商業(yè)化SNP芯片密度不夠的情況下,簡化基因組測序是很好的替代方法,因為即使只對基因組的很小一部分進行測序,就可以輕松獲得幾十萬的SNP標記。在地方豬種中,高密度SNP芯片也有其局限性。以藏豬為例,PorcineSNP60芯片效果不理想,因為芯片上的SNP位點都是從常見的品種中篩選出來的,這些位點在藏豬這樣的特殊亞種中多態(tài)性比較差。因此,簡化基因組測序或全基因組重測序的效果會優(yōu)于芯片??傊?在具體研究中,應(yīng)該根據(jù)具體情況來選擇全基因組SNP分型方案。隨著測序價格的不斷降低,測序的確會不斷侵蝕芯片的市場空間,成為一種趨勢。
11, 貝葉斯和GBLUP方法介紹貝葉斯 Meuwissen等[1]首次提出GS理論時,提供了兩種貝葉斯(Bayesian, Bayes)方法用以解決SNP標記數(shù)目通常遠遠多于表型記錄的問題,即BayesA和BayesB。BayesA假設(shè)所有SNP 位點都有效應(yīng),且所有SNP效應(yīng)的方差服從尺度逆卡方分布的正態(tài)分布,其中的兩個參數(shù)——自由度和尺度參數(shù)與遺傳結(jié)構(gòu)直接相關(guān),能夠確定遺傳結(jié)構(gòu),而這兩個參數(shù)都是事先給定的。BayesA使用MCMC(馬爾科夫鏈蒙特卡洛方法)方法構(gòu)建Gibbs抽樣鏈,在模型中對標記效應(yīng)進行求解。BayesB與BayesA的區(qū)別在于對SNP效應(yīng)的先驗假設(shè)不同。BayesA假設(shè)所有SNP 都有效應(yīng),而BayesB假設(shè)只有一小部分標記位點有效應(yīng),其他大部分染色體片段效應(yīng)為0 (無效應(yīng)位點的比例為π);這一小部分有效應(yīng)的位點,其效應(yīng)方差服從的分布與BayesA一樣。BayesB中有效應(yīng)位點的比例(1-π)在模型中是預(yù)先設(shè)定的,通常為0.05左右。與BayesA不同,BayesB 使用混合分布作為標記效應(yīng)方差的先驗,所以難以構(gòu)建標記效應(yīng)和方差各自的完全條件后驗分布,因此BayesB使用MH (Metropolis-Hasting)抽樣對標記效應(yīng)和方差進行聯(lián)合抽樣。 在Meuwissen 提出的兩種貝葉斯模型基礎(chǔ)之上,研究人員又提出了多種GEBV估計的Bayes模型。BayesC 模型[34]使用混合分布作為標記效應(yīng)的先驗分布,但在BayesC模型中,π是未知的,需要在模型中求解得到,其他與BayesB相同。Habier等[34]還提出了BayesCπ、BayesDπ方法:BayesCπ 與BayesC的主要區(qū)別在于BayesCπ假設(shè)有效應(yīng)的SNP的效應(yīng)方差相同,而BayesC假設(shè)其效應(yīng)方差是不同的。BayesC和BayesCπ相比于BayesA和BayesB的最大改進之處在于對模型中無效應(yīng)SNP位點的比例π進行估計[16,35]。BayesDπ[34]在模型中假設(shè)π值服從U[0,1]的均勻分布,同時也要對尺度參數(shù)進行求解,其假設(shè)尺度參數(shù)的先驗分布為Gamma(1,1)分布,其后驗分布也是Gamma分布,可以直接從后驗分布中抽樣。Bayes LASSO (Least Absolute Shrinkage and Selection Operator)[36,37,38,39,40]假定SNP標記效應(yīng)服從Laplace分布,而Lpalace分布等價于方差服從指數(shù)分布的正態(tài)分布。Laplace分布與BayesA假定的SNP標記效應(yīng)Student’s t分布具有相同的特點:具有比正態(tài)分布更重的兩尾概率。在高維數(shù)據(jù)線性回歸中常用到的方法除了LASSO,還有EN (Elastic net)[41],這兩種方法都是在懲罰函數(shù)中增加約束項,同時實現(xiàn)變量選擇與參數(shù)估計,可以將很多變量效應(yīng)壓縮至(接近)0。Bayes LASSO在GS算法應(yīng)用中的一種拓展策略是使用廣義正態(tài)分布作為標記效應(yīng)先驗。Bayes LASSO的思想和BayesA一樣,不同之處在于它假設(shè)標記效應(yīng)服從另一種分布-拉普拉斯分布,所以標記效應(yīng)的后驗分布也隨之改變。 其他的貝葉斯方法,如Bayes SSVS[42]、fBayesB[43]、wBSR[44]、BAL/IAL[45]、emBayesR[46]、EBL[47]、BayesRS[48]和Bayes TA[49]等,都是在前人研究基礎(chǔ)之上對模型中的先驗假設(shè)進行變換和模型中的參數(shù)進行優(yōu)化,以期尋找最適合群體的假設(shè)模型和參數(shù)。目前廣泛應(yīng)用的貝葉斯算法仍是BayesA、BayesB、BayesCπ和Bayes LASSO,這是由于它們計算的結(jié)果穩(wěn)定,具有較高的GEBV估計準確性??傊?在經(jīng)典貝葉斯方法基礎(chǔ)上,貝葉斯方法的改進算法及其參數(shù)優(yōu)化策略圍繞著以提高GEBV估計的準確性為目的,通過生物遺傳算法與實際的群體情況相結(jié)合,尋找最適的模型假設(shè)和參數(shù)優(yōu)化方法,使得GEBV更具有育種價值。
GBLUP方法 GEBV的方法是通過構(gòu)建基因組關(guān)系矩陣(G矩陣)替換基于系譜信息構(gòu)建的分子血緣關(guān)系矩陣(numerator relationship matrix, NRM或A矩陣),進而使用最佳線性無偏預(yù)測(best linear unbiased prediction, BLUP)方法直接估計GEBV,即GBLUP法。VanRaden[16]提出了G矩陣的構(gòu)建方法,將SNP基因型進行編碼,純合基因型分別編碼為1和-1,雜合基因型為0,假設(shè)pi為位點i的第二個等位基因的頻率,則每個基因型編碼后的值減去相應(yīng)的處于哈代-溫伯格平衡(Hardy-Weinberg equilibrium, HWE)時的均值2×(pi-0.5),得到Z矩陣,按照公式 (1-1)即可計算得到G矩陣: 與貝葉斯方法相比,GBLUP不需要先利用參考群體估計SNP標記效應(yīng),再計算GEBV;而是可以直接將有表型及無表型個體可以放在同一個模型中,同時估計出有表型和無表型個體的GEBV及其準確性[50]。從計算速度來講,GBLUP比Bayes方法快很多,因此更加適用于現(xiàn)場應(yīng)用時快速獲得GEBV[51]。Azevedo等[52]比較了GBLUP與幾種改進的Bayes LASSO之間的準確性,通過對多種不同遺傳力、不同遺傳基礎(chǔ)性狀的GEBV估計,認為GBLUP總體上表現(xiàn)最好,其次是BayesA或BayesB。
一步法GBLUP (single-step GBLUP, ssGBLUP)模型是傳統(tǒng)基于系譜信息的BLUP法和基于SNP標記信息的GBLUP法的合并,它的模型形式上與BLUP及GBLUP法并無區(qū)別。如公式(1-2)中,ssGBLUP是用H矩陣替代GBLUP中的G矩陣,從而將沒有基因型的個體與有基因型的個體放在同一個模型中進行EBV或GEBV的估計,H矩陣結(jié)構(gòu)如公式(1-3):
12, GS在牛育種中的應(yīng)用區(qū)域化的奶牛GS育種體系使得參考群體規(guī)模迅速擴大,GS選擇準確性逐漸提高,大大促進了GS技術(shù)在奶牛育種中的普及。除了常規(guī)的產(chǎn)奶量和乳脂率等性狀,奶牛GS研究也開始關(guān)注一些常被忽視但非常有應(yīng)用潛力的性狀,如肢蹄健康、飼料轉(zhuǎn)化率和甲烷排放量等[63]。我國于2008年開始啟動奶牛GS研究,2012年正式將GS技術(shù)應(yīng)用于荷斯坦奶牛的遺傳評估中,評估的性狀共14個,包括產(chǎn)奶量、體細胞計數(shù)、體型評分等,其中產(chǎn)奶性狀基因組預(yù)測準確性為0.59~ 0.76,比傳統(tǒng)BLUP方法提高了0.13~0.30。
13, GS在豬育種中的應(yīng)用與奶牛不同,在豬的育種體系中,GS應(yīng)用的前提是提高GEBV估計的準確性[58],這是因為在傳統(tǒng)育種體系中,豬的世代間隔已經(jīng)控制在較短的時間,很難再對其進行大幅縮減。因此,豬的GS應(yīng)用主要是靠提高GEBV的準確性來獲得額外的遺傳進展,特別是對傳統(tǒng)育種中選擇準確性低的性狀,如繁殖性狀、屠宰性狀、肉質(zhì)性狀、抗病性狀等,GS具有更大的優(yōu)勢。
14, GS在雞育種中的應(yīng)用從個體角度,GS在雞育種中很難普及,因為其個體價值遠小于基因分型成本。但是,如果從整個育種體系的角度來看,為了培育特定目標群體進行配套系生產(chǎn)的話,GS在雞的應(yīng)用還是有一定的潛力的。Long等[69]利用5000個與后代死亡率相關(guān)的SNP標記對肉雞0-14天齡的死亡率進行預(yù)測,結(jié)果顯示當利用SNP信息的進行選擇時,其準確性與不使用SNP信息相比提高了50%~90%。隨后,陸續(xù)開展了關(guān)于飼料轉(zhuǎn)化效率、肉雞6周齡體重、胸肌面積、腿評分等性狀[70,71]及蛋雞產(chǎn)蛋量、蛋重、沙門氏菌抗性等性狀[72,73]的GS研究。美國海蘭公司對蛋雞進行GS研究,研究了包括產(chǎn)蛋量、蛋重、蛋殼質(zhì)量和性成熟等重要經(jīng)濟性狀,目標是將世代間隔縮短一半,即從12個月減為6個月,從而提高年遺傳進展;其方案是使用高密度SNP芯片測定個體基因型,并對GS群體的大小及結(jié)構(gòu)進行優(yōu)化,使選擇準確性最大化,且年近交速率不增加。
15, 展望GS作為一種新的畜禽遺傳評估方法,比傳統(tǒng)BLUP方法有明顯的優(yōu)勢。隨著基因分型成本的下降,GS技術(shù)有望在國內(nèi)大型育種公司中應(yīng)用普及。由于已有的SNP芯片在特定群體中多態(tài)性差,越來越多的研究和應(yīng)用開始使用自定制高密度SNP芯片,如豬的PorcineSNP55K芯片,在肉雞、肉牛和蛋雞等物種中也有相應(yīng)報道。隨著二代測序價格的下降,基于二代測序技術(shù)的GS優(yōu)勢日趨明顯,有望在5~10年內(nèi)替代高密度SNP芯片,成為GS應(yīng)用的主要分型手段?;诙鷾y序的GS技術(shù)主要面臨的是分型準確性和分析時效性的問題,分型準確性可以通過優(yōu)化測序方案和基因型填充策略來提高;而數(shù)據(jù)分析的時效性需要借助于自動化/智能化分析流程的建立以及基于“硬件加速”技術(shù)的軟件開發(fā)。隨著基因分型個體數(shù)極大累積或標記密度極大提高,當前常用的基于單點SNP的GEBV估計模型將具有局限性,基于單倍型信息的統(tǒng)計模型可能會成為未來的研究方向。除此之外,在統(tǒng)計模型中增加顯性效應(yīng)、上位效應(yīng)和印記效應(yīng)的應(yīng)用會越來越多[74]。最后,借助目前智能化農(nóng)牧設(shè)備開發(fā)的熱潮,應(yīng)該盡快將GS應(yīng)用從“育種場→實驗室→育種場”的所需樣品收集、表型測定、數(shù)據(jù)分析、個體選留等流程整合進入常規(guī)育種生產(chǎn)中,加快GS在動物育種中的應(yīng)用。
參考文獻談成, 邊成, 楊達, et al. 基因組選擇技術(shù)在農(nóng)業(yè)動物育種中的應(yīng)用[J]. 遺傳, 2017(11):82-94. |
|
來自: 育種數(shù)據(jù)分析 > 《待分類》