生信小白學(xué)習(xí)系列：如何進(jìn)行基因組組裝？(1)

yjt2004us 2019-05-15

展開全文

隨著測序的發(fā)展，越來越多的生物體被進(jìn)行基因組進(jìn)行測序，這些測序的reads，再被用于組裝或者其它相關(guān)的研究?；蚪M序列組裝是一個(gè)研究的起點(diǎn)，如果你研究的物種沒有參考基因序列，就無從找到該生物有的基因，進(jìn)行基因的功能分析，然后開展下游的群體遺傳，結(jié)構(gòu)差異等等一系列非常有趣的研究。所以說組裝好參考基因組是基因組研究的最基礎(chǔ)的事情之一。接下來，希望通過網(wǎng)上一些教程，和大家熟悉了解一下如何進(jìn)行基因組組裝。

首先先讓我們從大的picture來回顧一下，基因組組裝的相關(guān)知識。

基因組組裝的目的與其成功的決定因素

目的：

獲得該生物體完整的基因組序列
注釋蛋白質(zhì)編碼序列（注釋（結(jié)構(gòu)注釋和功能）非常重要，了解知道蛋白質(zhì)的功能是解決生物學(xué)問題的基礎(chǔ)）

組裝成功的決定因素：

被測序物種的基因特性（下個(gè)小節(jié)會講）
測序的樣品質(zhì)量
測序技術(shù)的限制（短序列：短，組裝碎片化；長序列：費(fèi)用較高，錯(cuò)誤率高）
使用的組裝軟件的合適性

組裝中會遇到的“硬問題”

一般來說生物體的基因組越簡單越好組裝，像細(xì)菌真菌都比較好組裝。那么影響組裝的硬問題有哪些呢？

多態(tài)性

二倍體，甚至多倍體（物種的基因結(jié)構(gòu)復(fù)雜，染色體有多個(gè)拷貝，基因組重復(fù)）
生物體雜合性高
有些物種非常小，你需要收集多個(gè)個(gè)體才能取得足夠的DNA去測序去組裝出基因組。

重復(fù)序列

重復(fù)序列往往會“迷惑”組裝的工具

具體例子如下圖：

假如reads S和T 在橙色的片段都具有一長串A的堿基，那么組裝工具將會很難識別，糾結(jié)這兩個(gè)片段是擁有兩個(gè)相同copy的重復(fù)序列，還是他們本來就是overlap的可以連接起來。這樣會造成組裝的錯(cuò)誤。

這里也順帶簡單介紹一下常見的重復(fù)序列：

SINEs （ Short interspersed nuclear elements）

一般長度為500bp左右，人類的基因組大概還有1.5Mbp的這種短的重復(fù)片段。

LINEs （long interspersed nuclear elements）

一般長度為1Kbp左右，人類的基因組大概還有1.5Mbp的這種短的重復(fù)片段。

大片的重復(fù)

可以長至40Kbp或者更多

測序的質(zhì)量

不同的測序技術(shù)有不同的優(yōu)缺點(diǎn)
測序的深度（有些regions沒有被很好覆蓋到）
測序時(shí)候含有的污染（人的，細(xì)菌，真菌病毒等）都會影響組裝。據(jù)統(tǒng)計(jì)，10％的已經(jīng)在文獻(xiàn)中發(fā)表的基因組，都還含有污染。

水平的專業(yè)性

需要知道如何安裝組裝的工具，了解組裝工具的工具原理，并且調(diào)試組裝的相關(guān)參數(shù)讓你組裝結(jié)果得到最優(yōu)化，還有選擇合適的組裝工具，都需要一定的專業(yè)水平。

主要的組裝算法

重疊序列相連

簡單來說這種算法就是將所有的reads拿出來，相互比對，找到重疊的reads，然后構(gòu)建長的連續(xù)的contigs，最后再將contigs組在一起形成scaffolds。這個(gè)過程可以基于下圖來進(jìn)行總結(jié)：

De Bruijn 圖或者 k-mer 方法

主要的步驟包括：

將reads切成長度不同的片段（這里叫k-mers）
基于這些k-mers的組合，構(gòu)建De Bruijn 圖
構(gòu)建序列基于重疊的k-mers
基于已經(jīng)構(gòu)建的序列片段，選擇合適的片段，構(gòu)建整個(gè)基因組的序列。

大概的過程如下圖：

我該選用哪個(gè)組裝的工具？

目前已經(jīng)開發(fā)了很多不同的組裝工具，根據(jù)你的物種或者測序技術(shù)，可以相應(yīng)的選擇不同的工具，一般來說我們可以這樣選擇：

如果你組裝的是原核生物基因組，那么可以使用SPAdes，通常該工具比較適合小的基因組。
如果你組裝的是真核生物基因組：

只使用短序列的reads進(jìn)行組裝：推薦使用MaSuRCA
只使用長序列的reads進(jìn)行組裝：推薦使用Canu或者Falcon
混合使用短序列和長序列的reads：推薦使用MaSuRCA
雜合度高的物種推薦使用Platanus

上面只是簡單通用的推薦，當(dāng)然如果你是專家，你可能還會使用一些更加個(gè)性化的工具方法。

這期介紹就到這里了，希望大家有所收獲，組裝并沒有我們想像中那么難，后面會繼續(xù)給大家?guī)斫M裝的實(shí)戰(zhàn)還有評估等等的教程，敬請大家關(guān)注點(diǎn)贊。

參考資料：

1.https://isugenomics./bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html2.https://environmentalmicrobiome./articles/10.1186/1944-3277-10-18

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： yjt2004us > 《生信》

舉報(bào)/認(rèn)領(lǐng)