為什么要搞全基因組測序（一）

微笑如酒 2019-01-31

展開全文

今天是生信星球陪你的第249天

大神一句話，菜鳥跑半年。我不是大神，但我可以縮短你走彎路的半年~

就像歌兒唱的那樣，如果你不知道該往哪兒走，就留在這學(xué)點生信好不好~

這里有豆豆和花花的學(xué)習(xí)歷程，從新手到進(jìn)階，生信路上有你有我！

豆豆寫于19.1.14
隨著測序技術(shù)的不斷升級優(yōu)化，讀長越來越長，某些基因組比較小的細(xì)菌可以實現(xiàn)從頭測到尾，那么為什么我們要獲得全基因組信息？它能為我們提供什么幫助呢？
今天先來了解了解基因預(yù)測的事情

認(rèn)知的進(jìn)化

首先對于生物這個詞匯，我們的認(rèn)知水平是在不斷刷新的，從開始的生態(tài)學(xué)角度了解生物的形態(tài)結(jié)構(gòu)、種群群落組成到生物的生理生化過程研究（例如物質(zhì)代謝、能量流動），有了基因組后，我們就可以從基因組層面上對基因功能進(jìn)行注釋，然后比較不同生物的基因組差異，看看哪些生物的基因組特征值得被研究?？偠灾?，我們想搞明白我們從哪里來，能到哪里去。

基因組層面能分析些啥

這么高大上的詞匯背后肯定有大量的分析要點，否則不用這么費(fèi)時費(fèi)力去取樣、測序。另外，不管使用什么測序手段（Illumina、PacBio、IonTorrent等），最后得到的結(jié)果用處都差不多，大體上分為：結(jié)構(gòu)基因組學(xué)、功能基因組學(xué)、比較基因組學(xué)（來自百度百科），感覺這么說還是不太明白。

想想我們做基因組不還是為了更好地去了解這個物種嗎？

那么首先，要對這個物種本身達(dá)成一定的認(rèn)知，比如基因組上哪些位置是基因？基因的功能都是哪些？與該物種表現(xiàn)出來的特有的功能相關(guān)的基因是哪些？另外除了編碼區(qū)域，還有哪些區(qū)域是非編碼RNA？哪些是重復(fù)序列？哪些編碼比較特殊的基因元件？
除了分析自身，還可以與其他物種比較 ，發(fā)現(xiàn)它們之間的差別（包括單堿基水平變化：轉(zhuǎn)換、顛換、插入、缺失；染色體水平變化：倒位、易位、插入、缺失），找到親緣關(guān)系遠(yuǎn)近
找到基因組上的差異后，可以再和表型信息進(jìn)行關(guān)聯(lián)分析

舉個例子：人貴在有自知之明，那么我們?nèi)绾巫龅阶灾兀?br>首先最了解自己的人就是本體啦（包括自己適合做什么，有什么興趣愛好，對什么領(lǐng)域感興趣）=》物種本身認(rèn)知，然后自己可以再和其他人比較（看看哪些地方做的還有所欠缺，哪些地方值得發(fā)揚(yáng)）=》其他物種比較。明白差異后，我們可以有的放矢，去尋找和自己愛好相關(guān)的工作=》差異與表型關(guān)聯(lián)

基因預(yù)測

一般有兩種方法：

和已知近緣物種基因集進(jìn)行同源序列比對，篩選出同源比對區(qū)域，作為基因（就是利用已知的信息去預(yù)測未知）
從頭預(yù)測：利用軟件對物種的基因組直接進(jìn)行預(yù)測（如果分析的序列有明顯的特征，如：基因的編碼區(qū)CDS與開放閱讀框ORF、核糖體RNA的保守域、轉(zhuǎn)運(yùn)RNA的倒三葉草結(jié)構(gòu)，就可以用軟件識別結(jié)構(gòu)并預(yù)測）

兩種方法比較

從頭預(yù)測：不需要同源參考基因序列，直接可以進(jìn)行預(yù)測，適用于新發(fā)現(xiàn)的物種（因為沒有足夠的已知信息，因此需要先構(gòu)建訓(xùn)練集【訓(xùn)練集：軟件先對基因組的特征做一個調(diào)查了解】）

序列比對：找的基因是已知發(fā)表過的，結(jié)果更加準(zhǔn)確，但是畢竟是近緣物種，不可能序列區(qū)域一致，因此可能同源區(qū)不含有某個基因或者有一段非同源區(qū)域恰好含有特征基因，這樣就會漏掉一些

開放閱讀框（Open reading frame，ORF）

從5'端開始翻譯的其實密碼子（ATG）到終止密碼子（TTA、TAG、TGA）的蛋白編碼序列。預(yù)測之前我們是不知道DNA雙鏈中的哪一條鏈?zhǔn)蔷幋a鏈，也不清楚準(zhǔn)確的翻譯起始位置，但是知道的是：正負(fù)兩條鏈每條都有三種可能的ORF，兩條鏈共6種。于是我們就是利用這6種可能的ORF找到一個正確的，然后根據(jù)這個ORF得到氨基酸序列，最后預(yù)測出來蛋白產(chǎn)物

補(bǔ)充：不是所有的ORF都叫CDS
CDS，是編碼一段蛋白產(chǎn)物的序列；ORF是理論上的氨基酸編碼區(qū)；CDS一定屬于ORF，當(dāng)然可能包括許多個ORF，但是每個ORF不一定都是CDS。
ORF的識別是證明一個新的DNA序列為特定的蛋白質(zhì)編碼基因的部分或全部的先決條件。
http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-軟件

基于HMM（隱馬可夫模型）glimmer3：https://ccb./software/glimmer/

Prodical：https://github.com/hyattpd/Prodigal

GeneMark：http://exon./GeneMark/

相對簡單，用自身的基因組作訓(xùn)練集即可

根據(jù)不同的物種，選擇適合的密碼子表
https://www.ncbi.nlm./Taxonomy/Utils/wprintgc.cgi

真核生物-軟件

復(fù)雜的地方在于：ORF不僅包含編碼蛋白的外顯子（exon）還有內(nèi)含子（intron），內(nèi)含子將ORF分割成許多個小片段，導(dǎo)致ORF的長度變化范圍很大。但是， 真核生物的外顯子與內(nèi)含子連接基本滿足GT-AG規(guī)律（即：內(nèi)含子序列的5’端起始的兩個核苷酸總是GT，3‘端最后的兩個核苷酸總是AG，5'-GT...AG-3' ）

利用Augustus（http://augustus./）包括人、大型哺乳動物、植物、鳥類、真菌基因組等

訓(xùn)練集：http://augustus./datasets/

除了基因預(yù)測，還可以用于從頭預(yù)測，加入cDNA和EST序列，輔助提高預(yù)測準(zhǔn)確度