基因組注釋與功能基因挖掘那些事

生物_醫(yī)藥_科研 2019-01-30

展開全文

文獻解讀

近日，美吉生物合作客戶，南開大學的王威老師課題組在影響因子5.8的雜志Bioresource Technology上發(fā)表了一篇名為“Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions”的文章[1]。

思路解讀

研究人員從華北某深層油田中分離到一株可以降解有機硫以及硝基烷烴的嗜熱菌Geobacillus thermoglucosidasius，該菌可以在好氧及厭氧條件下高效降解環(huán)境污染物——硝基烷烴類化合物。接著，通過基因組測序及注釋，找到了3個候選的硝基烷烴氧化酶基因。最后，將這3個基因分別克隆到大腸桿菌BL21進行蛋白表達純化，發(fā)現(xiàn)這3種酶都具有很強的溫度、pH、壓力適應性，且其中一個酶Gt2929能夠非常高效地降解多種硝基烷烴類化合物，具有非常大的工業(yè)及環(huán)境治理的應用潛力。

思路延伸

在這個過程中，一個很重要的節(jié)點是找到表型對應的功能基因。如何找到功能基因，也是許多功能基因組學研究者們都非常關心的話題。接下來我們就來探討一下與尋找功能基因相關的概念和方法。

基因組注釋

尋找功能基因，首先要做基因組注釋。所謂基因組注釋，就是利用生物信息學方法，對基因組中所有基因的生物學功能進行高通量注釋?；蚪M注釋的核心內容分為基因預測以及功能注釋兩部分。

1. 基因預測

在原核生物中，目前最常用的是基因預測方法是ab initio預測，即不借助參考基因組，完全根據(jù)統(tǒng)計軟件及算法對核酸序列上的起始密碼子及終止密碼子進行識別，最后獲得基因預測結果。

圖2. 基因預測原理示意圖

2. 功能注釋

完成基因預測后，所有被預測出來的ORF（Open reading frame）會被翻譯成氨基酸序列，用于接下來的功能注釋。注釋的基本原理是將氨基酸序列與各種數(shù)據(jù)庫進行序列比對，通過數(shù)據(jù)庫中被比對上的基因所記錄的基因功能，賦予新基因以功能注釋。有的數(shù)據(jù)庫為了避免注釋信息過于雜亂，會人工整理一些特定的類別。

比如KEGG數(shù)據(jù)庫中的KEGG ORTHOLOGY （KO）數(shù)據(jù)庫，每一類KO都包含了KEGG GENE數(shù)據(jù)庫中所有功能近似的同源基因。通過KEGG進行基因注釋時，系統(tǒng)不會直接賦予被比對上基因的具體信息，而是賦予該基因對應的KO ID以及相應的KO功能描述（圖3）。

圖3. 兩種常見的基因功能注釋原理示意圖

目前，比較常用的細菌基因組注釋流程包括NCBI原核基因組注釋流程，RAST[5]，KEGG注釋流程[6]等，而有一定生信基礎的研究者也會使用本地的數(shù)據(jù)庫進行基因組注釋。

尋找功能基因

完成基因組注釋后，接下來就是尋找功能基因了。這一步我們有多個線下數(shù)據(jù)庫資源可以使用。這里我們以本公司的細菌基因組云平臺注釋結果為例，演示一下如何從Geobacillus thermoglucosidasius基因組（GCF_001655645.1）注釋結果中尋找硝基烷烴氧化酶。

1. KEGG通路搜索

KEGG的基因組注釋比較直觀，因為它的注釋結果最終可以在代謝通路圖上直接呈現(xiàn)出來（圖6）。

圖4. KEGG基因組注釋通路示意圖。其中每一個藍色背景的框代表數(shù)據(jù)庫中的一類或幾類基因，紅色外框表示基因組中有注釋到相應功能的基因。

我們再以硝基烷烴氧化酶作為例子：

首先，KEGG數(shù)據(jù)庫中有上百個通路圖，基因組注釋結果會分布在其中大部分通路圖上。如果不清楚要找的特定功能基因屬于哪個代謝通路，可以先通過搜索相關化合物鎖定通路圖（圖7）。如圖所示，通過搜索化合物“nitroalkane”，可以鎖定到氮代謝通路“Nitrogen metabolism”。

圖5. 通過化合物名稱鎖定代謝通路示意圖

鎖定通路后，打開該通路對應的基因組注釋結果，得到以下結果（圖8）。

圖6. 基因組KEGG通路注釋示意圖——氮代謝通路圖

如上文所述，外圈帶紅框的基因表示基因組中存在被注釋到相應位置的基因。在硝基烷烴（箭頭所指位置）氧化成亞硝酸鹽（Nitrite）這步反應中，基因組中有基因編碼EC number為1.13.12.16的酶，而該基因對應的KO ID是K00459。通過KO ID編號，就可以在基因組注釋表中直接找到對應的基因了（圖9）。

圖7. i-sanger平臺基于KO ID查詢示意圖

2. 序列比對查找

除了用全基因組與數(shù)據(jù)庫進行批量比對的方法外，使用已知功能的基因序列與測序的基因組進行比對，也能夠幫助我們找出基因組中相應功能的基因。

例如在NCBI上找到一個2-nitropropane dioxygenase蛋白序列（WP_008880084.1），用它對案例基因組的全氨基酸序列（W_2_CDS）進行BLAST+比對：

makeblastdb -in W_2_CDS -dbtype prot -out W_2;

blastp -db W_2 -query WP_008880084.1 -out example;

可以獲得如下結果（圖10）：

圖8. 使用序列比對工具尋找功能基因結果示意圖

通過使用已知的硝基丙烷氧化酶對基因組進行序列比對，得到相似度最高的3個基因，也正是開頭文獻中所報道的那3個基因。

除此之外，為方便大家操作，i-sanger細菌基因組云平臺（www.i-sanger.com）整合了NCBI NR（Non-redundant protein），Swiss-prot，KEGG，COG，Pfam，GO等多個線下數(shù)據(jù)庫資源，有需求的科研汪可以直接在云平臺上一鍵注釋到多個數(shù)據(jù)庫。

綜上，本文介紹了幾種針對基因組測序后尋找特定功能基因的常用方法及數(shù)據(jù)庫，希望能對讀者們有所幫助，能夠挖掘更多有用的基因，多發(fā)高水平論文~

參考文獻

[1] L. Sun, D. Huang, L. Zhu, et al., Novel thermostable enzymes from Geobacillus thermoglucosidasius W-2 for high-efficient nitroalkane removal under aerobic and anaerobic conditions. Bioresource Technology, 2019, 278:73-81

[2] A.L. Delcher, K.A. Bratke, E.C. Powers, and S.L. Salzberg, Identifying bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007, 23(6):673-679.

[3] J. Besemer, A. Lomsadze and M. Borodovsky, GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions. Nucleic Acids Research, 2001, 29:2607-2618

[4] D. Hyatt, G.L. Chen , P.F. Locascio , et al, Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics, 2010, 11(1):119.

[5] R. Overbeek , R. Olson , G.D. Pusch , et al., The SEED and the Rapid Annotation of microbial genomes using Subsystems Technology (RAST). Nucleic Acids Research, 2014, 42(1):206-214.

[6] M. Kanehisa, Y. Sato , K. Morishima, BlastKOALA and GhostKOALA: KEGG Tools for Functional Characterization of Genome and Metagenome Sequences. Journal of Molecular Biology, 2016, 428(4):726-731.

美吉生物