摘要:生物信息學(xué)是一門新興的邊緣學(xué)科,基因組合蛋白質(zhì)組研究與生物信息學(xué)技術(shù)互相推動(dòng),并行發(fā)展,而生物信息學(xué)在蛋白質(zhì)研究中將發(fā)揮特殊作用。本文就生物信息學(xué)技術(shù)在蛋白質(zhì)數(shù)據(jù)庫以及蛋白質(zhì)結(jié)構(gòu)分析與功能預(yù)測(cè)中的應(yīng)用做一綜述。 關(guān)鍵詞:生物信息學(xué) 蛋白質(zhì)組 數(shù)據(jù)庫 結(jié)構(gòu)分析功能預(yù)測(cè) 1 20 世紀(jì)80年代,隨著基因組學(xué)和蛋白質(zhì)組學(xué)的發(fā)展,數(shù)據(jù)量迅速增加,生物信息學(xué)(bioinformatics) 就應(yīng)運(yùn)而生。它研究的重點(diǎn)內(nèi)容為基因組(Genomics) 和蛋白質(zhì)組學(xué)(Proteomics)。其在基因組學(xué)中的應(yīng)用已經(jīng)相當(dāng)成熟,各種數(shù)據(jù)庫已經(jīng)被人們廣泛的使用。而今,隨著功能基因組學(xué)的信息量不斷的增加,生物信息學(xué)在蛋白質(zhì)組學(xué)中的應(yīng)用也顯得越來越重要。[1] [2] 2 2.1 蛋白質(zhì)組學(xué)的產(chǎn)生及其重要意義 在20世紀(jì)中后期,隨著DNA雙螺旋結(jié)構(gòu)的提出和蛋白質(zhì)空間結(jié)構(gòu)的解析,生生命科學(xué)的研究進(jìn)入了分子生物學(xué)時(shí)代,而遺傳信息載體DNA和生命功能的體現(xiàn)者蛋白質(zhì)的研究,成為了其主要內(nèi)容。90年代初期啟動(dòng)的龐大的人類基因組計(jì)劃,已經(jīng)取得巨大的成就,人類基因組序列草圖繪制完成后,生命科學(xué)研究跨入了后基因組時(shí)代。然而,人們清醒地識(shí)到基因僅是遺傳信息的載體,而生命活動(dòng)的執(zhí)行者是基因的表達(dá)產(chǎn)物—蛋白質(zhì),它是生命現(xiàn)象復(fù)雜性和多變性的直接體現(xiàn)者?!蹲匀弧泛汀犊茖W(xué)》雜志在2001年2月公布人類基因組草圖的同時(shí),分別發(fā)表了“And now for the proteome”和“Proteomics in genomeland”的評(píng)述和展望,將蛋白質(zhì)組學(xué)的地位提到前所未有的高度,認(rèn)為蛋白質(zhì)組學(xué)將成為新世紀(jì)最大戰(zhàn)略資源—人類基因爭(zhēng)奪戰(zhàn)的戰(zhàn)略制高點(diǎn)之一,從此蛋白質(zhì)組學(xué)的研究受到了廣泛的關(guān)注。 蛋白質(zhì)組一詞是澳大利亞學(xué)者馬克威爾金斯在1994年最先提出來的,它是指基因組表達(dá)的所有相應(yīng)的蛋白質(zhì),也可以說是指細(xì)胞或組織或機(jī)體全部蛋白質(zhì)的存在及其活動(dòng)方式。蛋白質(zhì)組學(xué)是從整體的蛋白質(zhì)水平上,在一個(gè)更加深入、更加貼近生命本質(zhì)的層次上去探討和發(fā)現(xiàn)生命活動(dòng)的規(guī)律和重要生理、病理現(xiàn)象的本質(zhì)等。蛋白質(zhì)組學(xué)的研究對(duì)揭示生命活動(dòng)規(guī)律,探討重大疾病機(jī)制,疾病診斷和防治、新藥的開發(fā)提供重要的理論基礎(chǔ)。[3] 2.2 生物信息學(xué)在蛋白質(zhì)組學(xué)中的蛋白質(zhì)數(shù)據(jù)庫的應(yīng)用[5] 2.2.1 蛋白質(zhì)組數(shù)據(jù)庫 2.2.1.1基于雙向電泳圖譜的數(shù)據(jù)庫 雙向電泳技術(shù)是蛋白質(zhì)組學(xué)研究中最重要的實(shí)驗(yàn)技術(shù)之一,所以基于雙向電泳圖片的數(shù)據(jù)庫也成了蛋白質(zhì)組學(xué)研究中主要內(nèi)容。這些數(shù)據(jù)庫有以下幾個(gè)特點(diǎn): ( 1)據(jù)直觀。以蛋白質(zhì)雙向電泳圖片為索引,將圖片放在互聯(lián)網(wǎng)上,每一個(gè)蛋白點(diǎn)的信息(等電點(diǎn)、分子量等等) 都可以通過點(diǎn)擊圖片上相應(yīng)位置的蛋白點(diǎn)得到; (2)雙向電泳圖片為基礎(chǔ),并與其他數(shù)據(jù)(蛋白質(zhì)序列、結(jié)構(gòu)和功能等信息) 進(jìn)行整合。目前,主要有水稻蛋白質(zhì)組數(shù)據(jù)庫( The Rice ProteomeDatabase)、SWISS- 2DPAGE、大腸桿菌雙向電泳數(shù)據(jù)庫(ECO- 2DBASE)、酵母蛋白質(zhì)組數(shù)據(jù)庫(YPD)、造血干細(xì)胞蛋白質(zhì)組數(shù)據(jù)庫( HSC - 2DPAGE)、SIENA - 2DPA – GE、PHCI- 2DPAGE等等。 如水稻蛋白質(zhì)組數(shù)據(jù)庫The Rice Proteome Database ( http:// gene64.dna.affrc.go.jp/PD/) :水稻基因組測(cè)序完成之后,關(guān)于水稻蛋白質(zhì)組的數(shù)據(jù)庫也隨之建立了起來。從雙向電泳實(shí)驗(yàn)中分離鑒定出水稻組織或細(xì)胞器中的蛋白質(zhì),經(jīng)分析后獲得關(guān)于這些蛋白質(zhì)的各種信息,對(duì)這些數(shù)據(jù)進(jìn)行總結(jié)整合之后,水稻蛋白質(zhì)組學(xué)數(shù)據(jù)庫逐漸建立了起來,可供研究人員通過網(wǎng)絡(luò)方便使用。這個(gè)數(shù)據(jù)庫可以從以下四個(gè)方面為研究人員提供服務(wù):務(wù):(1)在數(shù)據(jù)庫的 2- D 參考膠上選擇相應(yīng)的蛋白點(diǎn),獲得該蛋白點(diǎn)的各種信息;(2)輸入與蛋白相關(guān)的關(guān)鍵詞(蛋白質(zhì)名字、序列號(hào))查詢蛋白相關(guān)信息; (3)根據(jù)蛋白質(zhì)的分子量和 pI值來查詢?cè)摰鞍椎南嚓P(guān)信息; (4)由蛋白質(zhì)的氨基酸序列查詢某類相似蛋白質(zhì)的信息。這個(gè)蛋白質(zhì)組數(shù)據(jù)庫與其他的數(shù)據(jù)庫相比有三點(diǎn)特殊性:(1)數(shù)據(jù)庫中的 2- D 參照膠里包含了某個(gè)組織或細(xì)胞里幾乎所有的蛋白質(zhì),每一個(gè)蛋白點(diǎn)的位置都在圖片上展示了出來,信息量大且直觀; (2)每一個(gè)蛋白點(diǎn)的信息都可以在鏈接的一個(gè)網(wǎng)頁上找到,包括分子量、等電點(diǎn)、表達(dá)水平和氨基酸序列等等; ( 3)MASCOT搜索頁會(huì)提供有關(guān)蛋白的質(zhì)譜檢測(cè)結(jié)果。 2.2.1.2 基于蛋白質(zhì)序列信息的數(shù)據(jù)庫 基于蛋白質(zhì)序列信息的數(shù)據(jù)庫是生物信息學(xué)數(shù)據(jù)庫中最基本的數(shù)據(jù)庫,這些數(shù)據(jù)庫以氨基酸殘基順序?yàn)榛緝?nèi)容,并附有注釋信息(計(jì)算機(jī)的序列分析結(jié)果和生物學(xué)家查閱文獻(xiàn)的結(jié)果)?;诘鞍踪|(zhì)序列的數(shù)據(jù)庫很多,主要有蛋白質(zhì)信息資源數(shù)據(jù)庫(PIR)、SWISS - PROT 數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫 NRL - 3D和 TrEMBL等等。 比如蛋白質(zhì)信息資源數(shù)據(jù)庫(PIR);蛋白質(zhì)信息資源數(shù)據(jù)庫( http://pir. georgetown. edu/ ) 由佐治堂大學(xué)創(chuàng)立, 收集的序列用來研究蛋白質(zhì)在進(jìn)化中的關(guān)系。該數(shù)據(jù)庫建立較早(雛形可追溯到20世紀(jì)60年代),內(nèi)容非常全面。數(shù)據(jù)庫現(xiàn)在已經(jīng)和其它 3 個(gè)數(shù)據(jù)中心建立了國(guó)際聯(lián)盟:美國(guó)華盛頓的喬治城大學(xué)全國(guó)生物醫(yī)學(xué)研究基金會(huì)( NBRF)、慕尼黑蛋白質(zhì)序列信息中心(MIPS) 和日本國(guó)際蛋白質(zhì)信息數(shù)據(jù)庫( JIPD)。這 3 個(gè)中心共同制作和發(fā)布一個(gè)“野生型( wild- type)”蛋白質(zhì)序列數(shù)據(jù)庫。這是一個(gè)國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫,它包含所有序列已知的自然界中野生型蛋白質(zhì)的信息。PIR 數(shù)據(jù)庫按數(shù)據(jù)的性質(zhì)分為四個(gè)部分: PIR1 中的序列已經(jīng)經(jīng)過驗(yàn)證, 注釋十分詳盡; PIR2 中大部分序列已經(jīng)經(jīng)過驗(yàn)證,但還含有尚未確定的冗余序列; PIR3中的序列還沒有經(jīng)過檢驗(yàn),注釋也還沒有加入;PIR4 中的信息都由其他渠道獲得,沒有經(jīng)過驗(yàn)證也沒有加入注釋。 2.2.1.3 其他蛋白質(zhì)組數(shù)據(jù)庫 don) Hammersmith 分校的蛋白質(zhì)組學(xué)系負(fù)責(zé)維護(hù),是基于質(zhì)譜應(yīng)用的數(shù)據(jù)庫,屬于混合數(shù)據(jù)庫。 將生物信息學(xué)的實(shí)驗(yàn)思路引入蛋白質(zhì)組學(xué)的實(shí)驗(yàn)方案后,實(shí)驗(yàn)人員可以通過互聯(lián)網(wǎng)上的信息設(shè)計(jì)實(shí)驗(yàn)方案,避免了很多重復(fù)性的勞動(dòng),少走很多彎路,為蛋白質(zhì)組學(xué)的發(fā)展提供了可靠的信息資源。值得一提的是,上文提到的大多數(shù)數(shù)據(jù)庫都能實(shí)現(xiàn)數(shù)據(jù)接收、在線查詢和空間結(jié)構(gòu)的可是化瀏覽等多種功能。而且,幾乎所有這些數(shù)據(jù)庫都是免費(fèi)的,都可以免費(fèi)下載或提供免費(fèi)服務(wù),使得蛋白質(zhì)組學(xué)可以在生物信息學(xué)的輔助之下快速發(fā)展。[6] 2.2.2 生物信息學(xué)與蛋白質(zhì)分析[7] 在蛋白質(zhì)組分析過程中,生物信息學(xué)的作用不僅僅體現(xiàn)在數(shù)據(jù)庫的查閱和資料的整合中,生物信息學(xué)軟件在蛋白質(zhì)組研究領(lǐng)域的作用根式至關(guān)重要的。蛋白質(zhì)分析軟件應(yīng)用主要集中在結(jié)合蛋白質(zhì)組研究中的分離技術(shù)和堅(jiān)定技術(shù)識(shí)別蛋白質(zhì)(如2-DE)圖像分析、Edman降解的序列組合、質(zhì)譜數(shù)據(jù)的綜合分析等),對(duì)有價(jià)值的未知蛋白質(zhì)進(jìn)行分析和預(yù)測(cè)(包括序列分析、結(jié)構(gòu)預(yù)測(cè)、結(jié)構(gòu)域、電點(diǎn)等性質(zhì)的檢測(cè)等)、針對(duì)蛋白質(zhì)的分析預(yù)測(cè)方法應(yīng)用的工具有4個(gè)方面。 2.2.2.1 蛋白質(zhì)一級(jí)結(jié)構(gòu)分析 根據(jù)20中氨基酸的理化性質(zhì)可以分析電泳等實(shí)驗(yàn)中的未知蛋白質(zhì),同樣也可以分析已知蛋白質(zhì)的物化性質(zhì)。ExPASy(ExPASy是由Swiss2Prot;TrEMBL ;EMBL 等多個(gè)數(shù)據(jù)庫的集合,主要專注的領(lǐng)域是蛋白質(zhì)分子和蛋白質(zhì)組學(xué)。) 工具包中提供了一系列相應(yīng)程序, ①AACompIdent。它與把氨基酸序列在 SWISS-PROT庫中搜索不同,AACompIdent 利用未知蛋白的氨基酸組成去確認(rèn)具有相同組成的已知蛋白。這個(gè)程序需要的信息比較多,包括有氨基酸組成、蛋白質(zhì)的名稱、pI和Mw(如果已知)以及它們的估算誤差、所屬物種、標(biāo)準(zhǔn)蛋白的氨基酸組成、標(biāo)準(zhǔn)蛋白的SWISS-PROT編號(hào)等,用戶還需要在6種氨基酸“組合”中作出選擇。然后在SWISS-PROT或TrEM2BL 數(shù)據(jù)庫中搜索組成相似蛋白。②AACompSim。與前者類似,是 AACompIdent 的一個(gè)變種。但比較多在SWISS-PROT中進(jìn)行。也可以用于發(fā)現(xiàn)蛋白質(zhì)之間較弱的相似關(guān)系。③PROPSEARCH。不屬于ExPASy 工具包,是蛋白質(zhì)氨基酸序列同源性的檢索,提供免費(fèi)的查詢,并通過電子郵件的形式反饋給提問者的網(wǎng)頁。設(shè)計(jì) PROPSEARCH的目的是為了通過排比方法查詢一個(gè)新的蛋白質(zhì)序列失敗時(shí),查找公認(rèn)的蛋白質(zhì)家族而設(shè)計(jì)的。PROPSEARCH可以通過氨基酸組分來查詢,同時(shí)也可以通過其他的特性來進(jìn)行查詢,如從序列中計(jì)算所得的分子量、 挑選的二肽組分的含量等。 2.2.2.2 蛋白質(zhì)的物理性質(zhì)預(yù)測(cè) 酶和化學(xué)試劑處理后的內(nèi)切產(chǎn)物??深A(yù)測(cè)水解結(jié)果的酶和試劑包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN 和GluC(雙羧酯或磷酸酯)等。半胱氨酸和甲硫氨酸可在計(jì)算產(chǎn)物肽段前加以修飾。③TGREASE(疏水性工具)。是FAS-TA工具包中的程序,能夠沿著蛋白質(zhì)序列長(zhǎng)度計(jì)算其疏水性(疏水性是每種氨基酸的固有特性,影響蛋白質(zhì)的三級(jí)空間結(jié)構(gòu))。這個(gè)程序的疏水性預(yù)測(cè)方法依賴與疏水性的衡量尺度,它將每種氨基酸的物理性質(zhì)與疏水性相聯(lián)系,沿著蛋白質(zhì)序列計(jì)算每個(gè)殘基位點(diǎn)的移動(dòng)平均疏水性,并給出疏水性和序列曲線。用這個(gè)程序還可以發(fā)現(xiàn)膜蛋白的跨膜區(qū)和高疏水性區(qū)的明顯相關(guān)性。④SAPS(電荷分布工具) 蛋白質(zhì)序列統(tǒng)計(jì)分析,對(duì)提交的序列給出大量全面的分析數(shù)據(jù)。輸出結(jié)果首先是按照種類對(duì)氨基酸的統(tǒng)計(jì)計(jì)數(shù),然后是電荷分布分析(包括正/負(fù)電荷聚集區(qū)的位置,高度帶電和不帶電區(qū)域,電荷傳播和模式等),最后給出高疏水性和跨膜域、重復(fù)結(jié)構(gòu)和多重態(tài)以及周期性分析。 2.2.2.3蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè) 的構(gòu)象趨勢(shì),其中最常用的是Chou和Fasman 法;二是基于氨基酸的物理化學(xué)性質(zhì),包括堆積性、疏水性、電荷性、氫鍵形成能力等;三是通過序列比對(duì),由已知三維結(jié)構(gòu)的同源蛋白推斷未知蛋白的二級(jí)結(jié)構(gòu)。各種方法預(yù)測(cè)的準(zhǔn)確率隨蛋白質(zhì)類型的不同而變化。一般對(duì)于α螺旋預(yù)測(cè)精度較好,對(duì)β折疊差些,而對(duì)除α螺旋和β折疊等之外的無規(guī)則二級(jí)結(jié)構(gòu)則效果很差。①nnPredict。用神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)二級(jí)結(jié)構(gòu),使用FASTA格式文件。蛋白質(zhì)結(jié)構(gòu)類型分為全α蛋白、全β蛋白和α/β蛋白,輸出結(jié)果包括“H”(螺旋)、“E”(折疊)和“β”(轉(zhuǎn)角)。該方法在實(shí)際的實(shí)例預(yù)測(cè)中,準(zhǔn)確率超過65%,而對(duì)全α蛋白則能達(dá)到79%的準(zhǔn)確率。②Predict2Protein。提供了序列搜索和結(jié)構(gòu)預(yù)測(cè)服務(wù),它先在 SWISS-PROT中搜索相似序列,用MaxHom算法構(gòu)建多序列比對(duì)的profile,再在數(shù)據(jù)庫中搜索相似的profile,然后用一套PHD程序來預(yù)測(cè)相應(yīng)的結(jié)構(gòu)特征,不僅僅給每個(gè)殘基分配 1 個(gè)二級(jí)結(jié)構(gòu)類型,他還對(duì)序列的每個(gè)位點(diǎn)的預(yù)測(cè)可信度給予統(tǒng)計(jì)分析。這個(gè)方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到72 % ,最佳殘基預(yù)測(cè)準(zhǔn)確率可高達(dá)90 %。③SSPRED。與 PredictProtein 相似,特點(diǎn)是在對(duì)比時(shí)特別注意非保守位點(diǎn)的替換,并利用比對(duì)結(jié)果作出預(yù)測(cè)結(jié)果,然后刪除簡(jiǎn)單不合理的結(jié)果單元。 2.2.2.4蛋白質(zhì)的三維結(jié)構(gòu) 蛋白質(zhì)三維結(jié)構(gòu)是預(yù)測(cè)時(shí)最復(fù)雜和最困難的預(yù)測(cè)技術(shù)。序列差異較大的蛋白質(zhì)序列也可能折疊成類似的三維構(gòu)象。由于蛋白質(zhì)的折疊過程并不十分清晰,從理論上解決蛋白質(zhì)折疊的問題還有待進(jìn)一步的科學(xué)發(fā)展,但也有了一些有一定作用的三維結(jié)構(gòu)預(yù)測(cè)方法。即與已知結(jié)構(gòu)的序列比較,同源模建,threading算法和 折疊識(shí)別方法。常見的預(yù)測(cè)算法有:SWISS-MODEL (自動(dòng)蛋白質(zhì)同源模建服務(wù)器)、CPHmodels等。 2.2.3 生物信息學(xué)與蛋白質(zhì)功能 生物信息學(xué)發(fā)展到今天不僅可以對(duì)蛋白質(zhì)組數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),而且可以對(duì)已知或者未知的基因產(chǎn)物進(jìn)行功能上全面的分析和預(yù)測(cè)。 生物信息學(xué)最常用的分析方法是模式識(shí)別。主要是利用存在于蛋白質(zhì)序列結(jié)構(gòu)中的某些特殊的特征模體來識(shí)別相關(guān)蛋白質(zhì)性質(zhì)。換而言之,就是從新的蛋白序列中發(fā)現(xiàn)標(biāo)志性的序列或者結(jié)構(gòu),以此建立模式,然后在已經(jīng)建立好的已知蛋白質(zhì)數(shù)據(jù)庫中,搜集于此相似的模式,來確定未知蛋白質(zhì)的歸屬,從而預(yù)測(cè)它的功能。 許多基因是在特定時(shí)期和條件下被激活,才能表達(dá)出來,在正常人工模擬的環(huán)境下根本無法表達(dá)。類似于這樣的恩未知蛋白質(zhì)也需要通過生物信息學(xué)的方法計(jì)算分析預(yù)測(cè),以獲得它的功能信息。 3 4 參考文獻(xiàn) [1] 王亞輝.世紀(jì)之交生物學(xué)發(fā)展的主要趨勢(shì)[J].中國(guó)科學(xué)基金,2000(3):167- 168. [2] 張春霆.生物信息學(xué)的現(xiàn)狀與展望[J].世界科技研究與發(fā)展,2000(6):17- 20. [3] 李林.蛋白質(zhì)組學(xué)的進(jìn)展[J].生物化學(xué)與生物物理學(xué)報(bào),1998,30(6):533 - 539. [4] 賀光. 生物信息學(xué)在蛋白質(zhì)研究中的應(yīng)用[J]. 國(guó)外醫(yī)學(xué).遺傳學(xué)分冊(cè), 2002,(03) . [5] 黃嘯. 生物信息學(xué)在蛋白質(zhì)組學(xué)上的應(yīng)用[J]. 安徽農(nóng)業(yè)科學(xué), 2006,(23) . [6] 馬袁君,程震龍,孫野青. 生物信息學(xué)及其在蛋白質(zhì)組學(xué)中的應(yīng)用[J]. 生物信息學(xué), [7] 徐建華,朱家勇. 生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J]. 醫(yī)學(xué)分子生物學(xué)雜志, 2005,(03) . [8] 楊嘯林, 張正國(guó). 蛋白質(zhì)分析中生物信息學(xué)的應(yīng)用[J]. 醫(yī)學(xué)研究通訊, 2002,(09) |
|