背景介紹 最近有朋友在公眾號后臺留言如何評估內(nèi)含子突變對基因的影響,今天又有一位朋友詢問剪切位點預(yù)測的軟件有哪些?雖然從表面上看這是兩個問題,但是在我看來內(nèi)含子突變對基因的影響主要體現(xiàn)在改變外顯子剪切上,所以可以看作一個問題:如何評估點突變對外顯子剪切的影響。 從DNA模板鏈轉(zhuǎn)錄出的最初轉(zhuǎn)錄產(chǎn)物中除去內(nèi)含子,并將外顯子連接起來形成一個連續(xù)的RNA分子的過程叫做RNA剪接。 ESE, exonic splicing enhancer; ESS, exonic splicing silencer; ISE, intronic splicing enhancer; ISS, intronic splicing silencer; ss, splice site 相關(guān)動畫如下: 真核細(xì)胞pre-mRNA的剪接位點處存在一定的序列保守性,對于它所對應(yīng)的cDNA序列而言,內(nèi)含子5’端(供體位點)和3’端(受體位點)的堿基幾乎都是GT和AG,因此稱為GT-AG規(guī)則。如果在外顯子內(nèi)含子交界處發(fā)生突變(較多見)或內(nèi)含子內(nèi)部(少見)突變改變外顯子剪切方式或多出一段外顯子,將直接導(dǎo)致基因的功能改變,這樣的突變也稱為LOF突變(loss of function)。 案例介紹 游俠將以幾個知名的案例來講解幾個軟件的評估效果。 案例一 中日友好醫(yī)院顧大夫新浪微博記載《基因檢測結(jié)果解讀——從一個家庭的困惑說起》,8歲男孩,1歲6個月步態(tài)不穩(wěn),2歲后吐字不清, 7歲后行走能力下降,小腦萎縮。經(jīng)三家基因檢測公司最后確診為PLA2G6基因上的兩個突變引起,其中一個為剪切位點突變c.1077G>A。(基因組位置chr22:38528838C>T,hg19) 案例二 一對來自河北衡水農(nóng)村的貧困姐弟倆,先天失聰、失語,且存在嚴(yán)重視力障礙--視網(wǎng)膜色素變性。姐弟均雙耳全聾、視力進(jìn)行性減退、夜盲、紅綠色盲、視野縮小、雙眼眼球震顫,經(jīng)過藥明康德明碼生物基因檢測確診為MYO7A突變引起的Usher綜合征,其中一個突變位點為剪切位點c.849+2T>C(基因組位置chr11:76868440T>C,hg19 ) 案例三 654β地中海貧血,, HBB基因第二內(nèi)含子654 突變是最常見的導(dǎo)致 β地中海貧血發(fā)生的突變類型之一 。該突變在 β 珠蛋白基因第二內(nèi)含子第 654 位發(fā)生 C >T突變(NM_000518.4:c.316-197C>T, rs34451549,基因組位置chr11: 5247153G>A),形成一個新的 5' 供體剪接位點, 同時又激活了IVS Ⅱ第 597 位一個潛在的 3' 受體剪接位點, 導(dǎo)致IVS Ⅱ中這兩個新的剪接位點之間一段長 73 bp 的序列被作為額外的外顯子插入到外顯子 2 和 3 之間,產(chǎn)生一種異常的 mRNA,從而引起β地貧表型。 軟件介紹與預(yù)測結(jié)果 scSNV 第一個評測軟件為scSNV,相關(guān)文獻(xiàn)如下(pmid:25416802),該軟件主要使用機器學(xué)習(xí)的方法對之前已報導(dǎo)的剪切位點突變進(jìn)行訓(xùn)練識別,從而可以對新的剪切位點進(jìn)行預(yù)測評估。 通過Annovar軟件結(jié)合scSNV數(shù)據(jù)庫對以上案例一與案例二兩個位點進(jìn)行評估,第三個案例距離剪切位點邊界太遠(yuǎn),scSNV只評估:?3 to +8 at the 5`splice site 和?12 to +2 at the 3`splice site區(qū)域內(nèi)突變。 結(jié)果如下 ![]() 數(shù)據(jù)庫運用兩種算法AdaBoost與random forests,任一種得分大于0.6即認(rèn)為改變剪切,數(shù)值越大越有可能改變剪切,從結(jié)果來看,svSNV預(yù)測的非常準(zhǔn)。 ![]() HSF 3.0 ![]() 第二個軟件為HSF 3.0,網(wǎng)址為http:///HSF3/,該算法主要是應(yīng)用各種剪切相關(guān)蛋白的識別的序列motif進(jìn)行識別,不但可以識別潛在的剪切位點還可以識別branch point突變。具體算法介紹參見pmid:19339519。 ![]() 首先我們需要用UCSC view DNA工具提取三個位點附近各50bp序列。 PLA2G6 >hg19_dna range=chr22:38528788-38528888 5'pad=0 3'pad=0 strand=+ repeatMasking=none TGCATTCCCACCGGGGCCCCACAGGGCAGGACACGCGGTCCTGGGCTCAC CGACATGGCCAGGTGCAGCGGGGTGTTGCCGTGCTCTCCGCGGGCATCCG C HSF預(yù)測結(jié)果如下: ![]() MYO7A>hg19_dna range=chr11:76868390-76868490 5'pad=0 3'pad=0 strand=+ repeatMasking=none HSF預(yù)測結(jié)果如下: ![]() HBB >hg19_dna range=chr11:5247103-5247203 5'pad=0 3'pad=0 strand=+ repeatMasking=none ![]() 從分析結(jié)果來看,HSF分析的準(zhǔn)確度并不高,三個位點只有一個位點預(yù)測準(zhǔn)確。 ![]() SPIDEX ![]() 第三個軟件為SPIDEX,由基因組學(xué)深度學(xué)習(xí)知名機構(gòu)Deep Genomics出品,該算法使用最新的深度學(xué)習(xí)的方法對已有的資料進(jìn)行訓(xùn)練,可以對剪切位點附近300bp以內(nèi)的位點進(jìn)行識別預(yù)測,相關(guān)文獻(xiàn)參見pmid:25525159。 ![]() 該軟件為商業(yè)化軟件,企業(yè)需要付費購買,有一個免費的網(wǎng)頁可以查詢http://tools.genes./。 ![]() 以上為初步的位點比對,SPIDEX不能識別HBB內(nèi)含子突變。對于其他兩個位點,預(yù)測結(jié)果如下 ![]() 根據(jù)文獻(xiàn)建議當(dāng)dPSI_percentile小于3時可認(rèn)為引起可變剪切,從結(jié)果來看案例一預(yù)測數(shù)值為1.3預(yù)測準(zhǔn)確,案例二預(yù)測數(shù)值為0.07預(yù)測準(zhǔn)確。 總結(jié) 雖然只是測試了三例,評估不是非常客觀,但是管中窺豹,從以上的結(jié)果中我們可以看到對于剪切位點附近的突變,scSNV與SPIDEX預(yù)測最好,游俠還是推薦scSNV,因為scSNV已有免費全基因組范圍內(nèi)的數(shù)據(jù)庫,結(jié)合annovar軟件非常方便,當(dāng)然為了確保結(jié)果最好還是用SPIDEX相互驗證一下為好。對于內(nèi)含子內(nèi)部的位點,目前軟件很難預(yù)測準(zhǔn)確,當(dāng)懷疑為內(nèi)含子突變引起的可變剪切時,也許做一個RNA逆轉(zhuǎn)錄是比較實際的方法。特別提示,在本測試案例一中,突變位點為同義突變,在臨床工作中很容易遺漏,為了避免這類情況,HGMD專業(yè)數(shù)據(jù)庫與可變剪切位點預(yù)測非常有必要。 ![]() 圣 誕節(jié)本是宗教節(jié)日。十九世紀(jì),圣誕卡的流行、圣誕老人的出現(xiàn),使圣誕節(jié)開始漸漸流行起來。圣誕慶祝習(xí)俗在北歐流行后,結(jié)合著北半球冬季的圣誕裝飾也出現(xiàn)了。 |
|