來源:奇點糕 2022-07-19 15:50 研究人員基于概率深度學習方法開發(fā)的Dig算法可快速、準確地在測試基因組中尋找潛在的突變基因,其在構(gòu)建中性突變率模型和識別候選驅(qū)動基因方面的強大性能,突出了深度學習在該類研究中的廣闊前景。 物競天擇,適者生存。 這是自然界乃至人類社會普遍存在的規(guī)律。 從這一角度來說,腫瘤細胞正是得益于一些具有“正向選擇”功能的驅(qū)動突變,這類基因突變往往可以起到促進細胞生長及侵襲、抵抗死亡等作用,從而賦予腫瘤細胞增殖優(yōu)勢[1]。 識別這些突變的驅(qū)動基因一直以來都是了解腫瘤發(fā)病機制,及尋找相對應治療策略的重要一環(huán)。 然而,腫瘤基因組中存在眾多中性突變(對腫瘤的發(fā)生發(fā)展無關(guān)鍵作用),且不同組織來源的腫瘤其突變具有一定的特異性[2],如何判斷一個突變是驅(qū)動突變還是中性突變一直以來都是腫瘤領(lǐng)域研究的熱點與難點。 近日,來自麻省理工學院Bonnie Berger教授團隊和哈佛醫(yī)學院Po-Ru Loh教授團隊攜手,通過深度學習的方法繪制了千堿基級分辨率的癌癥特異性體細胞突變率圖譜,并在此基礎(chǔ)上開發(fā)了可快速、精準識別腫瘤基因組中任意位置驅(qū)動突變的方法(Dig算法)。 研究人員使用該算法對腫瘤非編碼區(qū)的驅(qū)動突變進行了探索,發(fā)現(xiàn)了內(nèi)含子中隱蔽剪接單核苷酸變異,及5’非翻譯區(qū)突變在部分驅(qū)動基因(如TP53)中起到關(guān)鍵作用,相關(guān)研究發(fā)表于《自然·生物技術(shù)》雜志上[3]。 論文首頁截圖 通常識別驅(qū)動突變的方法主要有兩類,一是基于癌癥驅(qū)動突變比中性突變頻率較高的頻率算法,二是基于突變基因所編碼蛋白有害性評價的基因功能算法。對于第一種算法,識別過量突變的關(guān)鍵在于一個準確的體細胞中性突變率的模型。 為了構(gòu)建特定類型腫瘤的全基因組體細胞突變率模型,研究人員采用概率深度學習模型,通過識別以下兩個特征來進行計算:由表觀遺傳學特征如染色質(zhì)可及性等導致的千堿基級變異,以及由DNA序列改變?nèi)缱贤饩€暴露等導致的堿基對級變異。 通過獲取到的PCAWG(泛癌數(shù)據(jù)庫)、Roadmap Epigenomics(表觀遺傳學數(shù)據(jù)庫)、ENCODE(轉(zhuǎn)錄調(diào)控數(shù)據(jù)庫)以及參考基因組的數(shù)據(jù),研究人員應用Dig算法構(gòu)建了37種癌癥類型的突變率圖譜和推斷的核苷酸突變偏向性。 構(gòu)建特定類型腫瘤的全基因組體細胞突變率模型 通過比對Dig預測的突變率及實際的突變率,Dig成功預測10-kb區(qū)域內(nèi)單核苷酸變異(SNV)的中位數(shù)為77.3%,在1-Mb區(qū)域內(nèi)的中位數(shù)為94.6%。由于Dig具有識別局部表觀遺傳結(jié)構(gòu)的能力(如活躍的轉(zhuǎn)錄起始點),并將這些結(jié)構(gòu)與突變率聯(lián)系起來,其識別突變的效率及準確性優(yōu)于同類的其他模型。 在構(gòu)建的體細胞突變率模型具有優(yōu)異準確性的基礎(chǔ)上,Dig識別腫瘤驅(qū)動基因的效率自然也不遑多讓。相比于其他用于識別驅(qū)動突變的算法,Dig在全基因組或全外顯子測區(qū)的樣本中顯示出相同或更好的效率。 值得一提的是,使用Dig識別潛在的驅(qū)動基因比現(xiàn)有方法快1-5個數(shù)量級,Dig只需要不超過90秒,就可抵得上現(xiàn)有方法10分鐘到超過2天的計算。 相比于同類型算法,Dig在預測體細胞突變路及識別腫瘤驅(qū)動基因的效率更好 對于編碼區(qū)的驅(qū)動突變,已有很多算法進行研究,因此,研究人員著重利用Dig對非編碼區(qū)的驅(qū)動突變進行研究,這也是Dig算法的一大優(yōu)勢,先前的許多算法都僅適用于尋找編碼區(qū)的驅(qū)動突變。 首先,研究人員利用Dig算法來量化腫瘤中可能存在于基因外顯子和內(nèi)含子中的隱蔽剪接SNV(經(jīng)典剪切位點外的體細胞突變并可致可變剪切)的程度。 通過計算發(fā)現(xiàn),在所選擇研究的腫瘤抑制基因集中,隱蔽剪接SNV的發(fā)生頻率要高于預期(P<0.001),且主要集中在內(nèi)含子中。在腫瘤抑制基因集中,隱蔽剪接SNV約占到所有潛在驅(qū)動SNV的4.5%,略低于經(jīng)典剪切SNV的頻率(7.4%)。在12種腫瘤中,有7個腫瘤抑制基因具有顯著的內(nèi)含子隱蔽剪接SNV負擔,如TP53和SMAD4。 抑癌基因中潛在驅(qū)動SNV各類型占比及7個具有顯著的內(nèi)含子隱蔽剪接SNV負擔的抑癌基因 有趣的是,對于原癌基因,隱蔽剪接SNV發(fā)生的頻率并不高,這提示隱蔽剪接SNV應該是導致功能喪失,而不是功能激活。 此外,研究人員還使用Dig算法研究了基因啟動子中插入缺失標記(indels)的負荷。結(jié)果顯示,TP53啟動子是唯一具有全基因組顯著indels負擔的元件,且全為缺失突變(大部分缺失超過4個堿基)。這些突變集中在5’非翻譯區(qū),影響轉(zhuǎn)錄因子結(jié)合,抑制TP53的轉(zhuǎn)錄,從而驅(qū)動腫瘤發(fā)生。 TP53的5’非翻譯區(qū)發(fā)生indels導致腫瘤發(fā)生 對106個腫瘤抑制基因和95個具有多外顯子5’非翻譯區(qū)的癌基因的5’非翻譯區(qū)進行計算發(fā)現(xiàn),ELF3的5’非翻譯區(qū)同樣有顯著的SNV負擔。然而,因為相應轉(zhuǎn)錄數(shù)據(jù)獲取受限,研究人員無法對這些5’非翻譯區(qū)突變的功能進行進一步分析。 總的來說,研究人員基于概率深度學習方法開發(fā)的Dig算法可快速、準確地在測試基因組中尋找潛在的突變基因,其在構(gòu)建中性突變率模型和識別候選驅(qū)動基因方面的強大性能,突出了深度學習在該類研究中的廣闊前景。 Dig算法概覽 由于Dig算法可快速評估分布在大范圍基因組上的突變,因此其特別適用于識別弱或中等具有正向選擇作用的驅(qū)動基因。 然而,該研究也有一定的缺陷,該研究僅靠計算預測,并不足以確定某一突變在腫瘤發(fā)生及發(fā)展中的因果作用,過量的突變率并不意味著其一定具有正向選擇作用。因此,為了確定突變與腫瘤驅(qū)動因素的因果作用尚需實驗驗證。 參考文獻 1.Hanahan D, Weinberg RA: Hallmarks of cancer: the next generation. Cell 2011, 144(5):646-674. 2.Polak P, Karlic R, Koren A, Thurman R, Sandstrom R, Lawrence M, Reynolds A, Rynes E, Vlahovicek K, Stamatoyannopoulos JA et al: Cell-of-origin chromatin organization shapes the mutational landscape of cancer. Nature 2015, 518(7539):360-364. 3.Sherman MA, Yaari AU, Priebe O, Dietlein F, Loh PR, Berger B: Genome-wide mapping of somatic mutation rates uncovers drivers of cancer. Nat Biotechnol 2022. |
|