大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我! title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap 使用g:Profiler,GSEA,Cytoscape和EnrichmentMap對(duì)組學(xué)數(shù)據(jù)進(jìn)行通路富集分析和可視化 這個(gè)文章發(fā)表在nature protocols。在生信星球公眾號(hào)聊天窗口回復(fù)“121”可獲取文獻(xiàn)pdf。 對(duì)文章進(jìn)行了簡(jiǎn)單理解和翻譯,由于我是跨專業(yè),沒有什么背景知識(shí)積累,有不準(zhǔn)確的地方歡迎批評(píng)指正,目前只完成了這一部分,未完待續(xù)。 摘要通路富集分析有助于研究人員獲得從基因組規(guī)模(組學(xué))實(shí)驗(yàn)產(chǎn)生的基因列表的機(jī)制洞察。該方法鑒定的基因列表中富含的生物通路比偶然預(yù)期的更多。我們解釋了通路富集分析的程序,并提供了一個(gè)實(shí)用的逐步指導(dǎo),以幫助解釋由RNA-seq和基因組測(cè)序?qū)嶒?yàn)產(chǎn)生的基因列表。該方案包括三個(gè)主要步驟:從組學(xué)數(shù)據(jù)定義基因列表,確定統(tǒng)計(jì)學(xué)上富集的通路,以及結(jié)果的可視化和解釋。我們描述了如何將該方案與差異表達(dá)基因和突變癌基因的已發(fā)表實(shí)例一起使用; 但是,這些原則可以應(yīng)用于各種類型的組學(xué)數(shù)據(jù)。該流程描述了創(chuàng)新型可視化技術(shù),提供了全面的背景和故障排除指南,并使用免費(fèi)提供和經(jīng)常更新的軟件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在約4.5小時(shí)內(nèi)完成,設(shè)計(jì)用于沒有事先生物信息學(xué)培訓(xùn)的生物學(xué)家。 Introduction現(xiàn)在,生物樣品中DNA,RNA和蛋白質(zhì)的全面定量1?已成為常規(guī)。由此產(chǎn)生的數(shù)據(jù)是呈指數(shù)式增長(zhǎng),他們的分析有助于研究人員發(fā)現(xiàn)新的生物學(xué)功能,基因型-表型關(guān)系和疾病機(jī)理1,2。然而,對(duì)這些數(shù)據(jù)的分析和解釋是許多研究人員面臨的主要挑戰(zhàn)。分析經(jīng)常導(dǎo)致需要不切實(shí)際的大量手工文獻(xiàn)搜索解釋的長(zhǎng)基因列表。解決該問題的標(biāo)準(zhǔn)方法是通路富集分析,其將大基因列表概括為更容易解釋的通路的較小列表。通過幾個(gè)常見的統(tǒng)計(jì)檢驗(yàn),考慮實(shí)驗(yàn)中檢測(cè)到的基因數(shù)量,相對(duì)排名以及注釋到通路的基因數(shù)量,對(duì)實(shí)驗(yàn)基因列表中相對(duì)于偶然預(yù)期的過度表達(dá)進(jìn)行統(tǒng)計(jì)檢驗(yàn)。例如,含有40%細(xì)胞周期基因的實(shí)驗(yàn)數(shù)據(jù)令人驚訝地富集,因?yàn)橹挥?%的人類蛋白質(zhì)編碼基因參與了這一過程。 在最近的一個(gè)例子中,我們使用通路富集分析來幫助識(shí)別多梳抑制復(fù)合物(PRC2)的組蛋白和DNA甲基化作為室管膜瘤的第一個(gè)合理治療靶點(diǎn),室管膜瘤是最常見的兒童腦癌之一3。該通路可通過可用的藥物如5-氮雜胞苷來靶向,其在患有終末病的患者中以富有同情心的方式使用并且停止快速轉(zhuǎn)移性腫瘤生長(zhǎng)3。在另一個(gè)例子中,我們分析了自閉癥罕見的拷貝數(shù)變異(CNV的),并確定受基因缺失影響的重要通路,而通過對(duì)單個(gè)基因或基因座的病例對(duì)照關(guān)聯(lián)試驗(yàn),幾乎沒有發(fā)現(xiàn)顯著的影響(4),5。這些實(shí)例說明了使用通路富集分析可以實(shí)現(xiàn)的生物學(xué)機(jī)制的有用見解。 Development of the protocol該流程涵蓋了源自基因組規(guī)模(組學(xué))技術(shù)的大基因列表的通路富集分析。該流程適用于對(duì)解釋其組學(xué)數(shù)據(jù)感興趣的實(shí)驗(yàn)生物學(xué)家。它只需要一個(gè)學(xué)習(xí)和使用“單擊”計(jì)算機(jī)軟件的能力,盡管高級(jí)用戶可以從我們提供的補(bǔ)充流程自動(dòng)分析腳本中獲益1 - 4。我們分析先前公布的人基因的表達(dá)和體細(xì)胞突變的數(shù)據(jù)作為實(shí)例6,7,8; 然而,我們的概念框架適用于分析來自大規(guī)模數(shù)據(jù)的任何生物的基因或生物分子列表,包括蛋白質(zhì)組學(xué),基因組學(xué),表觀基因組學(xué)和基因調(diào)控研究。我們廣泛使用的通路富集分析了許多項(xiàng)目,并已評(píng)估了許多可用的工具9,10,11,12。我們?cè)谶@里介紹的軟件包因其易用性,免費(fèi)訪問,高級(jí)功能,大量文檔和最新數(shù)據(jù)庫(kù)而被選中,它們是我們?cè)谘芯恐忻刻焓褂玫能浖?,并向合作者和學(xué)生推薦。此外,我們還向這些工具的開發(fā)人員提供了反饋,使他們能夠?qū)崿F(xiàn)我們?cè)谝寻l(fā)布分析中所需的功能。這些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有這些都可以在線免費(fèi)獲得:
Overview of the procedure本節(jié)概述了通路富集分析的主要階段。下面的過程中提供了詳細(xì)的逐步流程。通路富集分析涉及三個(gè)主要階段(圖1 ;參見框1的基本定義)。
圖1:流程概述。 fig1|來自不同組學(xué)數(shù)據(jù)的基因列表經(jīng)歷通路富集分析,使用g:Profiler或GSEA,以鑒定在實(shí)驗(yàn)中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2應(yīng)用程序在Cytoscape中可視化和解釋通路富集分析結(jié)果。流程概述顯示在左側(cè),從基因列表輸入開始,每個(gè)階段的示例輸出顯示在右側(cè)。 Box 1 | DefinitionsPathway。共同實(shí)現(xiàn)生物過程的多個(gè)基因。 Gene set。一組相關(guān)的基因?!巴坊蚣卑ㄍ分械乃谢?。基因組可以基于基因之間的各種關(guān)系,例如細(xì)胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白質(zhì)相互作用等細(xì)節(jié)不包括在內(nèi)。 Gene list of interest。來自組學(xué)實(shí)驗(yàn)的基因列表,其輸入到通路富集分析中。 Ranked gene list。在許多組學(xué)數(shù)據(jù)(例如,來自用于基因表達(dá)的RNA-seq的數(shù)據(jù))中,可以根據(jù)一些分?jǐn)?shù)(例如,差異表達(dá)水平)對(duì)基因進(jìn)行分級(jí),以提供用于通路富集分析的更多信息。富集在排序列表頂部的基因的通路得分高于如果通路基因隨機(jī)分散在排序列表中的情況。 Pathway enrichment analysis。一種統(tǒng)計(jì)技術(shù),用于鑒定在基因列表或排序的目標(biāo)基因列表中顯著表示的通路。 Multiple testing correction??梢詥为?dú)測(cè)試數(shù)以千計(jì)的通路進(jìn)行富集,這可能導(dǎo)致顯著的富集P值單獨(dú)出現(xiàn)。多重檢測(cè)校正是一種統(tǒng)計(jì)技術(shù),用于校正個(gè)體富集測(cè)試中的P值以解決該問題并減少假陽(yáng)性富集的機(jī)會(huì)(方框3)。 Leading-edge gene.。在GSEA分析中在最大ES處或之前的排名中發(fā)現(xiàn)的基因子集。這個(gè)基因子集通??梢越忉尡欢x為富集的通路。 Box2 通路富集分析資源Pathway databases 我們列出了一系列大型,開放獲取且便于訪問的通路數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)為通路富集分析提供了最大價(jià)值。數(shù)百個(gè)通路數(shù)據(jù)庫(kù)可用于多種目的82。 Gene set databases *基因本體論(GO)57:GO為生物過程,分子功能和細(xì)胞組分提供數(shù)千個(gè)標(biāo)準(zhǔn)化術(shù)語(yǔ)的分層組織,以及基于這些術(shù)語(yǔ)的多種物種的策劃和預(yù)測(cè)基因注釋。生物學(xué)過程GO注釋是通路富集分析中最常用的資源。
Detailed biochemical pathway databases 這些數(shù)據(jù)庫(kù)由管理團(tuán)隊(duì)維護(hù),他們手動(dòng)收集詳細(xì)的通路信息,包括生化反應(yīng),基因調(diào)控事件和其他基因相互作用。信息可以導(dǎo)出或轉(zhuǎn)換為基因集格式。
Pathway meta-databases 這些數(shù)據(jù)庫(kù)收集自多個(gè)源通路數(shù)據(jù)庫(kù)的詳細(xì)通路描述。
|
|