乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      一篇零代碼的富集分析流程文獻(xiàn)(上)

       微笑如酒 2019-01-31

      大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~

         就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~

         這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!

      title:Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap

      使用g:Profiler,GSEA,Cytoscape和EnrichmentMap對(duì)組學(xué)數(shù)據(jù)進(jìn)行通路富集分析和可視化

      這個(gè)文章發(fā)表在nature protocols。在生信星球公眾號(hào)聊天窗口回復(fù)“121”可獲取文獻(xiàn)pdf。

      對(duì)文章進(jìn)行了簡(jiǎn)單理解和翻譯,由于我是跨專業(yè),沒有什么背景知識(shí)積累,有不準(zhǔn)確的地方歡迎批評(píng)指正,目前只完成了這一部分,未完待續(xù)。

      摘要

      通路富集分析有助于研究人員獲得從基因組規(guī)模(組學(xué))實(shí)驗(yàn)產(chǎn)生的基因列表的機(jī)制洞察。該方法鑒定的基因列表中富含的生物通路比偶然預(yù)期的更多。我們解釋了通路富集分析的程序,并提供了一個(gè)實(shí)用的逐步指導(dǎo),以幫助解釋由RNA-seq和基因組測(cè)序?qū)嶒?yàn)產(chǎn)生的基因列表。該方案包括三個(gè)主要步驟:從組學(xué)數(shù)據(jù)定義基因列表,確定統(tǒng)計(jì)學(xué)上富集的通路,以及結(jié)果的可視化和解釋。我們描述了如何將該方案與差異表達(dá)基因和突變癌基因的已發(fā)表實(shí)例一起使用; 但是,這些原則可以應(yīng)用于各種類型的組學(xué)數(shù)據(jù)。該流程描述了創(chuàng)新型可視化技術(shù),提供了全面的背景和故障排除指南,并使用免費(fèi)提供和經(jīng)常更新的軟件,包括g:Profiler,Gene Set Enrichment Analysis(GSEA),Cytoscape和EnrichmentMap。完整的流程可在約4.5小時(shí)內(nèi)完成,設(shè)計(jì)用于沒有事先生物信息學(xué)培訓(xùn)的生物學(xué)家。

      Introduction

      現(xiàn)在,生物樣品中DNA,RNA和蛋白質(zhì)的全面定量1?已成為常規(guī)。由此產(chǎn)生的數(shù)據(jù)是呈指數(shù)式增長(zhǎng),他們的分析有助于研究人員發(fā)現(xiàn)新的生物學(xué)功能,基因型-表型關(guān)系和疾病機(jī)理1,2。然而,對(duì)這些數(shù)據(jù)的分析和解釋是許多研究人員面臨的主要挑戰(zhàn)。分析經(jīng)常導(dǎo)致需要不切實(shí)際的大量手工文獻(xiàn)搜索解釋的長(zhǎng)基因列表。解決該問題的標(biāo)準(zhǔn)方法是通路富集分析,其將大基因列表概括為更容易解釋的通路的較小列表。通過幾個(gè)常見的統(tǒng)計(jì)檢驗(yàn),考慮實(shí)驗(yàn)中檢測(cè)到的基因數(shù)量,相對(duì)排名以及注釋到通路的基因數(shù)量,對(duì)實(shí)驗(yàn)基因列表中相對(duì)于偶然預(yù)期的過度表達(dá)進(jìn)行統(tǒng)計(jì)檢驗(yàn)。例如,含有40%細(xì)胞周期基因的實(shí)驗(yàn)數(shù)據(jù)令人驚訝地富集,因?yàn)橹挥?%的人類蛋白質(zhì)編碼基因參與了這一過程。

      在最近的一個(gè)例子中,我們使用通路富集分析來幫助識(shí)別多梳抑制復(fù)合物(PRC2)的組蛋白和DNA甲基化作為室管膜瘤的第一個(gè)合理治療靶點(diǎn),室管膜瘤是最常見的兒童腦癌之一3。該通路可通過可用的藥物如5-氮雜胞苷來靶向,其在患有終末病的患者中以富有同情心的方式使用并且停止快速轉(zhuǎn)移性腫瘤生長(zhǎng)3。在另一個(gè)例子中,我們分析了自閉癥罕見的拷貝數(shù)變異(CNV的),并確定受基因缺失影響的重要通路,而通過對(duì)單個(gè)基因或基因座的病例對(duì)照關(guān)聯(lián)試驗(yàn),幾乎沒有發(fā)現(xiàn)顯著的影響(4),5。這些實(shí)例說明了使用通路富集分析可以實(shí)現(xiàn)的生物學(xué)機(jī)制的有用見解。

      Development of the protocol

      該流程涵蓋了源自基因組規(guī)模(組學(xué))技術(shù)的大基因列表的通路富集分析。該流程適用于對(duì)解釋其組學(xué)數(shù)據(jù)感興趣的實(shí)驗(yàn)生物學(xué)家。它只需要一個(gè)學(xué)習(xí)和使用“單擊”計(jì)算機(jī)軟件的能力,盡管高級(jí)用戶可以從我們提供的補(bǔ)充流程自動(dòng)分析腳本中獲益1 - 4。我們分析先前公布的人基因的表達(dá)和體細(xì)胞突變的數(shù)據(jù)作為實(shí)例6,7,8; 然而,我們的概念框架適用于分析來自大規(guī)模數(shù)據(jù)的任何生物的基因或生物分子列表,包括蛋白質(zhì)組學(xué),基因組學(xué),表觀基因組學(xué)和基因調(diào)控研究。我們廣泛使用的通路富集分析了許多項(xiàng)目,并已評(píng)估了許多可用的工具9,10,11,12。我們?cè)谶@里介紹的軟件包因其易用性,免費(fèi)訪問,高級(jí)功能,大量文檔和最新數(shù)據(jù)庫(kù)而被選中,它們是我們?cè)谘芯恐忻刻焓褂玫能浖?,并向合作者和學(xué)生推薦。此外,我們還向這些工具的開發(fā)人員提供了反饋,使他們能夠?qū)崿F(xiàn)我們?cè)谝寻l(fā)布分析中所需的功能。這些工具是g:Profiler 13,GSEA 14,Cytoscape 15和EnrichmentMap 16,所有這些都可以在線免費(fèi)獲得:

      • g:Profiler(https://biit.cs./gprofiler/)

      • GSEA(http://software./gsea/)

      • Cytoscape(http://www./)

      • EnrichmentMap(http://www./Software/EnrichmentMap)

      Overview of the procedure

      本節(jié)概述了通路富集分析的主要階段。下面的過程中提供了詳細(xì)的逐步流程。通路富集分析涉及三個(gè)主要階段(圖1 ;參見框1的基本定義)。

      1. 使用組學(xué)數(shù)據(jù)定義感興趣的基因列表。組學(xué)實(shí)驗(yàn)在實(shí)驗(yàn)環(huán)境中全面測(cè)量基因的活性??紤]到實(shí)驗(yàn)設(shè)計(jì),得到的原始數(shù)據(jù)集通常需要計(jì)算處理,例如歸一化和評(píng)分,以識(shí)別感興趣的基因。例如,可以從RNA-seq數(shù)據(jù)17導(dǎo)出兩組樣品之間差異表達(dá)的基因列表。從其它類型的組學(xué)實(shí)驗(yàn),如基因表達(dá)芯片得到的基因列表18,定量蛋白質(zhì)組學(xué)19,20,種系和體細(xì)胞的基因組測(cè)序21,22,23和總體DNA甲基化測(cè)定法24,25,可以在該流程中使用; 但是,每種類型的數(shù)據(jù)都可能需要特定的預(yù)處理步驟(參見“與替代方法的比較”部分)。

      2. 通路富集分析。統(tǒng)計(jì)方法用于鑒定第1階段基因列表中富集的通路,相對(duì)于偶然預(yù)期的通路。測(cè)試給定數(shù)據(jù)庫(kù)中的所有通路以在基因列表中富集(參見框2以獲得通路數(shù)據(jù)庫(kù)列表)。可以使用幾種已建立的通路富集分析方法,并且選擇使用哪種方法取決于基因列表的類型(參見“對(duì)替代方法的比較”部分)。

      3. 通路富集分析結(jié)果的可視化和解釋。在階段2中可以鑒定許多富集通路,通常包括相同通路的相關(guān)版本。可視化有助于確定主要的生物學(xué)主題及其關(guān)系,以進(jìn)行深入研究和實(shí)驗(yàn)評(píng)估。

      圖1:流程概述。

      fig1|來自不同組學(xué)數(shù)據(jù)的基因列表經(jīng)歷通路富集分析,使用g:Profiler或GSEA,以鑒定在實(shí)驗(yàn)中富集的通路。使用其EnrichmentMap,AutoAnnotate,WordCloud和clusterMaker2應(yīng)用程序在Cytoscape中可視化和解釋通路富集分析結(jié)果。流程概述顯示在左側(cè),從基因列表輸入開始,每個(gè)階段的示例輸出顯示在右側(cè)。

      Box 1 | Definitions

      Pathway。共同實(shí)現(xiàn)生物過程的多個(gè)基因。

      Gene set。一組相關(guān)的基因?!巴坊蚣卑ㄍ分械乃谢?。基因組可以基于基因之間的各種關(guān)系,例如細(xì)胞定位(例如,核基因)或酶功能(例如,蛋白激酶)。蛋白質(zhì)相互作用等細(xì)節(jié)不包括在內(nèi)。

      Gene list of interest。來自組學(xué)實(shí)驗(yàn)的基因列表,其輸入到通路富集分析中。

      Ranked gene list。在許多組學(xué)數(shù)據(jù)(例如,來自用于基因表達(dá)的RNA-seq的數(shù)據(jù))中,可以根據(jù)一些分?jǐn)?shù)(例如,差異表達(dá)水平)對(duì)基因進(jìn)行分級(jí),以提供用于通路富集分析的更多信息。富集在排序列表頂部的基因的通路得分高于如果通路基因隨機(jī)分散在排序列表中的情況。

      Pathway enrichment analysis。一種統(tǒng)計(jì)技術(shù),用于鑒定在基因列表或排序的目標(biāo)基因列表中顯著表示的通路。

      Multiple testing correction??梢詥为?dú)測(cè)試數(shù)以千計(jì)的通路進(jìn)行富集,這可能導(dǎo)致顯著的富集P值單獨(dú)出現(xiàn)。多重檢測(cè)校正是一種統(tǒng)計(jì)技術(shù),用于校正個(gè)體富集測(cè)試中的P值以解決該問題并減少假陽(yáng)性富集的機(jī)會(huì)(方框3)。

      Leading-edge gene.。在GSEA分析中在最大ES處或之前的排名中發(fā)現(xiàn)的基因子集。這個(gè)基因子集通??梢越忉尡欢x為富集的通路。

      Box2 通路富集分析資源

      Pathway databases

      我們列出了一系列大型,開放獲取且便于訪問的通路數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)為通路富集分析提供了最大價(jià)值。數(shù)百個(gè)通路數(shù)據(jù)庫(kù)可用于多種目的82。

      Gene set databases

      *基因本體論(GO)57:GO為生物過程,分子功能和細(xì)胞組分提供數(shù)千個(gè)標(biāo)準(zhǔn)化術(shù)語(yǔ)的分層組織,以及基于這些術(shù)語(yǔ)的多種物種的策劃和預(yù)測(cè)基因注釋。生物學(xué)過程GO注釋是通路富集分析中最常用的資源。

      • 分子簽名數(shù)據(jù)庫(kù)(MSigDB)80,81:MSigDB是基于GO基因集的數(shù)據(jù)庫(kù),通路,治療,個(gè)體組學(xué)研究,序列基序,染色體位置,致癌性和免疫學(xué)表達(dá)特征,以及由GSEA團(tuán)隊(duì)維護(hù)的各種計(jì)算機(jī)分析的基因組數(shù)據(jù)庫(kù)(http://www.)??梢垣@得相對(duì)非冗余的'標(biāo)志'基因集。該數(shù)據(jù)可與許多通路富集方法一起使用。

      Detailed biochemical pathway databases

      這些數(shù)據(jù)庫(kù)由管理團(tuán)隊(duì)維護(hù),他們手動(dòng)收集詳細(xì)的通路信息,包括生化反應(yīng),基因調(diào)控事件和其他基因相互作用。信息可以導(dǎo)出或轉(zhuǎn)換為基因集格式。

      • Reactome 58:最活躍的人類通路通用公共數(shù)據(jù)庫(kù)(http://www.)。

      • Panther 38:人類信號(hào)通路(http:///pathway)。

      • NetPath 60:人類信號(hào)通路,重點(diǎn)是癌癥和免疫學(xué)(http://www./)。

      • HumanCyc 59:人類代謝通路(http:///)。

      • 國(guó)家癌癥研究所(NCI)通路相互作用數(shù)據(jù)庫(kù)(PID):人類癌癥相關(guān)的信號(hào)傳導(dǎo)通路; 此數(shù)據(jù)庫(kù)不再更新。

      • KEGG 83:KEGG數(shù)據(jù)庫(kù)是最有用的,因?yàn)橛兄庇^的通路圖。它包含多種類型的通路,其中一些不是正常通路,而是與疾病相關(guān)的基因集,例如“癌癥中的通路”(http://www./kegg/)。由于數(shù)據(jù)許可限制,KEGG路徑的最新GMT文件目前無法免費(fèi)提供。

      Pathway meta-databases

      這些數(shù)據(jù)庫(kù)收集自多個(gè)源通路數(shù)據(jù)庫(kù)的詳細(xì)通路描述。

      • Pathway Commons 45:從其他通路數(shù)據(jù)庫(kù)收集信息并以標(biāo)準(zhǔn)化格式提供。(http://www.)。

      • WikiPathways 48:共同驅(qū)動(dòng)的通路集合,其中還包括來自其他數(shù)據(jù)庫(kù)的通路(http://www./)。


      簡(jiǎn)書:小潔忘了怎么分身

      隔壁生信技能樹公益視頻合輯(學(xué)習(xí)順序是linux,r,軟件安裝,geo,小技巧,ngs組學(xué)!)

      國(guó)內(nèi)看B站,教學(xué)視頻鏈接:https://m.bilibili.com/space/338686099 
      國(guó)外看YouTube,教學(xué)視頻鏈接:https://m./channel/UC67sImqK7V8tSWHMG8azIVA/playlists 



        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多