乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      生物功能富集分析方法梳理

       ypgao 2018-03-03

      在高通量測(cè)序的生物信息分析服務(wù)中,基本提供的都是一套流程化的服務(wù)。雖然我們天天說(shuō)個(gè)性化服務(wù),但是真正能提出個(gè)性化服務(wù)的人寥寥無(wú)幾。多數(shù)人停留在能看懂圖表的程度上(這個(gè)程度其實(shí)真心不錯(cuò)了呢),但是對(duì)于其背后的意義了解的不夠多,所以才無(wú)法提出真正適合自己的個(gè)性化分析要求。從今天開始,小編就講講生信分析內(nèi)容后面的原理,水平有限,小伙伴們湊合看,有磚輕拍,可以扔雞蛋。這樣小編就有飯吃了,笑。飯是一口一口吃滴,路是一步一步走滴,今天先說(shuō)說(shuō)最基礎(chǔ)的生物功能富集分析。

      在表達(dá)分析中,包括芯片表達(dá)譜和RNA-seq,我們能得到海量的數(shù)據(jù)。將其表達(dá)量進(jìn)行歸一處理后(以前小編有講過(guò)表達(dá)量計(jì)算這個(gè)問題),基于一個(gè)cutoff值,我們能收獲成堆的差異基因。此處關(guān)鍵的步驟在于獲得的成百上千的差異基因要怎么處理?我們就可以基于生物功能富集分析,將其歸納到生物學(xué)通路上,以此為基礎(chǔ),揭示和理解生物學(xué)過(guò)程的基本分子機(jī)制,為后續(xù)研究指明方向。



       

      生物功能富集到現(xiàn)在,經(jīng)歷多年的發(fā)展,也在不斷的進(jìn)步。

      第一代過(guò)代表分析方法(ORA),這類方法以 Fisher's exact test 為代表。它的輸入數(shù)據(jù)是一個(gè)由差異基因構(gòu)成的列表,這些基因之間相互平等,沒有權(quán)重。即其針對(duì)的數(shù)據(jù)是一組感興趣的基因(基因列表),其目的是在這組基因中發(fā)現(xiàn)有明顯統(tǒng)計(jì)學(xué)上富集的基因功能集。

      第二代功能集打分方法(FCS),這類方法以 GSEA 為代表。它不僅要輸入基因列表,而且需要賦予每個(gè)基因一個(gè)感興趣的統(tǒng)計(jì)量。一般是t統(tǒng)計(jì)量或者Fold Change之類。

      第三代基于通路拓?fù)浣Y(jié)構(gòu)分析方法(PT),以 SPIA 為代表。它的輸入需要在第一代或第二代方法的基礎(chǔ)上,結(jié)合實(shí)際的生物信號(hào)通路的拓?fù)浣Y(jié)構(gòu),就是需要提供例如,C基因在A和B基因上游,激活A(yù),且抑制B,這類信息。存在的主要問題,一個(gè)是已知的生物數(shù)據(jù)不完整,再一個(gè)是模型復(fù)雜,抗干擾能力差。輸入的一點(diǎn)兒擾動(dòng)可能就是完全不一樣的結(jié)果。對(duì)了,最常用的GO等注釋數(shù)據(jù)庫(kù)中基因功能集中不包含任何拓?fù)浣Y(jié)構(gòu)信息,僅提供了可能屬于同一通路的所有基因列表。因而,PT 方法不能被用于GO通路的富集分析。

      現(xiàn)在還有基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的NT方法。利用數(shù)據(jù)庫(kù)中的基因相互作用關(guān)系來(lái)間接地把基因的生物學(xué)屬性整合入功能的富集分析。這些方法的主要思路是利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò)。此類富集方法出現(xiàn)時(shí)間較短,目前還不是主流,不多介紹啦。小伙伴們持續(xù)關(guān)注即可。

      今天主要介紹第一代和第二代方法。

      第一代ORA方法是目前最為廣泛的方法,目前常見的KEGG富集分析,GO富集分析等等本質(zhì)上都是此類方法。此類方法基于經(jīng)典統(tǒng)計(jì)學(xué)的檢驗(yàn)方法。其基本步驟包括先將給定的基因列表與待測(cè)功能集做交集,找出其中共同的基因并進(jìn)行計(jì)數(shù),最后利用統(tǒng)計(jì)檢驗(yàn)的方式來(lái)評(píng)估觀察的計(jì)數(shù)值是否顯著高于隨機(jī),即待測(cè)功能集在基因列表中是否顯著富集. 常見的統(tǒng)計(jì)學(xué)方法有卡方檢驗(yàn),F(xiàn)isher 精確檢驗(yàn)和二項(xiàng)分布檢驗(yàn)。最為廣泛使用的是 Fisher精確檢驗(yàn),根據(jù)超幾何分布來(lái)檢驗(yàn)基因列表中的基因在待測(cè)功能集中是否顯著富集。

      在一個(gè)RNA-seq中,得到了20000個(gè)mRNA,計(jì)算表達(dá)量。然后,根據(jù)一個(gè)cutoff值來(lái)確定差異表達(dá)基因。一般我們會(huì)用Fold Change≥2且p≤0.05這樣的標(biāo)準(zhǔn)。根據(jù)此標(biāo)準(zhǔn)篩選,我們得到了200個(gè)上調(diào)差異表達(dá)基因。同時(shí),我們?cè)跀?shù)據(jù)庫(kù)檢索發(fā)現(xiàn)20000個(gè)表達(dá)基因有300個(gè)基因?qū)儆贏通路,200個(gè)差異上調(diào)表達(dá)基因里其中有10個(gè)屬于A通路。我們可以得到如下一個(gè)表格。將除掉總和之后的四個(gè)數(shù)字輸入到軟件中,既可以得到P值。有大批的在線軟件可以實(shí)現(xiàn)。同學(xué)們感興趣的可以試試。




      這時(shí)候我們可以看看A通路是不是在上調(diào)差異基因中具有顯著性,如果是,我們可以認(rèn)為在此實(shí)驗(yàn)條件下A通路上調(diào)表達(dá)。ORA方法基于完備的統(tǒng)計(jì)學(xué)理論,具有結(jié)果穩(wěn)健、可靠。但也有一定的局限性:在對(duì)基因進(jìn)行計(jì)數(shù)時(shí), 丟失了基因的表達(dá)水平或表達(dá)差異值等基因?qū)傩孕畔?;把通路中的所有基因進(jìn)行同等對(duì)待,忽視了基因在通路內(nèi)部生物學(xué)意義的不同及基因間復(fù)雜的相互作用;在獲得感興趣的基因時(shí),往往需要選取合適的閾值。

      FCS 的檢驗(yàn)對(duì)象則是待測(cè)基因功能集中的所有基因。FCS 方法的基本步驟包括:首先對(duì)基因組中所有基因表達(dá)水平的差異值進(jìn)行打分或排序;其次把待測(cè)基因功能集中的每個(gè)基因的分?jǐn)?shù)通過(guò)特定的統(tǒng)計(jì)模型轉(zhuǎn)換為待測(cè)基因功能集的分?jǐn)?shù)或統(tǒng)計(jì)值。最后利用隨機(jī)抽樣獲得的待測(cè)基因功能集統(tǒng)計(jì)值的背景分布來(lái)檢驗(yàn)實(shí)際觀測(cè)的統(tǒng)計(jì)值的顯著水平,并判斷待測(cè)基因功能集在案例和對(duì)照實(shí)驗(yàn)狀態(tài)下是否發(fā)生了統(tǒng)計(jì)上的顯著變化。額,說(shuō)了一大段感覺和沒說(shuō)的區(qū)別不大。

      介紹下常用的一個(gè)工具GSEA。其基本思路是首先基于表達(dá)差異值對(duì)全基因組基因進(jìn)行排序得到基因列表,然后檢驗(yàn)待測(cè)基因功能集中的基因相對(duì)于隨機(jī)情況而言,是否顯著地位于基因列表的頂端或底端,即待測(cè)基因集的表達(dá)水平在案例和對(duì)照實(shí)驗(yàn)狀態(tài)下是否發(fā)生了明顯的變化。本質(zhì)是一個(gè)變種的Kolmogorov-Smirnov檢驗(yàn)。在此插個(gè)題外話,Kolmogorov是一位極其出名的科學(xué)家,曾有人懷疑過(guò)其不是一個(gè)人,而是一個(gè)研究所……



      GSEA的界面長(zhǎng)這樣,嗯,比較丑,所以才沒有流行開來(lái)??茨莻€(gè)色條,這代表了你所得到的mRNA。還是以上面那個(gè)例子為例。此時(shí)這個(gè)色條就是那20000個(gè)mRNA,從紅色到藍(lán)色,表示從上調(diào)到下調(diào)。黑色豎線表示在該位置處的基因?qū)儆贏通路,一共300個(gè)。色條下方有條虛線,我們能看到,在此位置,色條由紅轉(zhuǎn)藍(lán),它表示這這里基因表達(dá)從上調(diào)轉(zhuǎn)變成下調(diào)。在GSEA這個(gè)檢驗(yàn)里面,我們實(shí)際上就是在檢驗(yàn)?zāi)男┖谏Q線是否有往顏色條一端富集的趨勢(shì)。當(dāng)然,這個(gè)圖顯示的和咱們的數(shù)據(jù)例子是反著的,小伙伴們可以扔雞蛋了。

      在FCS方法中,不同方法采用了不同的統(tǒng)計(jì)模型來(lái)計(jì)算待測(cè)基因功能集的統(tǒng)計(jì)值。如 GSEA使用了加權(quán)的近似KS檢驗(yàn),GSA利用基因的表達(dá)差異的t值的絕對(duì)值來(lái)計(jì)算待測(cè)基因功能集的統(tǒng)計(jì)值,PADOG采用基因的t值加權(quán)平均值,Global Test則采用了經(jīng)驗(yàn)貝葉斯廣義線性模型等等。總體而言, FCS 相較于ORA方法在理論上有明顯突破,考慮到了基因表達(dá)值的屬性信息,而且以待測(cè)基因功能集為對(duì)象來(lái)進(jìn)行檢驗(yàn),也使得檢驗(yàn)結(jié)果更加靈敏. 但FCS方法仍然把待測(cè)基因功能集中的每個(gè)基因作為獨(dú)立的個(gè)體,忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系。

      今天主要介紹RNA-seq分析中基礎(chǔ)且關(guān)鍵的生物功能富集。希望大家能夠有所啟發(fā),理解這些檢驗(yàn)方法背后的思想,從而在做自己的數(shù)據(jù)分析時(shí)能夠真正的提出自己的問題,有能力定制適合自己的分析方法。

      文案:崔鵬鵬

      編輯:王   倩


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多