乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      生信編程直播第七題:寫超幾何分布檢驗(yàn)!

       健明 2021-07-14

      下載數(shù)據(jù)

      切換到工作目錄:cd d/生信技能樹-視頻直播/第七講

      • kegg2gene(第六講kegg數(shù)據(jù)解析結(jié)果)

        暫時(shí)不用新的kegg注釋數(shù)據(jù)為了能夠統(tǒng)一答案

      • 差異基因list和背景基因list


      關(guān)于背景基因

      • 收集一 
        凡是富集分析,都要有背景和選擇集 
        有參的,那就找參考對(duì)應(yīng)的注釋信息,作為背景 
        無參的,那就自己注釋,得到背景

      • 收集二 
        其實(shí)pathway富集分析本身也只是提供一些參考,并非非要富集不可。因?yàn)槟承﹑athway的調(diào)控,基因直接并非相互調(diào)控,而是共同參與某個(gè)產(chǎn)物合成過程中的不同步驟。例如,某代謝性物X的合成,需要合成酶 A、B、C、D 四個(gè)合成步驟。那么A表達(dá)的變化,并不會(huì)直接影響B(tài)、C、D基因的表達(dá),只是影響代謝物X的合成量。如果沒有富集到,你就當(dāng)這個(gè)是基因注釋了,討論這些落在你感興趣的pathway中的基因,也是一種策略。


      題目要求

      利用超幾何分布檢驗(yàn)自己寫代碼來完成主流的GO/KEGG的富集分析,得到與以下一致的結(jié)果: 


      超幾何分布

      超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了由有限個(gè)物件中抽出n個(gè)物件,成功抽出指定種類的物件的次數(shù)(不歸還)。稱為超幾何分布,是因?yàn)槠湫问脚c“超幾何函數(shù)”的級(jí)數(shù)展式的系數(shù)有關(guān)。 


      基因Pathway和GO富集分析

      基因富集分析是分析基因表達(dá)信息的一種方法,富集是指將基因按照先驗(yàn)知識(shí),也就是基因組注釋信息進(jìn)行分類。 通過差異基因的Pathway富集分析,可以找到富集的差異基因的Pathway,尋找不同樣品的差異基因可能與哪些細(xì)胞通路的改變相關(guān)。 
      通過對(duì)差異基因的GO富集分析,可以找到富集的差異基因GO項(xiàng),尋找不同樣品的差異基因可能與哪些基因功能的改變相關(guān)。 對(duì)差異基因進(jìn)行GO和Pathway富集分析后,再進(jìn)行Network構(gòu)建,定位基因的功能和其參與的信號(hào)通路,并進(jìn)行清晰直觀的展示。

      • GO富集分析: 
        Gene Ontology(簡稱GO)是一個(gè)國際標(biāo)準(zhǔn)化的基因功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來全面描述生物體中基因和基因產(chǎn)物的屬性。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular function)、細(xì)胞組分(cellular component)、參與的生物過程(biological process)。GO的基本單位是term(詞條、節(jié)點(diǎn)),每個(gè)term都對(duì)應(yīng)一個(gè)屬性。 GO功能分析一方面給出差異表達(dá)基因的GO功能分類注釋;另一方面給出差異表達(dá)基因的GO功能顯著性富集分析。 首先,我們將差異表達(dá)基因向GO數(shù)據(jù)庫(http://www./)的各term映射,并計(jì)算每個(gè)term的基因數(shù),從而得到具有某個(gè)GO功能的基因列表及基因數(shù)目統(tǒng)計(jì)。然后應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著富集的GO條目。

      • 其中,N為所有Unigene中具有GO注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定GO term的基因數(shù)目;m為注釋為某特定GO term的差異表達(dá)基因數(shù)目。計(jì)算得到的pvalue通過FDR校正之后,以corrected-pvalue≤0.05為閾值,滿足此條件的GO term定義為在差異表達(dá)基因中顯著富集的GO term。
      • KEGG富集分析: 
        Pathway顯著性富集分析以KEGG Pathway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著性富集的Pathway。 
        該假設(shè)檢驗(yàn)的p-value計(jì)算公式同GO功能顯著性富集分析的相同,在這里N為所有Unigene中具有Pathway注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有Unigene中注釋為某特定Pathway的基因數(shù)目;m為注釋為某特定Pathway的差異表達(dá)基因數(shù)目。


      超幾何分布檢驗(yàn)的富集分析

      一般做完超幾何概率分布,對(duì)得到的p值進(jìn)行校正;

      也可以查看歷史題目:

      生物信息學(xué)技能面試題(第1題)-人類基因組的外顯子區(qū)域到底有多長

      生物信息學(xué)技能面試題(第2題)-探索人類基因組序列

      生物信息學(xué)技能面試題(第3題)-探索人類基因組注釋文件

      生物信息學(xué)技能面試題(第4題)-多個(gè)同樣的行列式文件合并起來

      生物信息學(xué)技能面試題(第5題)-根據(jù)GTF畫基因的多個(gè)轉(zhuǎn)錄本結(jié)構(gòu)

      生物信息學(xué)技能面試題(第6題)-下載最新版的KEGG信息,并且解析好

      用GenePred注釋文件進(jìn)行數(shù)據(jù)分析 (這個(gè)是前5題的答案)

      這些題目都是有配套的python和perl視頻講解的,部分還有R和shell的視頻講解,不過,我覺得這些題目本身才是最重要的!

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多