乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      RNA

       ypgao 2018-04-13
      差異分析的步驟:
      1)比對;
      2read count計(jì)算;
      3read count的歸一化;

      4)差異表達(dá)分析;

      背景知識:
      1)比對:
      普通比對: BWA,SOAP
      開大GAP比對:TophatBowtie2);
      2Read count(多重比對的問題):
      丟棄
      平均分配
      利用Unique region估計(jì)并重新分配
      表達(dá)量計(jì)算的本質(zhì)
      目標(biāo)基因表達(dá)量相對參照系表達(dá)量的數(shù)值。
      參照的本質(zhì):
      1)假設(shè)樣本間參照的信號值應(yīng)該是相同的;
      2)將樣本間參照的觀測值校正到同一水平;
      3)從參照的數(shù)值,校正并推算出其他觀測量的值。 
      例如:Qpcr:目標(biāo)基因表達(dá)量(循環(huán)數(shù))相對看家基因表達(dá)量(循環(huán)數(shù));RNA-seq:目標(biāo)基因的表達(dá)量(測序reads數(shù)),相對樣本RNA總表達(dá)量(總測序量的reads數(shù)),這是最常用的標(biāo)準(zhǔn)。
      歸一化的原因及處理原則:
      1)基因長度
      2)測序量
      3)樣本特異性(例如,細(xì)胞mRNA總量,污染等)前兩者使用普通的RPKM算法就可以良好解決,關(guān)鍵是第三個問題,涉及到不同的算法處理。 
      RNA-Seq歸一化算法的意義:
      基因表達(dá)量歸一化:在高通量測序過程中,樣品間在數(shù)據(jù)總量、基因長度、基因數(shù)目、高表達(dá)基因分布甚至同一個基因的不同轉(zhuǎn)錄本分布上存在差別。因此不能直接比較表達(dá)量,必須將數(shù)據(jù)進(jìn)行歸一化處理。 
      RNA-seq差異表達(dá)分析的一般原則
      1)不同樣品的基因總表達(dá)量相似
      2)上調(diào)差異表達(dá)與下調(diào)差異表達(dá)整體數(shù)量相似(上下調(diào)差異平衡)
      3)在兩組樣品中不受處理效應(yīng)影響的基因, 表達(dá)量應(yīng)該是相近的(差異不顯著)。
      4)看家基因可作為表達(dá)量評價(jià)依據(jù)(
      待定 

      不同的算法比較:
      以什么數(shù)值來衡量表達(dá)量:RPKM、FPKM、TPM
      以什么作為參照標(biāo)準(zhǔn):TMMedgeR軟件)、De seq矯正
      RPKM:是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自于某基因每千堿基長度的reads數(shù)。

      本質(zhì):
      1)以reads數(shù)為計(jì)算單位;
      2)對基因長度(基因間的比較)和總數(shù)據(jù)量(樣本間的比較)做矯正;
      RPKM的弊端
      1)由于可變剪切,同一基因有效轉(zhuǎn)錄區(qū)域長度未必相同(這個一般情況下可以不考慮,了解一下:Cufflinks軟件考慮了這個問題)優(yōu)化策略:外顯子或轉(zhuǎn)錄本水平的表達(dá)量分析。
      2) 使用reads數(shù)計(jì)算基因表達(dá)量有輕微誤差(這里暫不展開,主要了解一下定義)優(yōu)化策略:FPKMTPM
      3
      mRNA的總量未必相等。 
      RPKM的優(yōu)化:FPKm
       F = Fragment,即測序片段數(shù)量。這些片段都是從完整的cDNA打碎而來的;
      本質(zhì):以文庫中的片段數(shù)量為計(jì)算單位在Paired-end測序中,一個fragment就是兩條PE reads構(gòu)成的片段。由于是PE比對,理論上比SE比對更可靠。 
      RPKM的優(yōu)化:TPM
      T = Transcripts
      本質(zhì):以轉(zhuǎn)錄本的條數(shù)為計(jì)算單位。使用轉(zhuǎn)錄本的條數(shù)(或者說:轉(zhuǎn)錄本的測序深度),代替reads數(shù),在一定條件下定量更準(zhǔn),尤其樣本間表達(dá)基因總數(shù)差異很大的時候(例如,對照樣本有1萬個基因表達(dá),另外處理組僅有4000個基因表達(dá))。 
      mRNA總量未必相等
      mRNA總量不等——細(xì)胞本身不同
      例如:活躍組織vs休眠的組織;癌細(xì)胞vs正常細(xì)胞
      mRNA總量不等——污染
      例如:核糖體污染外源RNA污染 
      解決方法——不同算法比較
      其中歸一化算法介紹:
      1Total CountTC):總reads數(shù)矯正
      2Upper QuartileUQ):上四分之一分位數(shù)(總reads
      矯正
      3MedianMed);中位數(shù)(總reads數(shù))矯正
      4Quantile (Q):基因芯片軟件limma中的校正算法;
      5RPKM:總reads數(shù),但引入了基因長度
      6)幾何平均數(shù):Deseq軟件中的算法;
      7TMMedgeR軟件中的算法;
      8RPKM
      邏輯1:不同位置數(shù)值的穩(wěn)定性不同

      四分位數(shù)quartile:將數(shù)據(jù)按從小到大排列,并分成四等分,這樣得到3個分割點(diǎn),第一個分割點(diǎn)叫做lowerquartile,第二個叫Media,第三個叫Upper quartile
      很顯然,極大值具有極大不穩(wěn)定性,而且可能會顯著影
      響總體之和(假設(shè),我們之中有個馬云,我們的總收入
      有什么變化?)
       所以,Upper quartileMedian的數(shù)值,比總表達(dá)量之
      和更加穩(wěn)定,更適合作為參照。

      邏輯2:表達(dá)量居中的基因的表達(dá)量值,其數(shù)值應(yīng)該是相似的。
      DESeqedgeR,默認(rèn)情況下都使用這一的邏輯校正。(DESeq and edgeR Bioconductor packages 
      Deseq:異常高表達(dá)的基因,會顯著影響細(xì)胞中的總mRNA的數(shù)量。類似的,如果樣本中受到不同程度的外源RNA,如病毒、真菌等的污染,也會顯著影響樣本總mRNA數(shù),導(dǎo)致RPMK值的誤差。對于這樣的問題,Deseq嘗試對數(shù)據(jù)進(jìn)行矯正(矯正因子),使表達(dá)量處于中間位置的基因表達(dá)量應(yīng)該是基本相同的(即使用表達(dá)量處于中間的基因表達(dá)量值作為參照,而減少高表達(dá)基因的作用)。 
      Deseq: 校正因子=樣本表達(dá)中位數(shù)/所有樣本表達(dá)量中位數(shù):回答了一個關(guān)鍵的問題:Deseq不同差異比較組間,計(jì)算得到的表達(dá)量值不同。因
      為樣本在變化,“所有樣本表達(dá)量的中位數(shù)”也在變動。
      RPKM:總表達(dá)量為參照
      Deseq:中位數(shù)為參照 

      TMMedgeR):Deseq類似,在去除高表達(dá)基因和差異最大的基因后,TMM也是要找到一個加權(quán)系數(shù),使剩余的基因在被矯正后差異倍數(shù)可能小。TMM的加權(quán)系數(shù)是基于兩兩樣本比較后推算獲得的(也就是兩組樣本的比較,將產(chǎn)生與這次比較相關(guān)的加權(quán)系數(shù))。然后將所有基因除以這個加權(quán)系數(shù),從而保證大部分表達(dá)量居中的基因表達(dá)量最相似。 
      不同RNA-seq表達(dá)量歸一化算法的區(qū)別
      Deseq類的校正算法:理論上更加穩(wěn)定;但不同批次的比較會得到不同的表達(dá)量值,不利于進(jìn)行多處理組/批次數(shù)據(jù)的統(tǒng)一分析(例如,趨勢分析、共表達(dá)分析)校正會掩蓋一些問題(例如:樣本污染)
      RPKM類的算法: 容易受異常高表達(dá)基因、外源污染等的干擾;但也更容易從結(jié)果的異常中,發(fā)現(xiàn)潛在問題;得到的表達(dá)量值是恒定的,多處理組/批次的數(shù)據(jù)可以合并分析。折中的方法:使用RPKM類的算法,但需要人工檢查數(shù)據(jù)是否
      異常。備注:
      Deseq軟件也可以關(guān)閉校正的功能。

      實(shí)際經(jīng)驗(yàn)總結(jié)
      總之:從多方面考慮,RPKM類算法,如果合理使用,依然是最優(yōu)的。具體問題具體分析:在遇到問題的時候,找到問題的來源,從而給出解決方案(沒有完美的流程,只有最佳解決方案)












        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多