乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      RPKM與TPM ,you choose who?

       微笑如酒 2019-03-17

      RNA-seq是一種基因表達量測定方法。簡單來說,樣品中的RNA反轉錄后進行量測序,將得到的reds比對到參考序列上,來計算基因的表達量。但是,


      樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上都有差別。因此不能直接比較表達量,而是必須將數據進行歸一化處理。

      丟出兩個概念

      假陽性率:

      重要的評價指標,表達相近的基因被誤認為是差異表達的基因

      假陰性率:

      重要指標,差異表達的基因沒有被找出的比例。

      差異表達分析原則

      所以,RNA-seq找差異表達分析時理應遵循以下幾項原則:

      1. 樣品間沒有整體表達量上的差異

      2. 正向差異表達與負向差異表達整體趨勢相近(正負差異平衡)

      3. 在二個樣品中表達量相同(無關處理)的基因不應被標記為差異基因(不應出現假陽性)

      4. 看家基因可作為表達量評價依據(待定)

      RPKM

      ok,現在終于進入正題,高出鏡率的RPKM,公式如下:

      作為最廣泛使用的歸一化算法,RPKM卻有很多弊端:

      1. 基因表達平衡問題

        現象:個別表達量很高的基因,會引起其他低表達量的差異假陽性。

        原因:假設2個樣品A、B,二者差異表達的只有一個基因,差異量為rDE.由于數據量R相同,B的平均測序深度必將降低。

        則對于某個相同表達的基因g:

        則A的RPKMg=(rg*109)/(flg*R);

        且B的RPKMg =((rg*R/(R+ rDE )*109)/(flg*R);

        二者顯然不同(一般認為rDE<<R情況下可以無視)

      2. 基因數的影響

        現象:二個樣品檢測到的基因數不同,會影響RNA-seq結果。

        原因:如樣品A表達12000個基因,樣品B則表達10000個基因。則只在A中表達的基因2000個必定是差異表達基因(相對B中表達量為0)。但樣品總reads不一定A>B,因為其他基因的表達量差異未知。

        如果其他基因的表達量相差不大,則結果如1中情況。

      3. 轉錄本的問題

        現象:兩個相同表達的基因呈現差異假陽性

        原因:可變剪接的存在讓一個基因存在多個不同的轉錄本,兩個樣品中總體相對較短(含有較多的短轉錄本)的轉錄本的表達量較少。

        解決方法:

        (一)只統(tǒng)計基因開頭的序列READS

        (二)找出reads對基因的覆蓋度,并將影響算出

      TPM

      所以,即然RPKM有這么多弊端,有沒有其他參數來替代,當然有!

      RPKM的優(yōu)化版本——TPM

      公式是下面這樣的,

      設Qg = (rg*rl)/flg;則TPM = Qg/∑Qg ( ∑Qg等于上式中的T)

      rg:基因g的reads數 ;rl:(總長度∑flg)L/(總reads數)R;

      flg:基因的長度。

      可知Qg的意義是:

      (大部分人看到上面這幾個公式都凌亂了,but,你只要記住下面這句話就可以了,學霸除外……)

      由此可知,TPM概括了基因的長度、表達量和基因數目。

      TPM與RPKM算法比較


      對單一人體細胞樣本的TPM與RPKM結果數值間的比較

      對人不同類型的細胞和雞細胞樣品間

      TPM與RPKM結果數值比較

      可以看出,對單一的樣本,TPM與RPKM的結果基本上是一致的。而對于同一物種不同樣本,TPM與RPKM比例f有變化(最多14%),而不同物種間無可比性。


      上圖描述的是用TPM與RPKM分析兩種人體細胞樣品的表達量差異,所得結果進行t檢驗后得到的p值的分布??梢钥吹剑琑PKM相對TPM,明顯較高P值的差異結果較多。說明RPKM可能引入了人為的表達量差異。

      總結:

      RPKM及TPM的特點是考慮了基因長度,但是從實驗結果看起來,基因長度對RNA-Seq差異比較結果并無極大影響。

      從假陽性比較圖看來,RPKM與其他算法的差異極大,而且假陽性整體偏高,因其受不同樣品表達量影響太大。


      (當差異基因所占總體比例提高a(0%-30%)、b(5%-30%)時,各歸一化算法與原始數據的a假陽性率和bPOWER變化趨勢)

      從上圖結果可以看出,各算法與原始數據相比,在POWER上均相似,而假陽性率則有較大差別。

      最后除了RPKM與TPM還有其他算法, 比如TMM、DESequ、UQ、Med等算法,每種算法都有各自特點??偟膩碚f,沒有完美的算法,只有適合與否的算法。嗯。


        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多