RNA-seq是一種基因表達量測定方法。簡單來說,樣品中的RNA反轉錄后進行量測序,將得到的reds比對到參考序列上,來計算基因的表達量。但是,

樣品間在數據總量、基因長度、基因數目、高表達基因分布甚至同一個基因的不同轉錄本分布上都有差別。因此不能直接比較表達量,而是必須將數據進行歸一化處理。 假陽性率: 重要的評價指標,表達相近的基因被誤認為是差異表達的基因 假陰性率: 重要指標,差異表達的基因沒有被找出的比例。 所以,RNA-seq找差異表達分析時理應遵循以下幾項原則: 樣品間沒有整體表達量上的差異 正向差異表達與負向差異表達整體趨勢相近(正負差異平衡) 在二個樣品中表達量相同(無關處理)的基因不應被標記為差異基因(不應出現假陽性) 看家基因可作為表達量評價依據(待定)
ok,現在終于進入正題,高出鏡率的RPKM,公式如下:
作為最廣泛使用的歸一化算法,RPKM卻有很多弊端: 基因表達平衡問題 現象:個別表達量很高的基因,會引起其他低表達量的差異假陽性。 原因:假設2個樣品A、B,二者差異表達的只有一個基因,差異量為rDE.由于數據量R相同,B的平均測序深度必將降低。 則對于某個相同表達的基因g: 則A的RPKMg=(rg*109)/(flg*R); 且B的RPKMg =((rg*R/(R+ rDE )*109)/(flg*R); 二者顯然不同(一般認為rDE<<R情況下可以無視) 基因數的影響 現象:二個樣品檢測到的基因數不同,會影響RNA-seq結果。 原因:如樣品A表達12000個基因,樣品B則表達10000個基因。則只在A中表達的基因2000個必定是差異表達基因(相對B中表達量為0)。但樣品總reads不一定A>B,因為其他基因的表達量差異未知。 如果其他基因的表達量相差不大,則結果如1中情況。 轉錄本的問題 現象:兩個相同表達的基因呈現差異假陽性 原因:可變剪接的存在讓一個基因存在多個不同的轉錄本,兩個樣品中總體相對較短(含有較多的短轉錄本)的轉錄本的表達量較少。 解決方法: (一)只統(tǒng)計基因開頭的序列READS (二)找出reads對基因的覆蓋度,并將影響算出
所以,即然RPKM有這么多弊端,有沒有其他參數來替代,當然有! RPKM的優(yōu)化版本——TPM 公式是下面這樣的, 設Qg = (rg*rl)/flg;則TPM = Qg/∑Qg ( ∑Qg等于上式中的T) rg:基因g的reads數 ;rl:(總長度∑flg)L/(總reads數)R; flg:基因的長度。 可知Qg的意義是: (大部分人看到上面這幾個公式都凌亂了,but,你只要記住下面這句話就可以了,學霸除外……) 由此可知,TPM概括了基因的長度、表達量和基因數目。  對單一人體細胞樣本的TPM與RPKM結果數值間的比較

對人不同類型的細胞和雞細胞樣品間 TPM與RPKM結果數值比較 可以看出,對單一的樣本,TPM與RPKM的結果基本上是一致的。而對于同一物種不同樣本,TPM與RPKM比例f有變化(最多14%),而不同物種間無可比性。 
上圖描述的是用TPM與RPKM分析兩種人體細胞樣品的表達量差異,所得結果進行t檢驗后得到的p值的分布??梢钥吹剑琑PKM相對TPM,明顯較高P值的差異結果較多。說明RPKM可能引入了人為的表達量差異。

|