目錄
1. 標準化![]() 由于不同文庫測序深度不同,比較前當然要進行均一化!用總reads進行均一化可能最簡單,其基于以下兩個基本假設(shè):
但在轉(zhuǎn)錄組中,通常一小部分極高豐度基因往往會貢獻很多reads,如果這些“位高權(quán)重”的基因還是差異表達的,則會影響所有其它基因分配到的reads數(shù),而且,兩個樣本總mRNA量完全相同的前提假設(shè)也過于理想了。那如何比較呢,各個方家使出渾身解數(shù),有用中位數(shù)的,有用75分位數(shù)的,有用幾何平均數(shù)的,有用TMM(trimmed mean of Mvalues)的等等,總之要找一個更穩(wěn)定的參考值。 1.1. House-keeping gene(s)矯正的思路很簡單,就是在變化的樣本中尋找不變的量 那么在不同RNA-seq樣本中,那些是不變的量呢?一個很容易想到的就是管家基因 (House-keeping gene(s)) 那么 Human 常用的 House-keeping gene 怎么確定? 目前大家用的比較多的一個human housekeeping gene list 來源于下面這篇文章,是2013年發(fā)表在 Cell系列的 Trends in Genetics 部分的一篇文章 1.2. spike-in使用Housekeeping gene的辦法來進行相對定量,這種辦法在一定程度上能夠解決我們遇到的問題。但其實這種辦法有一個非常強的先驗假設(shè):housekeeping gene的表達量不怎么發(fā)生變化。其實housekeeping gene list有幾千個,這幾千個基因有一定程度上的變化是有可能的 spike-in方法:在RNA-Seq建庫的過程中摻入一些預(yù)先知道序列信息以及序列絕對數(shù)量的內(nèi)參。這樣在進行RNA-Seq測序的時候就可以通過不同樣本之間內(nèi)參(spike-in)的量來做一條標準曲線,就可以非常準確地對不同樣本之間的表達量進行矯正 比較常用的spike-in類型:ERCC Control RNA
1.3. CPMCPM(count-per-million) 1.4. TCS (Total Count Scaling)簡單來說,就是找出多個樣本中l(wèi)ibrary size為中位數(shù)的樣本,作為參考樣本,將所有的樣本的library size按比例縮放到參考樣本的水平 選擇一個library size為中位數(shù)的sample,以它為baseline,計算出其它sample對于baseline的normalization factor,即一個縮放因子: 然后基于該縮放因子對特定的sample中的每個基因的read count進行標準化(縮放): 1.5. Quantile簡單來說,就是排序后求平均,然后再回序 ![]() 在R里面,推薦用preprocessCore 包來做quantile normalization,不需要自己造輪子啦! 1.6. Median of Ratio (DESeq2)該方法基于的假設(shè)是,即使處在不同條件下的不同個樣本,大多數(shù)基因的表達是不存在差異的,實際存在差異的基因只占很小的部分那么我們只需要將這些穩(wěn)定的部分找出來,作為標準化的內(nèi)參,依據(jù)內(nèi)參算出各個樣本的標準化因子 (1)對每個基因計算幾何平均數(shù),得到一個假設(shè)的參考樣本(pseudo-reference sample)
(2)對每個樣本的每個基因?qū)τ趨⒖紭颖居嬎鉌old Change
![]() (3)獲取每個樣本中Fold Change的中位數(shù),我們就得到了非DE基因代表的Fold Change,該基因就是我們選擇的該樣本的內(nèi)參基因,它的Fold Change就是該樣本的標準化因子
1.7. TMM (Trimmed Mean of M value, edgeR)該方法的思想與DESeq2的Median of Ratio相同,假設(shè)前提都是:大多數(shù)基因的表達是不存在差異的 它與DESeq2的不同之處在于對內(nèi)參的選擇上:
(1)移除所有未表達基因 (2)從眾多樣本中找出一個數(shù)據(jù)趨勢較為平均的樣本作為參考樣本
![]() (3)找出每個樣本中的代表基因集,參考這些代表基因集的fold change,計算出該樣本的標準化因子 尋找樣本的代表基因集:依據(jù)基因的偏倚程度和Reads數(shù)大小選出——偏倚程度小、reads數(shù)居中的基因
由參考代表基因集計算樣本的標準化因子:
2. 為什么說FPKM和RPKM都錯了?2.1. FPKM和RPKM分別是什么FPKM和RPKM分別是什么
這兩個量的計算方式的目的是為了解決計算RNA-seq轉(zhuǎn)錄本豐度時的兩個bias:
2.2. 什么樣才算好的統(tǒng)計量首先,到底什么是RNA轉(zhuǎn)錄本的表達豐度這個問題 對于樣本X,其有一個基因g被轉(zhuǎn)錄了mRNA_g次,同時樣本X中所有基因的轉(zhuǎn)錄總次數(shù)假定是mRNA_total, 那么正確描述基因g轉(zhuǎn)錄豐度的值應(yīng)該是: 則一個樣本中基因表達豐度的均值為 而 所以 這個期望值竟然和測序狀態(tài)無關(guān)!僅僅由樣本中基因的總數(shù)所決定的 也就是說,對于同一個物種,不管它的樣本是哪種組織(正常的或病變的),也不管有多少個不同的樣本,只要它們都擁有相同數(shù)量的基因,那么它們的r_mean都將是一致的 由于上面的結(jié)果是在理論情況下推導(dǎo)出來的,實際上我們無法直接計算這個r,那么我們可以嘗試通過其他方法來近似估計r,只要這些近似統(tǒng)計量可以隱式地包含這一恒等關(guān)系即可 2.3. FPKM和RPKM犯的錯實際數(shù)據(jù)來證明
究竟為什么會有如此之大的差異? 可以從其公式上找到答案
2.4. TPM是一個合適的選擇這個統(tǒng)計量在2012年所發(fā)表的一篇討論RPKM的文章(RPKM measure is inconsistent among samples. Wagner GP, Kin K, Lynch VJ. Theory Biosci. 2012.)中就被提出來了,稱之為TPM —— Transcripts Per Million,它的計算是: 簡單計算之后我們就可以發(fā)現(xiàn)TPM的均值是一個獨立于樣本之外的恒定值,它等于: 這個值剛好是r_mean的一百萬倍,滿足等價描述的關(guān)系。 參考資料: (1) 孟浩巍《生物信息學100個基礎(chǔ)問題 —— 第38題 當轉(zhuǎn)錄組普遍變化時RNA-Seq怎么進行分析(1)?》 (2) 孟浩巍《生物信息學100個基礎(chǔ)問題 —— 第38題 當轉(zhuǎn)錄組普遍變化時RNA-Seq怎么進行分析(2)?》 (3) 【生信菜鳥團】quantile normalization到底對數(shù)據(jù)做了什么? (5) 生信菜鳥團:StatQuest生物統(tǒng)計學專題 - library normalization進階之edgeR的標準化方法 |
|