1. 為什么我們要進(jìn)行Normalization
![]() 基因X和Y的真實(shí)表達(dá)量是一致的,但是基因X的reads會(huì)比基因Y要多,這是由于基因X的基因長度較長所致的。
除了上述兩個(gè)主要因素外,還會(huì)有其他因素對(duì)read counts的檢測(cè)有所影響,例如轉(zhuǎn)錄組的組成,GC含量,random hexamers引起的測(cè)序偏好等等。由于上述因素的存在,導(dǎo)致在不同樣本間使用read counts 進(jìn)行比較是不太現(xiàn)實(shí)的,人們便提出了許多對(duì)read counts進(jìn)行Normalization的方法。 2. Normalization方法
Read count 2.1 CPM:Counts per million數(shù)值概念:計(jì)算公式:CPM= A/mapped reads*1000000 A為比對(duì)到某基因的reads數(shù)(read count)。 用途:在某些情況下,只想了解每個(gè)基因被覆蓋到的相對(duì)reads數(shù),而不希望對(duì)其做長度校正,就會(huì)使用這個(gè)指標(biāo)。 用總reads進(jìn)行均一化是最簡(jiǎn)單的方法,其基于以下兩個(gè)基本假設(shè): 2.2 RPKM:Reads Per Kilobaseof exon model per Million mapped reads (每千個(gè)堿基的轉(zhuǎn)錄每百萬映射讀取的reads)數(shù)值概念:計(jì)算公式:RPKM=(1000000*A)/( mapped reads *gene length/1000) RPKM法能消除基因長度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,計(jì)算得到的基因表達(dá)量可直接用于比較不同樣品間的基因表達(dá)差異和不同基因間表達(dá)高低的比較。 用途:用于與基因表達(dá)量相關(guān)的后期分析。基因表達(dá)趨勢(shì)分析、WGCNA共表達(dá)網(wǎng)絡(luò)構(gòu)建,熱圖繪制等都使用。 2.3 FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千個(gè)堿基的轉(zhuǎn)錄每百萬映射讀取的fragments)![]() cDNA Fragments:比對(duì)到某一轉(zhuǎn)錄本上的片段數(shù)目,即雙端Reads數(shù)目,針對(duì)雙端數(shù)據(jù);Mapped Fragments (Millions):比對(duì)到轉(zhuǎn)錄本上的片段總數(shù),以百萬為單位,即10^6;Transcript Length(kb):轉(zhuǎn)錄本長度,kb為單位,即10^3。
FPKM意義與RPKM極為相近。二者區(qū)別僅在于,F(xiàn)ragment與Read。RPKM的誕生是針對(duì)早期的SE測(cè)序,F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。只要明確Reads和Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機(jī)后fastq數(shù)據(jù)中的每一條Reads,F(xiàn)ragments則是指每一段用于測(cè)序的核酸片段【雙端序列即使丟棄1端reads,讓按照1個(gè)Fragments計(jì)算】。 ![]() 2.4 TPM:Transcripts per millionTPM is like RPKM and FPKM, except the order of operations is switched. ![]() TPM公式
![]() 先用count值除以基因長度
![]() count值除以基因長度/每個(gè)樣本的count值除以基因長度的加和
同RPKM一樣,TPM對(duì)基因的長度進(jìn)行了校正,計(jì)算比對(duì)到基因上的reads/基因長度得到長度校正的表達(dá)量 reads per kilobase (RPK)。再以文庫中RPK之和作為Scale Factor求出TPM。 相比于RPKM使用read counts之和來作為文庫校正因子,TPM使用RPK之和作為文庫校正因子的好處是考慮了不同樣本間的基因長度的分布。因?yàn)镽PK是一個(gè)對(duì)基因長度進(jìn)行校正后的表達(dá)量單位,所以RPK之和也不會(huì)再帶入基因長度的bias。因此,如果需要比較的樣本之間轉(zhuǎn)錄本分布不一致時(shí)(例如不同物種RNA-seq的比較),使用TPM是一個(gè)較佳的Normalization方案。 3. 各種值的使用場(chǎng)合??
|
|