在轉(zhuǎn)錄組測序(RNA-Seq)中,基因的表達量是我們關(guān)注的重點。基因表達量的衡量指標有:RPKM、FPKM、TPM。 RPKM:Reads Per Kilobase Million;說實話,這個英文說明真的很費解,其實可以理解為“Reads Per Kilobase Per Million Reads”?,即“每一百萬條Reads中,對基因的每1000個Base而言,比對到該1000個base的Reads數(shù)”,計算公式為: RPKM=待編輯(暈,不會編輯公式,先占個坑)? FPKM:Fragments per Kilobase Million,F(xiàn)PKM意義與RPKM極為相近。二者區(qū)別僅在于,F(xiàn)ragment 與 Read。RPKM的誕生是針對早期的SE測序,F(xiàn)PKM則是在PE測序上對RPKM的校正。只要明確?Reads 和 Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機后fastq數(shù)據(jù)中的每一條Reads,F(xiàn)ragments則是指每一段用于測序的核酸片段,在SE中,一個Fragments只測一條Reads,所以,Reads數(shù)與Fragments數(shù)目相等;在PE中,一個Fragments測兩端,會得到2條Reads,但由于后期質(zhì)量或比對的過濾,有可能一個Fragments的2條Reads最后只有一條進入最后的表達量分析??傊?,對某一對Reads而言,這2條Reads只能算一個Fragments,所以,F(xiàn)ragment的最終數(shù)目是Reads的1到2倍之間。(后面找時間畫個圖示意下) TPM:?Transcripts Per Million,這個英文也很費解。先不糾結(jié)字面意思了,直接解釋它的計算方法。TPM的計算分3步: step1:根據(jù)基因/轉(zhuǎn)錄本長度?校正count值;假設(shè)某基因count值為R1,則校正后count值為: R1/(L1/1000)?; 注: L1為該基因的長度; step2:計算total 校正后count值;即所有基因的校正后count值?總和,Rtotal; step3:計算TPM;TPM?結(jié)果為: R1*1000*1000000/(L1*?Rtoatl)。 計算完畢。 (圖形說明三者差異,待補充)? |
|
來自: ypgao > 《數(shù)據(jù)庫》