一、數(shù)據(jù)下載 首先打開GEO網(wǎng)站,搜索GSE79737,點(diǎn)擊GPL16570 參考數(shù)據(jù)信息。
可以知道,樣本的第一列是探針信息,gene_assignment是比對上的基因id,不過比對上的id有很多種,這里需要用后面簡單處理下。
按照教程下載
然后打開生信人GEO_Convert.exe工具。
點(diǎn)擊選擇文件讀入GSE79737_family.xml.tgz 注意此處選擇的時(shí)候,要看數(shù)據(jù)列是第二列(一般都是),然后看他其實(shí)是已經(jīng)取過log了。 然后ID處要注意,選擇剛才看到的gene_assignment列。
然后點(diǎn)擊導(dǎo)出樣本信息,導(dǎo)出數(shù)據(jù)矩陣。
三、篩選差異 然后打開DECenter篩選差異。 并將剛才導(dǎo)出的數(shù)據(jù)矩陣,樣本信息和輸出目錄選擇好。
點(diǎn)擊樣本信息按鈕,查看信息
看是配對樣本??梢赃x擇limma進(jìn)行分析。(由于我這個(gè)數(shù)據(jù)質(zhì)量不是很好,所以這里我選擇P<>),abs(log2(FC))>1。 然后樣本類型列選擇treatment,運(yùn)行導(dǎo)出。 如果結(jié)果不好,可以反復(fù)的調(diào)整p和lfc進(jìn)行結(jié)果優(yōu)化。
結(jié)果會(huì)有三個(gè)文件,第一個(gè)limma.txt格式如下
第一列是基因id,第二列是log2(FC),第三列是表達(dá)值,第四列是t值,第五列是p值,第六列是調(diào)整之后的p值(fdr),第七列是B值。這個(gè)文件可以用于后面繪制火山圖。 其中第一列、第二列,第六列是比較重要的指標(biāo)。 然后看篩選出來的差異基因。也就是Diff.txt.
重要的信息是第二列,第六列和最后一列。 然后看下TopExp.txt。這些是差異基因在各個(gè)樣本中的表達(dá)情況,可以用于后面繪制熱圖。
四、繪制火山圖 打開生信人繪制火山圖工具,選擇PBS;-vs-MG;.limma.txt文件(因?yàn)槲疫@個(gè)顯著的不多,所以用全部的來繪制。) 然后通過調(diào)整點(diǎn)的大小調(diào)整圖片,還是可以看到零星的幾個(gè)點(diǎn)。
五、繪制熱圖 繪制熱圖之前,打開topExp這個(gè)文件,修改id列
選中第一列,將其復(fù)制到第二個(gè)表格或者空白處。
選擇對其進(jìn)行分列,由于id之間是通過//分割,所以分列是選擇/來分割,然后將gene_symble列復(fù)制到原圖表中。
結(jié)果如下
打開聚類熱圖繪制工具,導(dǎo)入剛才處理完的表格。
然后選中RowZ-score,默認(rèn)歐式聚類進(jìn)行聚類。
|
|