一文就會TCGA數(shù)據(jù)庫基因表達(dá)差異分析

阿非ycfg 2020-05-05

展開全文

致歉信

本文早在2020年3月13日就已經(jīng)在本公眾號發(fā)布，截止到2020年5月4日，已經(jīng)有60人付費，由于本人的操作不當(dāng)，意外把文章刪除了。對已經(jīng)付費的粉絲們，深感抱歉。其實，我早已將視頻上傳到B站(未提供代碼)：

https://www.bilibili.com/video/BV117411Z7Cq

相信付費的您已經(jīng)拿到代碼和相關(guān)文件，如果有什么問題可以聯(lián)系我。

郵箱：bioinfocloud@aliyun.com

DoubleHelix

2020.05.04

下面是之前的文章內(nèi)容

關(guān)于TCGA數(shù)據(jù)庫的教程，前期我們已經(jīng)推出了一些文章：

【1】TCGA數(shù)據(jù)庫使用教程

【2】R語言TCGA-Assembler包下載TCGA數(shù)據(jù)

【3】TCGA數(shù)據(jù)挖掘（一）：TCGAbiolinks包介紹

【4】TCGA數(shù)據(jù)挖掘（二）：數(shù)據(jù)下載與整理

【5】TCGA數(shù)據(jù)挖掘（三）：表達(dá)差異分析

【6】TCGA數(shù)據(jù)挖掘（四）：表達(dá)差異分析（2）

【7】TCGA數(shù)據(jù)挖掘（四）：表達(dá)差異分析（3）

【8】TCGA數(shù)據(jù)挖掘（四）：表達(dá)差異分析（4）

【9】TCGA數(shù)據(jù)挖掘（五）：miRNA差異分析

【10】TCGA數(shù)據(jù)挖掘(六):WGCNA（加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析）

前面的這些文章雖然介紹了TCGA數(shù)據(jù)庫的差異表達(dá)，但部分用了perl腳本，如果不懂perl的同學(xué)，數(shù)據(jù)庫更新，數(shù)據(jù)格式可能會變換，運行腳本就得不到想要的結(jié)果，所以這里我們就只用R語言進行系統(tǒng)性的講解，包括數(shù)據(jù)下載、整理、融合、基因ID轉(zhuǎn)換以及表達(dá)差異分析，最后通過火山圖進行可視化。所以你需要有一定的R基礎(chǔ)，能看的懂代碼，能改一些參數(shù)。

關(guān)于差異表達(dá)分析我們利用DESeq2和EdgeR包，其實在我們前面基因芯片數(shù)據(jù)挖掘序列文章中都已介紹：

基因芯片數(shù)據(jù)分析（一）：芯片數(shù)據(jù)初探

基因芯片數(shù)據(jù)分析（二）：讀取芯片數(shù)據(jù)

基因芯片數(shù)據(jù)分析（三）：數(shù)據(jù)質(zhì)控

基因芯片數(shù)據(jù)分析（四）：獲取差異表達(dá)基因

基因芯片數(shù)據(jù)分析（五）：edgeR包的基本原理

基因芯片數(shù)據(jù)分析（六）：DESeq2包的基本原理

基因芯片數(shù)據(jù)分析（七）：edgeR差異分析實戰(zhàn)案例

基因芯片數(shù)據(jù)分析（八）：DESeq2差異分析實戰(zhàn)案例

可以先通過五~八這4篇文章了解這2個包的原理和使用教程。其實，你只要能從TCGA數(shù)據(jù)庫下載的數(shù)據(jù)整理得到表達(dá)矩陣，參照七、八這2篇文章就可以得到差異表達(dá)結(jié)果。下面我們步入正題...........

一.數(shù)據(jù)下載

數(shù)據(jù)下載有3中方式，官網(wǎng)在線下載；官放下載工具下載；R語言包下載，比如：TCGAbiolinks。TCGA-Assembler等。我們推薦使用TCGAbiolinks，個人覺得這是挖掘TCGA數(shù)據(jù)比較好用的包。

下面是TCGAbiolinks包下載肺腺癌（LUAD）的轉(zhuǎn)錄組數(shù)據(jù)代碼：

########################## 這里下載的是Counts數(shù)據(jù)，不是FPKM數(shù)據(jù)####################setwd('.')##包的安裝if (!requireNamespace('BiocManager', quietly = TRUE)) install.packages('BiocManager')BiocManager::install('TCGAbiolinks')# 加載相應(yīng)的包，可能會需要其他包，提示錯誤就安裝缺少的包。# 因為每個人已經(jīng)安裝的包不一樣。library(TCGAbiolinks)# 請求數(shù)據(jù)。query <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts')

# 從query中獲取結(jié)果表，它可以選擇帶有cols參數(shù)的列，并使用rows參數(shù)返回若干行。

# 594個barcode samplesDown <- getResults(query,cols=c('cases'))

# 533個barcodedataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'TP')# 59個barcodedataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'NT')# 59個正常組織和533個腫瘤組織樣本作為研究dataSmTP_short <- dataSmTP[1:533]dataSmNT_short <- dataSmNT[1:59]# 根據(jù)前面的篩選，再次請求數(shù)據(jù)queryDown <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts', barcode = c(dataSmTP_short, dataSmNT_short))

GDCquery函數(shù)中的參數(shù)可以參考前面的文章，TCGAbiolinks包介紹，其實這里面的參數(shù)和網(wǎng)頁上的篩選條件是一樣的。

網(wǎng)頁篩選后添加購物車就可以直接下載了。最后一種下載方式是通過官方工具Data Transfer Tool：

https://gdc./access-data/gdc-data-transfer-tool。

關(guān)于網(wǎng)頁下載需要下載幾個文件。

如果直接使用TCGAbiolinks包下載，并用該包進行數(shù)據(jù)分析，就沒有這么麻煩。我們這里主要是講解通過網(wǎng)頁下載的數(shù)據(jù)，直接整理，分析。讓大家知道更加詳細(xì)的流程。只是下載數(shù)據(jù)的話，上面三種方式都可以，不過現(xiàn)在TCGAbiolinks包下載速度可慢了，而且這個包現(xiàn)在好像因為R版本的更新，部分函數(shù)好像會出錯。網(wǎng)頁版下載數(shù)據(jù)是把篩選好的樣本數(shù)據(jù)打包下載，文件太大，網(wǎng)速不好可能會中斷。但一般也沒什么問題。

二. 數(shù)據(jù)的整理

我們網(wǎng)頁上下載的數(shù)據(jù)是一個壓縮包，需要解壓。

解壓后我們會看到很多文件夾：

每一個文件夾對應(yīng)一個病人的數(shù)據(jù)，這里是RNA-Seq的數(shù)據(jù)。

打開任意一個文件夾，里面是一個壓縮包，并且壓縮包的名稱和文件夾名稱還不一樣。

解壓以后是一個txt的文本文件，打開文本文件就是該文件對于病人的RNA-Seq數(shù)據(jù)，第一列是Ensembl ID ，第二列就是Counts數(shù)。

我們需要做的就是把這些文件合并成一個文件，這個絕對不能是人工，并且文件夾名稱對于那個病人，也不知道，所以，需要用R對這些數(shù)據(jù)進行處理，具體步驟就是，先將這些文件移動到同一個文件夾下，然后解壓，讀入數(shù)據(jù)，讀入數(shù)據(jù)的同時根據(jù)下載的json文件，匹配文件名稱對應(yīng)病人的Barcode，得到一個表達(dá)矩陣。

三 .ID轉(zhuǎn)換

得到表達(dá)矩陣后，Ensembl ID我們看不懂，需要轉(zhuǎn)換成我們能看的懂的基因名稱，比如TP53。我們就需要通過gtf文件進行基因轉(zhuǎn)換，人的基因注釋文件下載地址可通過gencode：https://www./human/ 下載，NCBI和Ensembl 也可以下載。

但是我們需要注意的是多個Ensembl ID可能對于一個基因。所以我們需要去重,去重可以使用下面函數(shù)，取平均值。

exp <- avereps(geneExpMatrix)

當(dāng)然也可以選擇其中一個，刪掉重復(fù)的數(shù)據(jù)，建議取平均值。

四，表達(dá)差異分析

得到這樣的表達(dá)矩陣，我們就可以進行差異表達(dá)分析了。

DESeq2和EdgeR包進行表達(dá)差異分析需要原始的Counts表達(dá)矩陣文件，我們前面下載的也是HTSeq - Counts數(shù)據(jù)，如果是HTSeq - FPKM的數(shù)據(jù)可以用limma包直接分析，這2類數(shù)據(jù)在下載和處理得到矩陣文件過程是一樣的。后面也會附代碼。

進行差異分析以后，我們繪制火山圖進行可視化。

下面是部分視頻教程，完整視頻可通過B站觀看：

https://www.bilibili.com/video/BV117411Z7Cq

付費提示：由于之前已經(jīng)有60人付費，這里為了公平起見，需要源代碼的可以付費。曾經(jīng)付費的不需要再付費。