乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      一文就會TCGA數(shù)據(jù)庫基因表達(dá)差異分析

       阿非ycfg 2020-05-05

      致 歉 信

              本文早在2020年3月13日就已經(jīng)在本公眾號發(fā)布,截止到2020年5月4日,已經(jīng)有60人付費,由于本人的操作不當(dāng),意外把文章刪除了。對已經(jīng)付費的粉絲們,深感抱歉。其實,我早已將視頻上傳到B站(未提供代碼):

      https://www.bilibili.com/video/BV117411Z7Cq

      相信付費的您已經(jīng)拿到代碼和相關(guān)文件,如果有什么問題可以聯(lián)系我。

      郵箱:bioinfocloud@aliyun.com

      DoubleHelix

      2020.05.04

      下面是之前的文章內(nèi)容


      關(guān)于TCGA數(shù)據(jù)庫的教程,前期我們已經(jīng)推出了一些文章:


      【1】TCGA數(shù)據(jù)庫使用教程

      【2】R語言TCGA-Assembler包下載TCGA數(shù)據(jù)

      【3】TCGA數(shù)據(jù)挖掘(一):TCGAbiolinks包介紹
      【4】TCGA數(shù)據(jù)挖掘(二):數(shù)據(jù)下載與整理
      【5】TCGA數(shù)據(jù)挖掘(三):表達(dá)差異分析
      【6】TCGA數(shù)據(jù)挖掘(四):表達(dá)差異分析(2)
      【7】TCGA數(shù)據(jù)挖掘(四):表達(dá)差異分析(3)
      【8】TCGA數(shù)據(jù)挖掘(四):表達(dá)差異分析(4)
      【9】TCGA數(shù)據(jù)挖掘(五):miRNA差異分析
      【10】TCGA數(shù)據(jù)挖掘(六):WGCNA(加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析)

      前面的這些文章雖然介紹了TCGA數(shù)據(jù)庫的差異表達(dá),但部分用了perl腳本,如果不懂perl的同學(xué),數(shù)據(jù)庫更新,數(shù)據(jù)格式可能會變換,運行腳本就得不到想要的結(jié)果,所以這里我們就只用R語言進行系統(tǒng)性的講解,包括數(shù)據(jù)下載、整理、融合、基因ID轉(zhuǎn)換以及表達(dá)差異分析,最后通過火山圖進行可視化。所以你需要有一定的R基礎(chǔ),能看的懂代碼,能改一些參數(shù)。

      關(guān)于差異表達(dá)分析我們利用DESeq2和EdgeR包,其實在我們前面基因芯片數(shù)據(jù)挖掘序列文章中都已介紹:

      基因芯片數(shù)據(jù)分析(一):芯片數(shù)據(jù)初探

      基因芯片數(shù)據(jù)分析(二):讀取芯片數(shù)據(jù)

      基因芯片數(shù)據(jù)分析(三):數(shù)據(jù)質(zhì)控

      基因芯片數(shù)據(jù)分析(四):獲取差異表達(dá)基因

      基因芯片數(shù)據(jù)分析(五):edgeR包的基本原理

      基因芯片數(shù)據(jù)分析(六):DESeq2包的基本原理

      基因芯片數(shù)據(jù)分析(七):edgeR差異分析實戰(zhàn)案例

      基因芯片數(shù)據(jù)分析(八):DESeq2差異分析實戰(zhàn)案例

      可以先通過五~八這4篇文章了解這2個包的原理和使用教程。其實,你只要能從TCGA數(shù)據(jù)庫下載的數(shù)據(jù)整理得到表達(dá)矩陣,參照七、八這2篇文章就可以得到差異表達(dá)結(jié)果。下面我們步入正題...........

      一.數(shù)據(jù)下載

      數(shù)據(jù)下載有3中方式,官網(wǎng)在線下載;官放下載工具下載;R語言包下載,比如:TCGAbiolinks。TCGA-Assembler等。我們推薦使用TCGAbiolinks,個人覺得這是挖掘TCGA數(shù)據(jù)比較好用的包。

      下面是TCGAbiolinks包下載肺腺癌(LUAD)的轉(zhuǎn)錄組數(shù)據(jù)代碼:
      ########################## 這里下載的是Counts數(shù)據(jù),不是FPKM數(shù)據(jù)####################setwd('.')##包的安裝if (!requireNamespace('BiocManager', quietly = TRUE))    install.packages('BiocManager')BiocManager::install('TCGAbiolinks')# 加載相應(yīng)的包,可能會需要其他包,提示錯誤就安裝缺少的包。# 因為每個人已經(jīng)安裝的包不一樣。library(TCGAbiolinks)# 請求數(shù)據(jù)。query <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts')# 從query中獲取結(jié)果表,它可以選擇帶有cols參數(shù)的列,并使用rows參數(shù)返回若干行。# 594個barcode samplesDown <- getResults(query,cols=c('cases'))
      # 533個barcodedataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = 'TP')# 59個barcodedataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,                                  typesample = 'NT')# 59個正常組織和533個腫瘤組織樣本作為研究dataSmTP_short <- dataSmTP[1:533]dataSmNT_short <- dataSmNT[1:59]# 根據(jù)前面的篩選,再次請求數(shù)據(jù)queryDown <- GDCquery(project = 'TCGA-LUAD', data.category = 'Transcriptome Profiling', data.type = 'Gene Expression Quantification', workflow.type = 'HTSeq - Counts',                       barcode = c(dataSmTP_short, dataSmNT_short))
      GDCquery函數(shù)中的參數(shù)可以參考前面的文章,TCGAbiolinks包介紹,其實這里面的參數(shù)和網(wǎng)頁上的篩選條件是一樣的。

      網(wǎng)頁篩選后添加購物車就可以直接下載了。最后一種下載方式是通過官方工具Data Transfer Tool:

      https://gdc./access-data/gdc-data-transfer-tool。

      關(guān)于網(wǎng)頁下載需要下載幾個文件。

      如果直接使用TCGAbiolinks包下載,并用該包進行數(shù)據(jù)分析,就沒有這么麻煩。我們這里主要是講解通過網(wǎng)頁下載的數(shù)據(jù),直接整理,分析。讓大家知道更加詳細(xì)的流程。只是下載數(shù)據(jù)的話,上面三種方式都可以,不過現(xiàn)在TCGAbiolinks包下載速度可慢了,而且這個包現(xiàn)在好像因為R版本的更新,部分函數(shù)好像會出錯。網(wǎng)頁版下載數(shù)據(jù)是把篩選好的樣本數(shù)據(jù)打包下載,文件太大,網(wǎng)速不好可能會中斷。但一般也沒什么問題。

      二. 數(shù)據(jù)的整理

      我們網(wǎng)頁上下載的數(shù)據(jù)是一個壓縮包,需要解壓。

      解壓后我們會看到很多文件夾:

      每一個文件夾對應(yīng)一個病人的數(shù)據(jù),這里是RNA-Seq的數(shù)據(jù)。
      打開任意一個文件夾,里面是一個壓縮包,并且壓縮包的名稱和文件夾名稱還不一樣。

      解壓以后是一個txt的文本文件,打開文本文件就是該文件對于病人的RNA-Seq數(shù)據(jù),第一列是Ensembl ID ,第二列就是Counts數(shù)。

      我們需要做的就是把這些文件合并成一個文件,這個絕對不能是人工,并且文件夾名稱對于那個病人,也不知道,所以,需要用R對這些數(shù)據(jù)進行處理,具體步驟就是,先將這些文件移動到同一個文件夾下,然后解壓,讀入數(shù)據(jù),讀入數(shù)據(jù)的同時根據(jù)下載的json文件,匹配文件名稱對應(yīng)病人的Barcode,得到一個表達(dá)矩陣。
               

      三 .ID轉(zhuǎn)換

      得到表達(dá)矩陣后,Ensembl ID我們看不懂,需要轉(zhuǎn)換成我們能看的懂的基因名稱,比如TP53。我們就需要通過gtf文件進行基因轉(zhuǎn)換,人的基因注釋文件下載地址可通過gencode:https://www./human/  下載,NCBI和Ensembl 也可以下載。


      但是我們需要注意的是多個Ensembl ID可能對于一個基因。所以我們需要去重,去重可以使用下面函數(shù),取平均值。

      exp <- avereps(geneExpMatrix)

      當(dāng)然也可以選擇其中一個,刪掉重復(fù)的數(shù)據(jù),建議取平均值。

      四,表達(dá)差異分析

      得到這樣的表達(dá)矩陣,我們就可以進行差異表達(dá)分析了。

      DESeq2和EdgeR包進行表達(dá)差異分析需要原始的Counts表達(dá)矩陣文件,我們前面下載的也是HTSeq - Counts數(shù)據(jù),如果是HTSeq - FPKM的數(shù)據(jù)可以用limma包直接分析,這2類數(shù)據(jù)在下載和處理得到矩陣文件過程是一樣的。后面也會附代碼。

      進行差異分析以后,我們繪制火山圖進行可視化。


      下面是部分視頻教程,完整視頻可通過B站觀看:
      https://www.bilibili.com/video/BV117411Z7Cq



      付費提示:由于之前已經(jīng)有60人付費,這里為了公平起見,需要源代碼的可以付費。曾經(jīng)付費的不需要再付費。


        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多