TCGA(The cancer genome atlas,癌癥基因組圖譜)由 National Cancer Institute(NCI,美國國家癌癥研究所) 和 National Human Genome Research Institute(NHGRI,美國國家人類基因組研究所)于 2006 年聯(lián)合啟動的項(xiàng)目, 收錄了各種人類癌癥(包括亞型在內(nèi)的腫瘤)的臨床數(shù)據(jù),基因組變異,mRNA表達(dá),miRNA表達(dá),甲基化等數(shù)據(jù),是癌癥研究者很重要的數(shù)據(jù)來源。 TCGA官網(wǎng):https://portal.gdc./ 1. 數(shù)據(jù)等級和分類: TCGA存儲的數(shù)據(jù)包括SNV、轉(zhuǎn)錄組分析、生物樣本信息、原始測序數(shù)據(jù)、CNV、DNA甲基化、臨床信息等。這些數(shù)據(jù)可分為三個級別: Level 1: 原始的測序數(shù)據(jù)(fasta,fastq等) Level 2:比對好的bam文件 Level 3:為經(jīng)過處理及標(biāo)準(zhǔn)化的數(shù)據(jù)
如圖1所示,點(diǎn)擊以下五個標(biāo)注的地方都可以找到自己需要的Project。1會把所有的Project全部列出,然后點(diǎn)擊自己需要的ProjectID;2會列出所有的case,在左側(cè)的導(dǎo)航欄可以選擇自己需要的條件,然后點(diǎn)擊自己需要的ProjectID;3可以直接搜索ProjectID;4可以直接點(diǎn)擊身體器官進(jìn)入對應(yīng)的一個或多個Project,然后點(diǎn)擊自己需要的ProjectID;5和4是一樣的,只不過變成了文字。進(jìn)入某一個Project的頁面如圖2(Project ID為TCGA-BRCA)所示。
2.2 如何選擇數(shù)據(jù) 如圖2所示,從自己所需數(shù)據(jù)類型的Files屬性點(diǎn)進(jìn)去,也可以點(diǎn)擊右上角的FILES,然后通過左側(cè)導(dǎo)航欄篩選。如圖3、圖4所示,導(dǎo)航欄分為Cases和Files兩部分,Cases的篩選條件有Case ID、Primary Site、Program、Project、Disease Type、Gender、Age at Diagnosis、Vital Status、Days to Death、Race、Ethnicity;Files的篩選條件有Data Category、Data Type、Experimental Strategy、Workflow Type、Data Format、Platform、Access。 在網(wǎng)頁上方會顯示出勾選條件,如圖5所示,選擇條件是TCGA-BRCA中用MuTect2 call出的原始體細(xì)胞變異的SNV文件,文件數(shù)量是1080個,然后我們可以通過購物車按鈕單個添加或全部添加到我們的下載清單中,下載清單可以通過頁面右上角的Cart查看。 3.如何下載數(shù)據(jù): TCGA中的數(shù)據(jù)分為controlled和open,controlled數(shù)據(jù)需要申請賬號才可以下載,open數(shù)據(jù)不需要賬號。數(shù)據(jù)下載支持本地下載和官方下載工具下載,官方下載工具支持Windows、Ubuntu、OSX和CentOS系統(tǒng)。 官方下載工具下載頁面:https://gdc./access-data/gdc-data-transfer-tool 點(diǎn)開Cart頁面后,如圖6所示,可以點(diǎn)擊Download=>Cart本地下載,也可以下載Manifest文件后用官方下載工具下載,如果數(shù)據(jù)是controlled并且用官方下載工具下載,需要下載token文件作為身份驗(yàn)證,下載方式如圖7所示。 Centos命令行下載示例: gdc-client download -t gdc-user-token.2018-10-25T07_07_18.260Z.txt -m gdc_manifest_20181025_070650.txt |
|