如何利用clusterProfiler獲取最新的KEGG和基因?qū)P(guān)系

yjt2004us 2019-05-16

展開全文

本文是洲更寫的，文中說到兩步，其實只需要這一步，然后就可以用enricher或GSEA函數(shù)進行分析，也就是通用的分析函數(shù)，不管是什么注釋，不管是什么物種，都可以支持。
這樣做的好處也有一些
分析時不用聯(lián)網(wǎng)，可以搞個local版本
分析具有可重復性，實時爬網(wǎng)絡數(shù)據(jù)，畢竟有時候服務器端有更新的話，就會導致有一些變化。
第二步所謂需要序列，其實是想本地blast，自己注釋，這種一般是和KO數(shù)據(jù)庫進行比對。等候洲更的更新，看他后面怎么玩。

Y叔的clusterProfiler的一大優(yōu)點就是能夠利用最新的KEGG數(shù)據(jù)庫，而不是停留在最后一個公開版的KEGG數(shù)據(jù)庫(2011-5-15).

大部分情況下，大家都是直接用enrichKEGG()或者gseKEGG()完成富集分析，但是我最近想到，我其實可以利用這個功能反向建立一個注釋用的數(shù)據(jù)庫，只需要兩步

第一步: 獲取KEGG編號對應的基因編號
第二步: 根據(jù)基因編號獲取序列信息

這里只講第一步，如何用Y叔clusterProfiler獲取最新的KEGG和基因的對應關(guān)系，我們以人類為例。
先用download_KEGG下載給定物種的KEGG數(shù)據(jù)庫

hsa_kegg <- clusterProfiler::download_KEGG('hsa')

這一步得到的是一個列表，這個列表有兩個成員，

names(hsa_kegg)
[1] 'KEGGPATHID2EXTID' 'KEGGPATHID2NAME'

一個是KEGG的通路編號和基因編號的關(guān)系，另一個是KEGG通路編號和名字的關(guān)系

我們可以將其進行合并

PATH2ID <- hsa_kegg$KEGGPATHID2EXTID
PATH2NAME <- hsa_kegg$KEGGPATHID2NAME
PATH_ID_NAME <- merge(PATH2ID, PATH2NAME, by='from')
colnames(PATH_ID_NAME) <- c('KEGGID', 'ENTREZID', 'DESCRPTION')

最后的PATH_ID_NAME的表格信息如下

保存到本地

write.table(PATH_ID_NAME, 'HSA_KEGG.txt', sep='\t')

拓展：如何在此基礎(chǔ)上增加ENSEMBL的編號？這可以使用biomaRt進行ID轉(zhuǎn)換

library(biomaRt)

mart <- useDataset('hsapiens_gene_ensembl', useMart('ensembl'))
entrezgene <- PATH_ID_NAME$ENTREZID
# This step need some time
ensembl_gene_id<- getBM(attributes=c('ensembl_gene_id', 'entrezgene'),
                  filters = 'entrezgene',
                       values=entrezgene , mart= mart)

于是我們得到了ENSEMBL的基因編號，通過merge就可以將其添加到之前的數(shù)據(jù)框中

PATH_ID_NAME <- merge(PATH_ID_NAME, ensembl_gene_id, by.x= 'ENTREZID',by.y= 'entrezgene')

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： yjt2004us > 《生信》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

yjt2004us

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] HNSCC數(shù)據(jù)分析-GSE2379-GPL830-GPL91
生信分析過程中這些常見文件的格式以及查看方式你都知道嗎？
獻給初學者，手把手教你如何快速查找基因序列信息！
用EndNote編輯最適合投稿雜志的參考文獻格式（適用所有雜志）
使用Python實現(xiàn)文件壓縮和解壓
出于無聊，我給你們分析了一下去年灌的生信文章

喜歡該文的人也喜歡更多

熱門閱讀換一換

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

如何利用clusterProfiler獲取最新的KEGG和基因?qū)P(guān)系