R包ggseqlogo 繪制seq logo圖和Seq logo 在線繪制工具—Weblogo介紹了如何用R腳本和在線工具繪制seq logo圖,用于展現(xiàn)轉(zhuǎn)錄因子或修飾酶等結(jié)合序列的偏好性。 JASPAR數(shù)據(jù)庫 (http://jaspar./) 提供了轉(zhuǎn)錄因子與DNA結(jié)合位點motif最全面的公開數(shù)據(jù),共收集了脊椎動物、植物、昆蟲、線蟲、真菌和尾索動物六大類不同類生物的數(shù)據(jù)。 2018年更新發(fā)布的Jaspar中,新增322種新物種的Position Frequency Matrix (PFMs),更新33個物種的PFMs。引入316個物種的TF flexible models (TFFMs), 對每個物種和物種內(nèi)TF家族的結(jié)合PFM進行相似性聚類?;谶@些收集的PFMs預(yù)測了人全基因組范圍的TF結(jié)合位點,以UCSC track hub的形式供大家使用。 界面介紹如下是Jaspar主頁面,左邊是工具欄;中間顯示的是數(shù)據(jù)庫中收錄的六大類生物,可點擊查看每個大類中收集的數(shù)據(jù)總量;右側(cè)是用戶使用導(dǎo)航,第一次使用的用戶可以點擊JASPAR interactive tour ,可跟隨該導(dǎo)航一步步學(xué)習(xí)網(wǎng)站的使用方法。  Jaspar中有9個子數(shù)據(jù)庫,CORE, CNE, FAM, PBM等,關(guān)于什么時候使用哪個數(shù)據(jù)庫,在About下有詳細介紹。
DB | Description |
---|
JASPARCORE | Seeking models for specific factors orstructural classes. | CNE | Characterizing of regulatory inputs in long-rangedevelopmental gene regulation in vertebrates. | FAM | Searching large genomic sequences with no prior knowledge. For classificationof new user-supplied profiles. | PBM | Characterizing of regulatory inputs in long-range developmentalgene regulation in vertebrates. All the PBM s are built by using new in-vitrotechniques, based on k-mer microarrays. | PHYLOFACTS | Chraacterizing other factors mightdetermine promoter characteristics, such as structural aspects and tissuespecificity. | POLII | Investigating core promoters from multicellulareukaryotes. | SPLICE | Aanalyzing splice sites and alternativesplicing. |
根據(jù)所研究的物種,選擇對應(yīng)的庫,這里以Nematoda(線蟲綱)為例,點擊進入。 
在Scan序列輸入框中輸入我們想要查找的啟動子區(qū)域序列或增強子區(qū)域序列或其它關(guān)注的區(qū)域,注意需要輸入FASTA格式。

在左側(cè)列表中勾選待預(yù)測結(jié)合的轉(zhuǎn)錄因子,或者將同一物種的轉(zhuǎn)錄因子都勾選上,點擊SCAN即出現(xiàn)結(jié)果展示。Score評分越高,表示該轉(zhuǎn)錄因子與輸入序列結(jié)合的可能性越大。

基本搜索點擊左側(cè)工具欄中search,查找感興趣的數(shù)據(jù)??梢酝ㄟ^TF名稱或ID、物種、分類單元、uniprot ID或任何其他關(guān)鍵字進行搜索。我們以Gata3(GATA binding protein 3)為例,下方可選框中選擇篩選要求,快速鎖定目標(biāo)數(shù)據(jù)。 
搜索結(jié)果被展示在一個列表中,可選擇感興趣的數(shù)據(jù)添加至右側(cè)購物車中下載,然后自行分析。

點擊ID號,跳轉(zhuǎn)至Gata3 motif詳情,包括文件摘要、序列l(wèi)ogo圖、PFM矩陣(文件可下載)、TF-binding信息(FASTA格式為該motif在基因組范圍的結(jié)合區(qū)域的序列,bed格式為該motif在基因組范圍的結(jié)合位點,可點擊下載)、外部鏈接、版本信息、ChIP-seq centrality、TFFM和其它信息。


可在詳情頁Frequency matrix下載Gata3各類型矩陣信息,如下圖。


jaspar tools 輸入序列或矩陣搜索蛋白序列的輸入格式 MSDNDDIEVESDEEQPRFQSAADKRAHHNALERKRRDHIKDSFHSLRDSVPSLQGEKASRAQILDKATEYIQYMRRKNHTHQQDIDDLKRQNALLEQQVRALEKARSSAQLQTNYPSSDNSLYTNAKGSTISAFDGGSDSSSESEPEEPQSRKKLRMEAS
PFM矩陣的輸入格式 A [13 13 3 1 54 1 1 1 0 3 2 5]C [13 39 5 53 0 1 50 1 0 37 0 17]G [17 2 37 0 0 52 3 0 53 8 37 12]T [11 0 9 0 0 0 0 52 1 6 15 20]
矩陣聚類工具具有類似DNA-binding domains的TFs具有相似的序列偏好性,為了便于在Jaspar數(shù)據(jù)庫中尋找相似的TFs,該數(shù)據(jù)庫使用矩陣聚類工具對PFM進行了層級聚類分析。聚類結(jié)果以徑向樹的形式展示,可以點擊每個logo圖做進一步研究。 
|