文章轉(zhuǎn)載于 Original 2017-06-12 liuhui 生信百科 相似的基因在不同物種中,其功能往往保守的。顯然,需要一個統(tǒng)一的術(shù)語用于描述這些跨物種的同源基因及其基因產(chǎn)物的功能,否則,不同的實(shí)驗(yàn)室對相同的基因的功能的描述不同,將極大限制學(xué)術(shù)的交流。而 Gene Ontology (GO) 項(xiàng)目正是為了能夠使對各種數(shù)據(jù)庫中基因獲基因產(chǎn)物功能描述相一致的努力結(jié)果。 所謂的 GO,是生物學(xué)功能注釋的一個標(biāo)準(zhǔn)詞匯表術(shù)語(GO term),將基因的功能分為三部分:
不同的 GO term 通過有向無環(huán)圖關(guān)聯(lián)起來,如下圖所示: 可以看出,不同的 GO term 間的關(guān)系由三類: 如 目前,GO 注釋主要有兩種方法:
這里以序列相似性比對為例,簡單介紹 GO 注釋的步驟: 將基因序列與 swiss-prot 蛋白質(zhì)數(shù)據(jù)庫進(jìn)行 BLAST (blastp 或者 blastx,這篇文章介紹了如何做 BLAST 分析:BLAST 知多少?)比對,得到如下結(jié)果: c49_g1_i1 RNF13_MOUSE 52.00 50 23 1 17 166 240 288 2e-11 65.5 c72_g1_i1 RS25_NEUCR 78.72 94 20 0 375 94 1 94 1e-32 116 c75_g1_i1 POLX_TOBAC 45.28 53 29 0 162 4 457 509 1e-08 55.1 c86_g2_i1 POLX_TOBAC 46.43 112 60 0 339 4 879 990 2e-30 120 c91_g1_i1 BUB1_ARATH 55.71 70 28 2 61 264 289 357 1e-14 73.6 c143_g1_i1 STL1_YEAST 31.98 172 85 4 6 518 407 547 6e-17 82.8 c150_g1_i1 CST26_YEAST 37.63 93 38 3 223 5 142 234 6e-10 58.2 c150_g2_i1 YHOE_SCHPO 42.67 75 41 1 227 3 54 126 5e-16 74.7 c156_g2_i1 EXOL2_ARATH 47.17 53 28 0 299 141 229 281 6e-06 47.0 c169_g1_i1 SPT5_ASPFU 60.98 82 31 1 20 262 725 806 2e-18 84.0 其中,第二列 swiss-prot 蛋白質(zhì)數(shù)據(jù)庫序列的 ID(UniProtKB ID)。 從 ftp://ftp.pir.georgetown.edu/databases/idmapping 下載 Q6GZX4 001R_FRG3G 2947773 YP_031579.1 81941549; 49237298 PF04947 GO:0006355; GO:0046782; GO:0006351 UniRef100_Q6GZX4 UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4 654924 15165820 AY548484 AAT09660.1
1. UniProtKB accession 2. UniProtKB ID 3. EntrezGene 4. RefSeq 5. NCBI GI number 6. PDB 7. Pfam 8. GO 9. PIRSF 10. IPI 11. UniRef100 12. UniRef90 13. UniRef50 14. UniParc 15. PIR-PSD accession 16. NCBI taxonomy 17. MIM 18. UniGene 19. Ensembl 20. PubMed ID 21. EMBL/GenBank/DDBJ 22. EMBL protein_id 根據(jù)文件 python UniProt2GO_annotate.py idmapping.tb.gz blastout outputfile 結(jié)果如下: c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037 c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506 c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874 c93748_g1_i1 GO:0006729,GO:0008124 c107639_g1_i1 GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789 c106424_g1_i1 GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351 c66585_g1_i1 GO:0005737,GO:0003746,GO:0003924,GO:0005525 c110618_g1_i8 GO:0015297,GO:0016021,GO:0015238 c105249_g1_i5 GO:0046872,GO:0043161,GO:0005829,GO:0006915,GO:0032648,GO:0050691,GO:0005654,GO:0070936,GO:0061630,GO:0005634 c134727_g1_i1 GO:0072546,GO:0030246,GO:0005783 |
|