今天是生信星球陪你的第251天 大神一句話,菜鳥(niǎo)跑半年。我不是大神,但我可以縮短你走彎路的半年~ 就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~ 這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!
背景得到一個(gè)基因集以后,需要知道基因有哪些功能,參與哪些生物過(guò)程,只有理解了基因的功能以后,才能聯(lián)系起來(lái)基因型與表型。 繼人類基因組計(jì)劃(HGP)完成以后,找到了2萬(wàn)多個(gè)編碼蛋白基因,但是基因功能還未知,然后又有了ENCODE(Encyclopedia of DNA Elements)計(jì)劃,找到了400萬(wàn)個(gè)基因開(kāi)關(guān),平均一個(gè)基因有約200個(gè)開(kāi)關(guān),這是人類既有共性又有個(gè)性的基礎(chǔ)。ENCODE計(jì)劃使人類基因組不再是個(gè)”空殼“ 關(guān)于ENCODE計(jì)劃:https:///science/pq2nx8.html
功能注釋?xiě)?yīng)用場(chǎng)景
原理基因不同于蛋白,不能通過(guò)結(jié)構(gòu)來(lái)預(yù)測(cè)功能,只能通過(guò)與已知基因功能數(shù)據(jù)庫(kù)的比對(duì)去推測(cè)。一般的數(shù)據(jù)庫(kù)包括了兩部分內(nèi)容:一是基因序列(核酸+氨基酸)FASTA格式;二是基因功能信息(可以寫(xiě)到FASTA的ID行中或者單獨(dú)放在一個(gè)文件中) 一般采用氨基酸序列與數(shù)據(jù)庫(kù)進(jìn)行相似性比對(duì),比對(duì)結(jié)果去數(shù)據(jù)庫(kù)中進(jìn)行過(guò)濾
比對(duì)的結(jié)果并不是百分之百完全比對(duì)的,那么怎么判斷氨基酸序列和數(shù)據(jù)庫(kù)的關(guān)系呢?比對(duì)到多少才能被接受?這里需要考慮比對(duì)長(zhǎng)度、比對(duì)分值、identity值等,過(guò)濾掉一部分人為認(rèn)定不滿足同源關(guān)系的序列。但是又有一個(gè)問(wèn)題,不同區(qū)域的基因會(huì)發(fā)生不同程度的突變,如果僅設(shè)置一個(gè)值進(jìn)行過(guò)濾——”一刀切“,這個(gè)結(jié)果還是有待優(yōu)化 另外,如果結(jié)果提示: 基本流程如果手頭僅僅有幾條蛋白序列想做下功能注釋,那么直接甩給uniprot/ncbi在線blast比對(duì)就可以了,但是我們這里說(shuō)的情況是成千上萬(wàn)條基因,肯定不能在線提交,那么怎么辦? 要進(jìn)行大量蛋白序列的功能注釋,需要包括:同源注釋、功能分類 同源注釋
功能分類只了解單個(gè)基因的功能是不夠的,因?yàn)榛蜷g是相互作用、協(xié)同完成生物功能的,所有需要進(jìn)行分類,這就是在RNA-seq中得到差異表達(dá)基因后做的功能分類(GO)和富集分析(KEGG)過(guò)程,看看基因是不是協(xié)同完成某一個(gè)生物過(guò)程,它的原理與功能注釋相似,也是利用已有的分類去推測(cè)未知的分類
例如COG數(shù)據(jù)庫(kù)(Cluster of Orthologous Groups of proteins, https://www.ncbi.nlm./COG/)是細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類得來(lái)的。
# 下載數(shù)據(jù)庫(kù)數(shù)據(jù) 參考:http://yk./myblog/cog%E5%88%86%E6%9E%90/ 又例如GO數(shù)據(jù)庫(kù) ,其中每個(gè)注釋都是對(duì)基因產(chǎn)物的描述,有特定的分子功能(MF),涉及到特定的生物過(guò)程(BP),作用在特定的細(xì)胞組分(CC)。它把所有候選的靶基因向GO的各個(gè)term進(jìn)行映射,然后計(jì)算映射到每個(gè)term的靶基因數(shù)量,在整個(gè)參考基因背景中利用超幾何分布檢驗(yàn),選出候選靶標(biāo)基因中顯著富集的GOterm 再例如KEGG數(shù)據(jù)庫(kù),關(guān)于生物化學(xué)途徑的描述,許多活細(xì)胞的功能不能僅僅依賴于單個(gè)基因,它將基因組信息與更高一級(jí)的功能信息結(jié)合;另外它可以將基因組中的許多基因利用細(xì)胞內(nèi)分子互作網(wǎng)絡(luò)聯(lián)系起來(lái),通過(guò)通路或者復(fù)合物來(lái)展示更高級(jí)的生物學(xué)功能
|
|