乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      測(cè)序了,然后呢(二) | 基因功能注釋

       微笑如酒 2019-01-31

        今天是生信星球陪你的第251天


         大神一句話,菜鳥(niǎo)跑半年。我不是大神,但我可以縮短你走彎路的半年~

         就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學(xué)點(diǎn)生信好不好~

         這里有豆豆和花花的學(xué)習(xí)歷程,從新手到進(jìn)階,生信路上有你有我!

      豆豆寫(xiě)于19.1.16 

      上次介紹了關(guān)于基因預(yù)測(cè)的知識(shí)(為什么要搞全基因組測(cè)序(一)
      這次是第二部——基因功能注釋

      背景

      得到一個(gè)基因集以后,需要知道基因有哪些功能,參與哪些生物過(guò)程,只有理解了基因的功能以后,才能聯(lián)系起來(lái)基因型與表型。

      繼人類基因組計(jì)劃(HGP)完成以后,找到了2萬(wàn)多個(gè)編碼蛋白基因,但是基因功能還未知,然后又有了ENCODE(Encyclopedia of DNA Elements)計(jì)劃,找到了400萬(wàn)個(gè)基因開(kāi)關(guān),平均一個(gè)基因有約200個(gè)開(kāi)關(guān),這是人類既有共性又有個(gè)性的基礎(chǔ)。ENCODE計(jì)劃使人類基因組不再是個(gè)”空殼“
      https://www./

      關(guān)于ENCODE計(jì)劃:https:///science/pq2nx8.html

      image.png

      簡(jiǎn)而言之,功能注釋就是預(yù)測(cè)蛋白序列的功能,是最基本的分析之一

      功能注釋?xiě)?yīng)用場(chǎng)景

      • 從頭拼接的基因組并做了結(jié)構(gòu)注釋,知道了哪些地方是外顯子,哪些是內(nèi)含子,接下來(lái)就是功能注釋,預(yù)測(cè)每一條基因編碼什么蛋白,并且蛋白是什么功能

      • 無(wú)參轉(zhuǎn)錄組需要從頭拼接轉(zhuǎn)錄本,拼接的轉(zhuǎn)錄本功能需要做注釋

      • 得到了差異表達(dá)基因,想做下富集分析,就必須要了解每個(gè)基因?qū)?yīng)哪個(gè)GO分類,也是需要進(jìn)行功能注釋

      原理

      基因不同于蛋白,不能通過(guò)結(jié)構(gòu)來(lái)預(yù)測(cè)功能,只能通過(guò)與已知基因功能數(shù)據(jù)庫(kù)的比對(duì)去推測(cè)。一般的數(shù)據(jù)庫(kù)包括了兩部分內(nèi)容:一是基因序列(核酸+氨基酸)FASTA格式;二是基因功能信息(可以寫(xiě)到FASTA的ID行中或者單獨(dú)放在一個(gè)文件中)

      一般采用氨基酸序列與數(shù)據(jù)庫(kù)進(jìn)行相似性比對(duì),比對(duì)結(jié)果去數(shù)據(jù)庫(kù)中進(jìn)行過(guò)濾

      這里看到,基因功能注釋主要依賴數(shù)據(jù)庫(kù),如果數(shù)據(jù)庫(kù)中沒(méi)有這個(gè)基因,那么就無(wú)法注釋。更可怕的是,數(shù)據(jù)庫(kù)中有錯(cuò)誤,就會(huì)進(jìn)行錯(cuò)誤注釋

      比對(duì)的結(jié)果并不是百分之百完全比對(duì)的,那么怎么判斷氨基酸序列和數(shù)據(jù)庫(kù)的關(guān)系呢?比對(duì)到多少才能被接受?這里需要考慮比對(duì)長(zhǎng)度、比對(duì)分值、identity值等,過(guò)濾掉一部分人為認(rèn)定不滿足同源關(guān)系的序列。但是又有一個(gè)問(wèn)題,不同區(qū)域的基因會(huì)發(fā)生不同程度的突變,如果僅設(shè)置一個(gè)值進(jìn)行過(guò)濾——”一刀切“,這個(gè)結(jié)果還是有待優(yōu)化

      另外,如果結(jié)果提示:Selenocysteine (U) at position ** replaced by X 說(shuō)明U氨基酸被替代成了X(當(dāng)然并不是錯(cuò)誤,可以忽略),因?yàn)樵赽lastp/tblastn的打分矩陣中不存在U- 這兩個(gè)字符,替換成任意字符X就可以任意打分
      https://www./p/111143/

      基本流程

      如果手頭僅僅有幾條蛋白序列想做下功能注釋,那么直接甩給uniprot/ncbi在線blast比對(duì)就可以了,但是我們這里說(shuō)的情況是成千上萬(wàn)條基因,肯定不能在線提交,那么怎么辦?

      要進(jìn)行大量蛋白序列的功能注釋,需要包括:同源注釋功能分類

      同源注釋
      • 基于相似性的注釋:就是將要研究的序列與蛋白數(shù)據(jù)庫(kù)進(jìn)行比對(duì),將數(shù)據(jù)庫(kù)中比對(duì)相似性高的蛋白序列可以作為研究序列的功能,常用的是Nr、Uniprot數(shù)據(jù)庫(kù) ,常用軟件是blast和diamond 【其中,blast速度很慢,比對(duì)幾萬(wàn)條序列可能好幾天甚至一周;diamond也是基于blast但速度最快達(dá)到blast的兩萬(wàn)倍,準(zhǔn)確性差不多,因此一般就使用diamond就好】

      blast是基于動(dòng)態(tài)規(guī)劃算法,就是將每個(gè)位點(diǎn)都進(jìn)行比對(duì),比對(duì)上就得分,比對(duì)失敗就罰分。從準(zhǔn)確性講是不錯(cuò)的,但是這個(gè)方法對(duì)于背后的生物學(xué)特性欠缺考慮。因?yàn)椴皇敲總€(gè)氨基酸都是一樣重要的,對(duì)于某些抗性基因或者轉(zhuǎn)錄因子,真正起作用的往往是一些保守結(jié)構(gòu)域

      • 基于結(jié)構(gòu)域的注釋:Pfam(https://pfam./)數(shù)據(jù)庫(kù)中有各種基因家族的保守域模型,可以用HMMER軟件將研究序列與數(shù)據(jù)庫(kù)中的模型進(jìn)行比對(duì),如果序列上存在某個(gè)結(jié)構(gòu)域,那么推測(cè)序列含有該結(jié)構(gòu)域功能;另外Interpro(https://www./interpro/)是一個(gè)綜合數(shù)據(jù)庫(kù),使用interproscan軟件比對(duì)

      做完同源注釋,就知道了研究的序列和數(shù)據(jù)庫(kù)中的哪個(gè)蛋白最相似,我們主要利用了nr、uniprot、pfam、interpro這些蛋白數(shù)據(jù)庫(kù),它們又和下游的GO、KEGG、COG等分類數(shù)據(jù)庫(kù)有關(guān)聯(lián),然后就能知道研究的蛋白屬于哪個(gè)GO分類,哪個(gè)Pathway,哪個(gè)基因家族,就是功能分類

      功能分類

      只了解單個(gè)基因的功能是不夠的,因?yàn)榛蜷g是相互作用、協(xié)同完成生物功能的,所有需要進(jìn)行分類,這就是在RNA-seq中得到差異表達(dá)基因后做的功能分類(GO)和富集分析(KEGG)過(guò)程,看看基因是不是協(xié)同完成某一個(gè)生物過(guò)程,它的原理與功能注釋相似,也是利用已有的分類去推測(cè)未知的分類

      小Tip:功能注釋相當(dāng)于一個(gè)過(guò)濾篩。GO 注釋=》粗篩;KEGG=》細(xì)篩,例如:某一個(gè)蛋白,GO 只能將它注釋到與細(xì)胞凋亡有關(guān);而 KEGG 則可以將它注釋到細(xì)胞凋亡通路中的某一個(gè)環(huán)節(jié)

      例如COG數(shù)據(jù)庫(kù)(Cluster of Orthologous Groups of proteins, https://www.ncbi.nlm./COG/)是細(xì)菌、藻類和真核生物的21個(gè)完整基因組的編碼蛋白,根據(jù)系統(tǒng)進(jìn)化關(guān)系分類得來(lái)的。

      ftp://ftp.ncbi./pub/COG/COG 數(shù)據(jù)庫(kù)還是2003年的,所以做出來(lái)的東西,看看就好了

      # 下載數(shù)據(jù)庫(kù)數(shù)據(jù)
      $wget ftp://ftp.ncbi./pub/COG/COG/myva
      $wget ftp://ftp.ncbi./pub/COG/COG/fun.txt
      $wget ftp://ftp.ncbi./pub/COG/COG/whog

      #
       清洗COG數(shù)據(jù)庫(kù)(只挑有注釋的那些序列)
      # https://gist.github.com/Buttonwood/96f9a9ef8159ca111a69
      $cog_db_clean.pl -myva myva whog > cog_clean.fa

      #
       blast+比對(duì)
      $makeblastdb -dbtype prot -in cog_clean.fa
      $blastp -query yourdata.fa -db cog_clean.fa -e 1e-4 -out blast.out -outfmt 7 -num_threads 10 -seg no

      #
      整理結(jié)果 https://github.com/kodayu/blog_html/blob/master/blast_cog.py
      $blast_cog.py blast.out fun.txt whog out
      COG-plot

      參考:http://yk./myblog/cog%E5%88%86%E6%9E%90/

      又例如GO數(shù)據(jù)庫(kù) ,其中每個(gè)注釋都是對(duì)基因產(chǎn)物的描述,有特定的分子功能(MF),涉及到特定的生物過(guò)程(BP),作用在特定的細(xì)胞組分(CC)。它把所有候選的靶基因向GO的各個(gè)term進(jìn)行映射,然后計(jì)算映射到每個(gè)term的靶基因數(shù)量,在整個(gè)參考基因背景中利用超幾何分布檢驗(yàn),選出候選靶標(biāo)基因中顯著富集的GOterm

      再例如KEGG數(shù)據(jù)庫(kù),關(guān)于生物化學(xué)途徑的描述,許多活細(xì)胞的功能不能僅僅依賴于單個(gè)基因,它將基因組信息與更高一級(jí)的功能信息結(jié)合;另外它可以將基因組中的許多基因利用細(xì)胞內(nèi)分子互作網(wǎng)絡(luò)聯(lián)系起來(lái),通過(guò)通路或者復(fù)合物來(lái)展示更高級(jí)的生物學(xué)功能

      下次介紹整合的流程軟件


        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多