乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      StringTie 插件 | 直接在 Windows 下進(jìn)行轉(zhuǎn)錄組組裝與讀段計數(shù)

       生信藥丸 2021-07-26

      注:同時支持 Windows 和 MacOS。

      寫在前面

      前述,我已經(jīng)寫了兩個 TBtools 插件,實(shí)現(xiàn)了在純粹的WIndows環(huán)境下(非虛擬機(jī),非WSL),使用 Hisat2 進(jìn)行基因組索引構(gòu)建以及轉(zhuǎn)錄本回帖。最近家里事情較多,期間不少時間可以天馬行空的想事情。過于具體的生物學(xué)問題難以思考出個答案,畢竟是以實(shí)踐為主。但數(shù)據(jù)分析上的鬼點(diǎn)子倒是非常合適。
      過去幾年,正是這類時間,讓我能設(shè)計出 TBtools/JIGplot,優(yōu)化出其中各式各樣的特性。正如現(xiàn)在 TBtools 的插件模式,也是臨時想到的實(shí)現(xiàn)方式。
      今天躺著,突然想著:

      • 目的是矯正基因注釋

      • 手段是在我改造的基因?yàn)g覽器 IGV-GSAme 矯正

      • 輸入是基因組,待矯正的基因結(jié)構(gòu)注釋以及RNA讀段回帖的BAM

      • 操作是基于RNA的Alignments,手動調(diào)整注釋

      那么問題來了,要在windows完成全部工作,我們會遇到幾個問題

      1. IGV的特性不足,通過 IGV-GSAme 已經(jīng)解決

      2. 轉(zhuǎn)錄組回帖,通過 TBtools 的 Hisat2 插件也解決了

      3. 基因組局部區(qū)域的有參考組裝,無解!

      既然無解,那我完全可以鼓搗一個windows下的stringTie,中間做個接口,那么就可以實(shí)現(xiàn)局部組裝(注意,指定一個區(qū)域組裝,常常反而能組裝出準(zhǔn)確的結(jié)果,具體自行思考)。千里之行始于足下,在讓 IGV-GSAme 變得更強(qiáng)之前,先做一個簡單的東西,TBtools插件。

      StringTie Wrapper - 新的 TBtools 插件

      一共兩個對應(yīng)的是 Stringtie 兩個主要功能:

      1. Stringtie Assembly : 轉(zhuǎn)錄組組裝

      2. Stringtie Quantify : 轉(zhuǎn)錄本表達(dá)量估計

      StringTie Assembly 插件的使用

      對于組裝一步,參數(shù)簡單,用戶只需要提供排序好的BAM文件即可,這些文件,事實(shí)上可以通過前幾天推的 Hisat-build 和 Hisat-align 插件來獲取。需要注意的有三點(diǎn):

      1. 參考物種基因結(jié)構(gòu)注釋是可選的

      2. 設(shè)置輸出目錄而不是輸出文件,因?yàn)榻M裝時是單個bam文件單獨(dú)組裝,最后再進(jìn)行一次merge,得到最終可用的 GTF 文件(具體Fasta序列提取,可直接使用 TBtools 的 GXF Sequence Extract,請參考公號前述推文)

      3. 并行線程數(shù),應(yīng)該注意,此處的并行線程數(shù)與Stringtie軟件的線程數(shù)并不等價。(我調(diào)整了stringtie源碼,編譯并使其可以在windows下運(yùn)行,但windows系統(tǒng)限制,所以只能單線程,且速度上不來。這沒關(guān)系,我們可以多個文件同時組裝,這樣也就只需要使用stringtie的單線程模式,畢竟很多時候,我們并不可能做一個樣品的轉(zhuǎn)錄組測序和組裝 - PS:windows下可能會慢不少,比如6G的轉(zhuǎn)錄組,估計組裝時間大概要到 1個小時,在我的筆記本上。不過同時跑2個,那么也是1個小時嘛..)
        組裝結(jié)果大體如下,我做了兩個實(shí)際數(shù)據(jù)的,

      StringTie Quantify 插件的使用

      使用簡單,用戶需要的注意的幾乎只有三點(diǎn):

      1. 排序好的BAM文件

      2. 一個必須的基因結(jié)構(gòu)注釋文件,可以是gff3也可以是gtf,比如使用 StringTie Assembly插件整理的組裝結(jié)果。

      3. ReadLength, 這一參數(shù)即測序讀長。因?yàn)镾tringTie計算的其實(shí)是Coverage,并沒有讀段計數(shù)這一步。常見的操作是簡單地基于Coverage反推raw counts。于是read length成為必要。

      整體上會輸出六個矩陣,具體大伙自己看名字就知道是啥。

      即,轉(zhuǎn)錄本水平或基因水平的Counts,F(xiàn)PKM,TPM矩陣??刹榭雌渲心硞€。

      注意到,我前面做StringTie Assembly的時候設(shè)置了參考注釋,所以AcoXXXX等ID為原始注釋ID(事實(shí)上是沒有被組裝出來的,一般是覆蓋率極低),而MSTRGXXXX等為已有注釋中被當(dāng)前樣品覆蓋以及新注釋出來的基因。
      PS:四個插件將會一并上線至插件商店,暫時票價應(yīng)該會定位 100,打包估計 365,具體再定。

      感興趣的,想上車的,請參考前述《Plugin | 高速版插件商店!我又有一個絕妙的 idea》推文。

      寫在最后

      忙,簡單的推文斷續(xù)寫了幾天?,F(xiàn)在是大年三十晚上九點(diǎn),也算是在新春到來之時,了卻一個鬼點(diǎn)子。
      在此祝大伙新春快樂,牛年大吉!

      搞個活動

      評論區(qū)點(diǎn)贊前三,送新春現(xiàn)金紅包¥66.66,¥33.33,¥11.11 !

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多