乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      RNAseq數(shù)據(jù)的分析流程-糗世界

       panhoy 2014-05-30

      翻譯自:From RNA-seq reads to differential expression, Oshlack et al. Genome Biology 2010, 11:220

      高通量測序技術(shù),也就是下一代測序技術(shù)已經(jīng)成為現(xiàn)代生物學(xué)研究的一個較為常規(guī)的實驗手段了。這一技術(shù)的發(fā)展極大地推動了基因組學(xué),表觀基因組學(xué)以及翻譯組學(xué)的研究。RNA-seq通過測定穩(wěn)定狀態(tài)下的RNA樣品的序列來對RNA樣品進行研究,從而避免了許多之前研究手段的不足,比如象基因芯片或者PCR就需要背景知識。而且RNA-seq還可以觸及以前無法研究的領(lǐng)域,比如復(fù)雜結(jié)構(gòu)的轉(zhuǎn)錄體。RNA-seq可以應(yīng)用于以下幾個方面的研究,1. SNPs;2. novel transcripts;3. alternative splicing;4. RNA editing。無論如何,使用RNA-seq最多的還是比較兩組樣品基因水平表達差異,比如野生型與突變型,用藥組與對照組,不同組織之間,癌細胞與正常細胞,等等。我們把這種基因水平差異表達,簡稱為DE (differential expression,注,不是ED啊???)。

      常用的RNA-seq操作平臺有Illumina GA/ HiSeq, SOLiD 還有Roche 454。它們都是提取RNA后,純化,打碎,逆轉(zhuǎn)錄成cDNA,然后測序。測序的結(jié)果被稱為short reads,短序。通常一個短序的長度為25-300bp之間。如果測序只測一端可能會帶來比對時的困難,于是這些操作平臺提供了兩端都測的辦法,這樣的結(jié)果成對出現(xiàn),中間有一定的間隔,但是因為測序長度一下子提高了一倍,所以比對會精準(zhǔn)很多。人們把這種測序結(jié)果稱為’paired-end’ reads,成對短序。一般來講,測序結(jié)果會直接轉(zhuǎn)換成一行一行的由字母組成的短序列,可能是fasta,fastq等等不同格式。

      然而,這一技術(shù)產(chǎn)生的海量數(shù)據(jù)分析卻給生物學(xué)家?guī)砹穗y題。一個測序的結(jié)果文件少則幾Gb,多則幾十Gb,單獨對比拼接,就會用去幾個小時,而后再得出差異表達的結(jié)果,其耗時耗力,并非實驗生物學(xué)家可以應(yīng)付得了的。于是生物信息學(xué)的研究人員努力做出一些軟件,以降低結(jié)果分析的難度。但是,即使這樣,還是必須對分析過程有個較為細致地了解,才能正確地使用這些軟件,從而得到比較接近事實的結(jié)果。

      一般的來講,RNA-seq后DE的工作流程是這樣的(圖1),首先,將短序映射到基因組相應(yīng)的位置上去,其次,對映射的結(jié)果進行基因水平,外顯子水平,以及轉(zhuǎn)錄水平的拼接,而后對結(jié)果進行數(shù)據(jù)統(tǒng)計,標(biāo)準(zhǔn)化之后生成表達水平報告文件,最后由生物學(xué)者依據(jù)系統(tǒng)生物學(xué)相關(guān)知識,來對數(shù)據(jù)結(jié)果進行分析。

      RNA-seq分析工作流程

      RNA-seq分析工作流程

      不同步驟涉汲的軟件和方法:

      分析步驟 方法
      mapping General aligner GMAP/GSNAP


      BFAST


      BOWTIE


      CloudBurst


      GNUmap


      MAQ/BWA


      PerM


      RzaerS


      Mrfast/mrsfast


      SOAP/SOAP2


      SHRiMP

      De novo annotator QPALMA/GenomeMapper/PALMapper


      SpliceMap


      SOAPals


      G-Mo.R-Se


      TopHat


      SplitSeek

      De novo transcript assembler Qases


      MIRA
      Summarization Isoform-based Cufflinks


      ALEXA-seq

      Gene-based Count exons only


      Exon junction libraries
      Normalization library size

      RPKM: reads per kilobase of exon model per million mapped reads ERANGE

      TMM: trimmed mean of M-values edgeR

      Upper quartile Myrna
      Differential expression Poisson GLM (generalized linear model) DEGseq


      Myrna

      Negative binomial edgeR


      DESeq


      baySeq
      Systems biology Gene Ontology analysis GOseq

      映射至基因組(Mapping)

      第一步的工作是比對(alignment)。對于RNA-seq的比對,從來都不是一件容易的事情。其難點如下:

      1. 沒有很好的比對模板。現(xiàn)在的比對模板都是基因組模板,而不是真正的轉(zhuǎn)錄組模板,也就是說,這對本來就不是很長的短序來說,它很有可能是界于兩個exon之間。我們在比對junction的時候,一般還是假設(shè)它如果沒能在基因組模板中找到合適的位置的時候,才考慮它是否是界于junction上。這種人為的假設(shè)可能并不準(zhǔn)確。
      2. SNPs,堿基插入,刪除,錯配,或者質(zhì)量不高的測序結(jié)果,從模板至比對序列本身,都存在著比基因比對更為復(fù)雜的問題。
      3. 短序可能會有多個100%的匹配位點。
      4. 有些基因組可能需要龐大的內(nèi)存空間。

      為了解決最后一個問題,人們使用了很多辦法,但基本上都會基于事先建立的引索庫。即所謂“啟發(fā)式”比對(heuristic match)。首先使用一定長度的(通常是11個堿基)的序列做為索引用的關(guān)鍵字,在匹配這一索引字之后,就很大程度地縮小了其需要匹配的模板范圍。但是這一辦法的問題在于不容易解決問題2中的空格,錯配問題。所以在很多軟件使用時,會要求人工確認(rèn)高保真區(qū),以及最高允許2?3個錯配。

      現(xiàn)在比較快的“啟發(fā)式”比對主要有兩種算法,一種是哈希表(hash table),一種是BW壓縮轉(zhuǎn)換(Burrows Wheeler transform, BWT)。前者速度快,但是對內(nèi)存要求比后者要高。

      對于問題3,一般而言,大部分軟件使用的辦法是只保留一個匹配位點,其中,有些是只保留第一個匹配位點,有些是按照概率分布選取保留的位點。當(dāng)然,前面已經(jīng)提到過,可以使用paired-end read來盡量避免問題3的出現(xiàn)。

      對于問題1,可以使用外顯子庫來確定junction reads。有兩種辦法,一種是依靠已知的外顯子庫來構(gòu)建,另一種辦法就是依據(jù)已經(jīng)匹配好的短序來構(gòu)建外顯子庫(de novo assembly of transcriptome)。后者的不足是運算量大,對測序覆蓋范圍要求高,最好是使用paired-end reads。

      還有人發(fā)現(xiàn),對于ploy(A)的處理會減少不能映身的短序數(shù)。比如,Pickrell et al.就發(fā)現(xiàn),對于46bp的Illumina reads,87%的短序可以映射至模板,7%可以映射至junction library。如果對那些不能映射的短序,將在頭或者尾含有的超過連續(xù)4個的A或者T去除,就可以得到約0.005%的映射。

      綜合評價(Summarizing mapped reads)

      這一步,主要是基本于不同水平(外顯子水平,轉(zhuǎn)錄水平,或者基因水平)進行統(tǒng)計。最簡單的辦法就是統(tǒng)計落在每個外顯上的短序數(shù)。但是有研究表明,很多(可能超過15%)的短序會落在外顯子兩側(cè),這會影響統(tǒng)計的結(jié)果。另一種辦法就是統(tǒng)會落在內(nèi)顯子區(qū)域的短序數(shù)。

      無論如何,即使是基因水平的綜合評價,也還是有其它的一些問題。比如overlapping的基因的統(tǒng)計。比如junction的統(tǒng)計。

      標(biāo)準(zhǔn)化(Normalization)

      標(biāo)準(zhǔn)化對于樣品內(nèi)及樣品間的比較而言是非常重要的。標(biāo)準(zhǔn)化被分為兩類,樣品內(nèi)及樣品間(between- and within-library)。

      樣品內(nèi)標(biāo)準(zhǔn)化使得在同一樣品內(nèi)不得基因之間的表達差異變得有意義。最常用到的一個辦法就是使用落在同一基因內(nèi)的短序數(shù)除以單位基因長度。比較常用的單位是RPKM (reads per kilobase of exon model per million mapped reads)。但是這一方法也受到樣品制備和測序方法的干擾。

      而對于樣品間標(biāo)準(zhǔn)化,最簡單而直接的辦法使用短序總數(shù)來平衡表達量。然而短序總數(shù)受測序深度的干擾,而且單個基因的短序數(shù)與實際的表達量并不一定會呈線性比較關(guān)系。人們又使用四分位(quantile normlization)標(biāo)準(zhǔn)化的辦法。但是有研究說這一辦法并沒有實際的價值。還有提出使用對數(shù)分布法則(power law distributions)來進行樣品間標(biāo)準(zhǔn)化。但沒有研究對這一處理方式進行驗證。

      差異表達(Differential expression)

      差異表達分析的最終目的是將那些差異表達的基因(外顯子等等)從海量數(shù)據(jù)中提取出來。最終的結(jié)果顯示一般來說是表格化的,這一表格按照一定的規(guī)則排序,讓人們能夠盡可能簡單地拿到想要的結(jié)果。

      由于RNA-seq結(jié)果的離散性,人們一般都會使用統(tǒng)計模型來擬合實驗得到的結(jié)果。一般而言,RNA-seq的結(jié)果是比較附合伯松分布(poisson distribution)的。這一結(jié)果得到了單通道Illumina GA測序結(jié)果的實驗驗證。但是,伯松分布分析結(jié)果常常在多組重復(fù)的樣品間帶來較高的假陽性,因為它低估了生物取樣的樣品間誤差。所以RNA-seq如何設(shè)置重復(fù)是一個很重要的問題。為了平衡重復(fù)樣品所帶來的誤差,人們使用了serial analysis of gene expression (SAGE) data。

      現(xiàn)有的軟件一般都是針對較為簡單的實驗設(shè)計的。而對于復(fù)雜的實驗設(shè)計,比如說成對樣品,時間依賴樣品等等,還沒有專門的,較好的解決方案。大多數(shù)都使用edgeR的線性模型來進行分析。

      后期系統(tǒng)生物學(xué)分析

      簡單地講,前景是廣闊的,但目前為止手段還是比較有限的,基本上就是GO分析。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多