乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      RNA

       菌心說 2022-01-27

      本文是由比利時(shí)列日大學(xué)Marc HANIKEN課程整理。陸陸續(xù)續(xù)交付NE大學(xué)??1個(gè)月完成,根據(jù)需要做的內(nèi)容分為四個(gè)部分。
      第一部分:將RNA-seq數(shù)據(jù)提交到組基因
      上第第二部分:將把-seq基因數(shù)據(jù)表達(dá)到分析組推薦上,用于生成基因表達(dá)分析組,
      第三部分使用DESeq包不同差異,
      第四部分:對(duì)第三部分的表達(dá)GO和KEGG評(píng)論

      1 目標(biāo)

      RNA-Seq的目標(biāo)是說明如何處理和分析RNA-Seq的數(shù)據(jù)以識(shí)別差異基因(DGE)。
      練習(xí)中使用真實(shí)的數(shù)據(jù)集,來自于加州的Illumina的表達(dá)基因RNA。
      需要做:
      1。在參考基因組)(每組參考工具組)(每組工具組)(工具組)上閱讀計(jì)數(shù),作為替代帽子和排列的策略
      DESeq(R語言)2不同的基因(DGEs)
      3)。簡(jiǎn)單進(jìn)行數(shù)據(jù)挖掘(GO和KEGG解釋)。

      2 數(shù)據(jù)介紹

      擬植物南芥的基因型(wt 組織模式和多種體型)在(c)和處理(t)條件下處于下。本樣品獨(dú)立株植物實(shí)驗(yàn)) 3 3 次 NextSeq 0 儀器以 4 次重復(fù)使用Illumina。集群基因組和芯片組在整個(gè)組件中運(yùn)行,使用中和兩個(gè) bp 的 5 個(gè)端快速介紹。 。

      3 分析數(shù)據(jù)

      3.1 查看數(shù)據(jù)

      head <your_sample>.fastq
      查看每個(gè)文件數(shù)據(jù)的讀數(shù):

      圖像.png

      將所有的樣本名稱攔截一個(gè)文件
      ,這樣方便進(jìn)行處理。

      for f in *.fastq; do echo `basename $f .fastq`; done > samples.ids

      3.2 RNA-Seq 數(shù)據(jù)分析中讀取映射的一般考慮


      在分析Seq -Seq 時(shí),有通用策略在計(jì)數(shù)之前讀取數(shù)據(jù)時(shí)。當(dāng)這種方法時(shí),雖然看似有某種相似的檢測(cè)能力,但通常很可能會(huì)被認(rèn)為沒有檢測(cè)到,因?yàn)樗_實(shí)沒有什么合適的本機(jī)或本類型。 (基因
      ii)也可以使用組播組上合適的組播。幾乎適用于所有這些。然而,有多種方法可以證明本和本的表達(dá)方式不同。

      第一部分:3.3 讀取映射到參考基因組

      3.3.1 工具介紹

      1. 頂帽軟件

      我們將使用流行的帽子,這是將 RNA-Seq 外接閱讀與基因組外顯子以識(shí)別子程序-顯式程序的短連接的。更多
      點(diǎn)擊查看:Tophat鏈接。

      TopHat 如何找到連接點(diǎn)的原理

      TopHat 可以通過注釋的情況下將 RNA-Seq 讀取到?jīng)]有參考基因。這個(gè)映射信息,TopHat建立一個(gè)可能的剪接連接的數(shù)據(jù)庫,然后將讀取映射到這些連接以確認(rèn)它們。

      這一段讀到這個(gè)標(biāo)題的機(jī)子可能有1個(gè)00個(gè)遺漏或短問題的外顯,但會(huì)在最初的象征中將比所有的內(nèi)容都被更多地漏掉。獨(dú)立映射這些。

      TopHat 兩個(gè)約定生成可能的剪接點(diǎn)數(shù)據(jù)庫。這種情況,“GTAG”、“GC-AG”和“AT-AG”和“AT-AG”和“AT-AG” AC“通常在其中含有不同品種的標(biāo)題尋找。第二個(gè)來源是“封面年齡的島嶼”的開始,是最終中部的中部地區(qū)尋找到的。將這些內(nèi)含子連接起來的方法。我們只建議第二個(gè)選項(xiàng)(--coverage-search)用于將短讀?。?lt;45bp)和用戶讀取(<=1000萬)。后一個(gè)選項(xiàng)對(duì)“GT-AG”內(nèi)含子之間的比。

      Tophat可以使用FASTA,FASTQ(推薦)格式的讀取。

      想要使用這個(gè)軟件,首先需要使用一下命令:

      圖像.png

      Bowtie2用于熱門組上的閱讀。

      蝶領(lǐng)結(jié)擅長使用一種超高配的技術(shù),用于與組合工具和排列組合。 Bowtie 2 保持珠寶形狀使用組合基于Browtie 2 對(duì)BWT 進(jìn)行),通常其占用或占用的內(nèi)存大小。 Bowtie 2 的結(jié)構(gòu)需要占用多少個(gè)內(nèi)存。雙端模式。同時(shí)可以使用多個(gè)處理器來更高的關(guān)注度。

      Bowtie 2 以SAM 格式輸出的其他方式,以SAM格式輸出的其他方式,使用授權(quán)文件和大量使用同樣的工具(SAMtools、GATK 的許可互操作)。Bowtie 2GPLv3 在和下分發(fā),Mac OS X Linux BSD 和它在Windows 下的運(yùn)行。

      Bowtie 2和Bowtie 2和Bowtie BS (這里也叫“集成1sowtie 2和Bowtie BS)通常是比較多種其他學(xué)組的,包括變異、RNA-seq、Ch IPeq。工具中,這里有其中一些。

      要與 Tophat 的連接點(diǎn),您首先需要為 RNA-Seq 中的生物體安裝蝴蝶結(jié)指數(shù)。使用 bowtie2-build 很容易自己制造一個(gè)。


      圖像.png

      Bowtie2 從 bowtie 索引中提取信息,允許確定它是什么索引以及使用什么序列來制造它。

      2. GFF/GTF 格式文件

      通過基因特征(例如外含子/內(nèi)含子描述格式組的基因組)提供的基因組注釋文件,可以幫助通過頂帽在基因組上進(jìn)行讀取映射。 注釋文件以 GFF/GTF 提供。

      Tophat 使用的基因組注釋文件就是 GFF/GTF
      格式

      圖像.png

      GTF(general transfer format)是GFF第二個(gè)版本,

      3 htseq-count軟件

      給定一個(gè)具有組合范圍的基因的文件,htseq-count 會(huì)計(jì)算出有多少讀取的特征映射到某個(gè)特征列表。 - 在每個(gè)情況下,特征通常是每個(gè)基因被結(jié)合的,其中所有外顯子的地方也可以顯示子的一個(gè)特征,例如,為了檢查。對(duì)于比較 ChIP-Seq,特征可能是列表中的結(jié)合區(qū)域。

      htseq-count 腳本允許在不同模式之間進(jìn)行選擇。 hts-count 的位置重疊模式的工作原理如下:定義一個(gè)集合 S(i) 的位置為我重疊的特征的集合。然后,考慮集合 S,它是(我遍歷或讀取對(duì)中的所有位置)

      • 并集,取所有模式集合 S(i) 的并集。對(duì)于大多數(shù)使用示例,建議使用此模式。
      • 交集,嚴(yán)格的所有模式集合 S(i) 的交集。
      • 如果S(i) 的交集,S(i) 的所有非空集。
        如果交集包含一個(gè)特征,則該特征計(jì)算可讀?。ɑ蜃x取對(duì))。它包含多個(gè)特征,則可讀取(或非模式)讀取對(duì))計(jì)為不明確的特征(不計(jì)入任何特征,如果S為,則讀?。ɑ?qū)Γ┯?jì)為no_feature。
        看圖更清晰的理解:


        圖像.png

      3.3.2 下載擬南芥參考

      網(wǎng)址:https://www./(需要注冊(cè))
      也可以使用以下命令:

      curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
      TAIR10_genome_release/assembly/TAIR10_Chr.all.fasta.gz
      curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
      Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gff.gz
      curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
      Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gtf.gz
      

      3.3.3 給基因參考建索引

      使用bowtie2-build。

      為擬南芥編制索引,花費(fèi)2分鐘

      bowtie2-build Arabidopsis.fasta At_ref

      檢查指數(shù),幾秒鐘

      bowtie2-inspect -n At-ref
      

      3.3.4 讀取映射

      內(nèi)容為存在以逗號(hào)隔FA打開的FASTQ或STA格式文件

      使用tophat完成

      一般使用命令:


      圖像.png

      更多的選擇閱讀文檔

      其中: --num-threads 4 ##可以多線程
      --output-dir <string> ## tophat輸出結(jié)果的文目錄
      --min-intron-length <int> ##內(nèi)含運(yùn)行子的長度:默認(rèn)700
      --intron-length <intmax的長度>:
      TopHat <GTF/0000000000000000-G--GTF <GTF3文件> #默認(rèn)為模型50--提供基因組內(nèi)和/或已知作為 GFF3 的最佳主題,該格式的主題圖 2 將按順序排列。在一張組上進(jìn)行映射的地圖將被轉(zhuǎn)換為組圖(并描繪出新的描繪需要)中的映射和連接點(diǎn)與頂層。

      請(qǐng)注意,所提供的 GTF/GFF 文件的第一個(gè)索引(指示特征所在的染色體相列或重疊群的列)的必須與 TopH 的 Bowtie-中的參考值。您可以使用序列匹配檢查進(jìn)行
      。蝴蝶結(jié)指數(shù),以便將與預(yù)期的本圖顯示。和相關(guān)的這些數(shù)據(jù)(如果 GFF 文件最初可以在此使用選項(xiàng)的多個(gè) TopHat 中運(yùn)行,因此文件僅針對(duì)給定的本計(jì)劃數(shù)據(jù)的第一次使用創(chuàng)建。該頂帽子,則應(yīng)首先使用 -G/---G 腳本的位置以及指向目錄和名稱標(biāo)題的標(biāo)題,然后將標(biāo)題顯示的主題目錄和標(biāo)題目錄的選項(xiàng)運(yùn)行的選項(xiàng)將顯示在頂部的主題目錄中。 -- 將運(yùn)行的中轉(zhuǎn)腳本-將使用頂部的運(yùn)行腳本-創(chuàng)建使用直接在第一次運(yùn)行選項(xiàng)組的數(shù)據(jù)(第一次選項(xiàng)后需要的組數(shù)據(jù))。

      開始操作

      軟參考鏈接組基因的FASTA:

      ln -s Arabidopsis.fasta At_ref.fa

      創(chuàng)建簡(jiǎn)單的索引。立即創(chuàng)建,方便使用所有樣本,簡(jiǎn)單組圖 5 分鐘

      tophat -G Arabidopsis.gtf --transcriptome-index=transcriptome_data/At_ref At_ref
      

      會(huì)在transcriptome_data/下產(chǎn)生10個(gè)文件

      映射閱讀,先創(chuàng)建一個(gè)模板

      tophat -o output_[% basename %] --read-mismatches 2 --min-intron-length 40 --max-intron-length 2000 --num-threads 2 --report-secondary-alignments --no-novel-juncs --transcriptome-index=transcriptome_data/At_ref At_ref [% basename %].fastq

      樣品創(chuàng)建一個(gè)灰

      for f in `cat samples.ids`
      do tpage --define queue=smallnodes --define basename=$f tophat.tt > tophat_$f.sh
      done
      

      提交任務(wù):

      for f in `cat samples.ids` do qsub -pe snode 2 tophat_$f.sh done

      此步驟費(fèi)用大約 1 小時(shí)
      查看任務(wù)

      qstat -f
      

      對(duì)所有的樣本進(jìn)行總結(jié)查看

      for f in `cat samples.ids` do head output_$f/align_summary.txt done

      3.3.5 讀計(jì)數(shù)

      使用htseq-count

      圖像.png

      指定輸出任務(wù)的一個(gè)表,包含功能(這里是由于計(jì)算)的計(jì)數(shù),然后是特定測(cè)點(diǎn)的特殊點(diǎn),用于未針對(duì)特定原因進(jìn)行的讀取。于過濾。情況是:
      圖像.png

      提示:如果你有特定于鏈的特定數(shù)據(jù),否則請(qǐng)確保你設(shè)置的 RNA-Seq 數(shù)據(jù)不是特定鏈的協(xié)議。-strand=no!
      htseq-count 有很多選項(xiàng),請(qǐng)查看鏈接文檔
      的 一些選項(xiàng):
      -f < sam or bam># 輸入文件,sam 或 bam 格式

      -s <yes/no/reverse>
      數(shù)據(jù)是否來自特定鏈的檢測(cè)(默認(rèn):yes)。 上雙淺=no,無論是映射到特征還是相同的鏈,都讀取與特征值重疊。 strand=reverse,這些規(guī)則是相反的。

      讀計(jì)數(shù)模板

      htseq-count -f bam -s reverse output_[% basename %]/accepted_hits.bam Arabidopsis.gtf
      

      運(yùn)行花費(fèi)半個(gè)小時(shí)。

      搜索征集統(tǒng)計(jì)信息

      貝殼命令

      for f in <your_name>_htseqcount_*.o*; do tail -n 5 $f; done

      .組件計(jì)算矩陣

      基因的名字

      cut -f1 <your_name>_htseqcount_<your_sample>.o<job_number> > gene_lists
      

      識(shí)數(shù)

      for f in `cat samples.ids` do cut -f2 <your_name>_htseqcount_$f.o* > $f.count done

      組件列表和計(jì)數(shù)

      paste gene_lists *.count > <your_name>_htseqcount.matrix
      

      得到這個(gè)結(jié)果文件,將用于 GE 的統(tǒng)計(jì)分析,

      第二部分: 4閱讀到參考組。

      3.4.1 工具介紹

      1. trinity耶路撒冷大學(xué)開發(fā)的一種新方法,由新地軟件從
        三個(gè)三角形研究所和模塊組成。以蝴蝶全長的基因圖譜,將高清圖片序列。剪剪接體像這樣的節(jié)目,并用系同源的節(jié)目本,是同源工作的:
      • 尺蠖——長短的本序列,通常能夠以同樣的方式組裝成不同類型的本子,通常為類型生成全長RNA本,但只要報(bào)告播種接本本的獨(dú)特部分。

      • 這些蛹的連續(xù)性將菊花的排列組合成簇,并為各個(gè)簇集組成。de Bruijs 在簇代表基因(或隨后的排列順序的組圖)的完整不相交交性。間劃分完整的閱讀集。

      • 蝴蝶源處理本本圖,跟蹤圖片閱讀和閱讀,最終報(bào)告出同種類型的全長接續(xù)本,并播出基因于旁系同種的劇情。

      2組組您需要分析
      完成后,可以進(jìn)行分析,以便根據(jù)預(yù)測(cè)和輸入的 RNA-S-A 數(shù)據(jù)探索體模型的相關(guān)參數(shù)。

      • 其他分析先決條件,例如用不同的表達(dá)方式舉例說明的本

      • 如果你的樣本和產(chǎn)品的基因數(shù)據(jù)重復(fù)存在并進(jìn)一步檢查相關(guān)關(guān)系。如果檢查或復(fù)制或檢查異常值的組合因素,例如異常值的組合結(jié)果,你將在任何混雜的情況下發(fā)現(xiàn)你的樣本和生物。數(shù)據(jù)探索中考慮到他們。

      • 進(jìn)行差異表達(dá)分析。Trinity 直接支持阿德萊德分析方法,包括 edgeR、DESeq2、Limma/Voom 和 ROTS。

      • 提取使用的編碼區(qū)TransDecoder和功能注釋使用的成績(jī)單Trinotate

      • 如果您的身體擁有組件的基因,請(qǐng)考慮使用 Trinity 組合組合討論使用PASA進(jìn)行結(jié)構(gòu)。

      分析使用每一個(gè)腳本:使用對(duì)齊的工具進(jìn)行統(tǒng)計(jì)分析。因此,我們將使用對(duì)齊的工具來展示
      代碼。使用SEM的一個(gè)例子,其應(yīng)用程序的一個(gè)問題是如何處理數(shù)據(jù)的不同類型的。 RSEM雙端數(shù)據(jù)分別采用不同類型的RNA-Seq,分別從不同頭型和類型端進(jìn)行衡量基因組。

      請(qǐng)注意,Trinity 提供了一個(gè)密切關(guān)注和高清晰的收視率統(tǒng)計(jì)方案。

      3
      必須提供數(shù)據(jù)標(biāo)準(zhǔn)的日歷統(tǒng)計(jì)方法(如指數(shù)或數(shù)字各種統(tǒng)計(jì)。)的預(yù)告統(tǒng)計(jì)片提供,另外還提供了預(yù)告到本刊的預(yù)告,該預(yù)告片還應(yīng)報(bào)道長短片、發(fā)布到每個(gè)千月的預(yù)告圖,以及發(fā)布任何本期的預(yù)告。本千報(bào)告為本本長的圖片(FPKM)或每本本(TPM)的長展示。

      3.4 擬擬南芥參考組2。

      來自Araport,需要登錄進(jìn)行免費(fèi)注冊(cè)。再使用以下代碼獲取。

      curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \ Araport11_Release_201606/annotation/Araport11_genes.201606.cds.fasta.gz

      3.4.索引擬南芥參考組3

      使用ltrinity的perl命令:align_and_estimate_abundance.pl,可以對(duì)所有樣本一次完成。

      圖像.png

      索引的操作命令

      perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --est_method RSEM --aln_method bowtie2 --prep_reference --output_dir ref_transcriptome_index
      

      這個(gè)過程花費(fèi)大約5分鐘,會(huì)生成14個(gè)文件,包含.bowtie2 ..RSEM

      3.4.4 對(duì)排列和計(jì)數(shù)

      使用 ltrinity 的 perl 命令:align_and_estimate_abundance.pl,并使用 RSEM 估計(jì)方法

      圖像.png

      圖像.png

      2建立gene_trans_地圖
      需要快速編排的文件,并且需要我們安排一個(gè)由安排快速編排的文件,以一個(gè)中的指揮安排名稱的方式
      的文件、外殼的意思

      grep \> Arabidopsis_transcripts.fasta | cut -f2 -d '>' | cut -f1 -d '|' > transcripts.ids # Let's paste twice this list in the same file $ paste transcripts.ids transcripts.ids > double_transcripts.ids $ head double_transcripts.ids # And apply the following perl one liner to remove the transcript number # from 1st column $ perl -nle 's/^(AT\w+)\.\d+/$1/g; print' double_transcripts.ids > gene_trans_map.txt

      3、進(jìn)行地圖和計(jì)數(shù)

      align_and_estimate_abundance.pl 命令

      使用模板:

      perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --seqType fq --single [% basename %].fastq --est_method RSEM --aln_method bowtie2 --SS_lib_type R --thread_count [% thread %] --gene_trans_map gene_trans_map.txt --output_prefix [% basename %] --output_dir trinity_[% basename %]
      

      創(chuàng)建多個(gè)樣本的sh文件:

      for f in `cat samples.ids` do tpage --define queue=smallnodes --define basename=$f --define thread=2 trinity_align_estimate.tt > align_estimate_$f.sh done

      提交任務(wù):

      for f in `cat samples.ids`
      do qsub -pe snode 2 align_estimate_$f.sh
      done
      

      這大概要花90分鐘
      再看看你的結(jié)果:


      圖像.png

      圖像.png

      3.4.5 生成表達(dá)矩陣

      使用:trinity下的abundance_estimates_to_matrix.pl命令
      非常簡(jiǎn)單地創(chuàng)建一個(gè)矩陣,將所有樣本的腳本數(shù)據(jù)組合。

      perl /media/vol1/apps/trinityrnaseq-2.2.0/util/abundance_estimates_to_matrix.pl --est_method RSEM trinity_*/*.genes.results --out_prefix <your_name>

      大概需要2分鐘

      該腳本輸出多個(gè)文件
      。 (未跨樣本歸一化)和TMM歸一表達(dá)值矩陣(應(yīng)用了跨樣本歸一化)。有關(guān)此查看更多詳細(xì)信息:https://github.com/trinityrnaseq/trinityrnaseq/wiki/Trinity -成績(jī)單-量化

      第三部分: 3.5 差異表達(dá)的基因

      使用R包DESeq2。

      3.5.1 包介紹

      詳細(xì)文檔介紹:https:///packages/release/bioc/html/DESeq2.html。
      允許估計(jì)來自高均等模型和 GLM 的分析值(基于 2 個(gè)基于使用負(fù)二的分布)。

      圖像.png

      DESeq2將首先對(duì)數(shù)據(jù)進(jìn)行建模的例子。
      這里可以從設(shè)置的系數(shù)開始,

      可以確定。的子函數(shù),用于第一次存儲(chǔ)計(jì)算和差異表達(dá)式分析的結(jié)果、數(shù)據(jù)集在“計(jì)數(shù)”矩陣中強(qiáng)制輸入的非任務(wù)值,作為分析列表中的一個(gè)元素存儲(chǔ)。實(shí)驗(yàn)設(shè)計(jì)的表達(dá)式。
      使用:DESeqSetFromMatrix(countData, colData, DESeqSetFromMatrix(countData, colData, 公式
      設(shè)計(jì):設(shè)計(jì)一個(gè)來每個(gè)基因的排列方式) 是公式中的公式。 colData 中的表達(dá)式公式,包括具有多個(gè)變量的設(shè)計(jì)元素,例如:輸入組組基因,以及為各種結(jié)果+結(jié)果的設(shè)計(jì),例如類型+治療基因型:治療基因型。查看設(shè)計(jì)的
      選擇矩陣

      2 DESeq DESeq
      數(shù)據(jù)基于負(fù)二項(xiàng)格式進(jìn)行差異分析。 它通過以下步驟執(zhí)行默認(rèn)分析:
      · 估計(jì)大?。篹stimateSizeFactors
      · 估計(jì)色散:estimateDisions
      · 二項(xiàng)式 GLM 負(fù)測(cè)試和 Wald 統(tǒng)計(jì):統(tǒng)計(jì)

      有關(guān)每個(gè)步驟的詳細(xì)信息,請(qǐng)參閱相應(yīng)手冊(cè)頁。調(diào)整值的信息,請(qǐng)參見結(jié)果手冊(cè)頁。

      使用DESeq(object),是一個(gè)DESeqDataSet的對(duì)象。如:DESeqDataSetFromMatrix。

      3
      DESeq 中抽取結(jié)果表,樣本的基本均值2 對(duì)數(shù)變化、標(biāo)準(zhǔn)結(jié)果分析結(jié)果和檢驗(yàn)結(jié)果的倍數(shù)、檢驗(yàn)統(tǒng)計(jì)量、p 后的p 調(diào)整。

      結(jié)果名稱 返回模型的估計(jì)模型(因子)的名稱

      results(object, contrast, lfcThreshold = 0, alpha = 0.1)
      resultsNames(object)
      

      參數(shù)是DESeqDataSet已經(jīng)在其上調(diào)用中以下函數(shù): DESeq 、bino值對(duì)比WaldTest或nbinomLRT之一,對(duì)比值比較變化
      從生成結(jié)果表。
      lfcThres
      0 是一個(gè)負(fù)值,指定log2非倍數(shù)的母值參數(shù)公式,值為 0,log2 倍數(shù)的名稱是最常用的值。 log2 倍數(shù)的默認(rèn)值變化的測(cè)試。

      alpha 優(yōu)化的顯著性結(jié)束值(默認(rèn)為 0.)。如果調(diào)整的 p 最終值 (FDR) 為 1,則 alpha 應(yīng)設(shè)置為該值。
      plotCounts
      plotCounts 允許在對(duì)數(shù)字上為 0.1 使用:plotCounts
      ( dds, gene, in = 'condition')
      dds 是 DESeqDataSet.,gene 是一個(gè)特殊的基因,intgroup:在colData(x)中,進(jìn)行分組的名稱。

      3.5.2 下載DESeq2

      library(BiocManager) BiocManager::install('openssl') BiocManager::install('RCurl') BiocManager::install(c('DESeq2','limma','gplots'), force = T)

      3.5.3 特征基因表達(dá)差異(成對(duì)比較)

      我們將在下面發(fā)現(xiàn)的基因需要允許需要的 R 腳本。您在里面按順序添加每個(gè)新步驟。然后,根據(jù) DGE 的治療類型(Ctrl vs Treat),最后治療對(duì)各個(gè)種的類型?;蛑斜仨毧紤]到這一點(diǎn)。

      Step 1. 加載數(shù)據(jù)并描述數(shù)據(jù)集

      #Load data
      countData=read.table('tophat_root.matrix',header=TRUE,row.names=1,sep='\t')
      head(countData)
      #Describe the dataset for each variable
      genot=rep(c('WT','mut'),each=6)
      treat=(rep(rep(c('Ctrl','Treat'),each=3),2))
      g_t=rep(c('WT-Ctrl', 'WT-Treat', 'mut-Ctrl', 'mut-Treat'),each=3)
      #Load dataset description in a data frame
      colData=data.frame(g_t,genot,treat,row.names=names(countData))
      colData
      

      步驟 2. 建立基因型響應(yīng)分析模型

      #Genotype effect ##### #Load data using the DESeqDataSetFromMatrix command genotDesign=DESeqDataSetFromMatrix(countData = countData,colData = colData, design = ~ genot) #Build model using the DESeq command genot_DESeq <- DESeq(genotDesign) #Observe parameters of the model resultsNames(genot_DESeq)

      步驟 3. 使用 PCA 對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)

      rld<-rlog(genot_DESeq)
      #tiff(filename = 'PCA_genot.tiff', width = 1500, height = 1500, units = 'px', res = 150)
      plotPCA(rld, intgroup=c('g_t'))
      dev.off()
      
      

      Step 4. 建立樣本距離的熱

      #Build sample distance sampleDist <- dist(t(assay(rld))) #Build heatmap sampleDistMatrix<-as.matrix(sampleDist) rownames(sampleDistMatrix)<-paste(rld$g_t) colnames(sampleDistMatrix)<-NULL colours=colorRampPalette(rev(brewer.pal(9, 'Blues')))(300) tiff(filename = 'heatmap_sampledist_Treat_root.tiff', width = 1500, height = 1500, units = 'px', res = 150) heatmap.2(sampleDistMatrix, dendrogram = 'both', trace = 'none', col = colours, main = 'Treat Root Sample Distance', margin=c(6, 8)) dev.off()

      步驟 5. 識(shí)別基因型主動(dòng)的 DGE

      #Extract results (contrast WT and mutant) with set lfc and pvalue
      res_genot=results(genot_DESeq, contrast = c('genot', 'mut', 'WT'), 
                        lfcThreshold = 1, alpha = 0.05)
      #Observe the summary of the analysis
      summary(res_genot)
      #Look at the results
      head(res_genot,2)
      #Export data into a table
      write.table(res_genot,'pairwise_root_WT_vs_mut.txt',sep='\t')
      #Filter data to extract up-regulated genes with a certain lfc and pvalue
      fc_genotM<- res_genot[which(res_genot$log2FoldChange > 1 & res_genot$padj<0.05),]
      #Filter data to extract down-regulated genes with a certain lfc and pvalue
      fc_genotL<- res_genot[which(res_genot$log2FoldChange < -1 & res_genot$padj<0.05),]
      #Export data into tables
      write.table(fc_genotM,'root_higher_mut_vs_WT.txt',sep='\t')
      write.table(fc_genotL,'root_lower_mut_vs_WT.txt',sep='\t')
      

      步驟 6。

      plotCounts(genot_DESeq, 'AT2G19110', intgroup = 'genot')

      第四部分:3.6數(shù)據(jù)挖掘

      我們非常容易和我們一起使用 GE 數(shù)據(jù)集進(jìn)行的數(shù)據(jù)接口。 Thalemine 非常容易獲得相關(guān)數(shù)據(jù)集的功能。
      https://bar./thalemine/

      為了使用這個(gè),我們首先需要從DESeq中
      生成2個(gè)提取DESeq的文件(8個(gè)生成對(duì).txt,8個(gè)工具對(duì).txt和8個(gè)過濾低解析)。列表的數(shù)據(jù)我們只生成一個(gè)對(duì)high.txt和lower.*txt文件部分。
      使用外殼對(duì)文件信息提取,并進(jìn)行合并:

      mkdir full_DGE_data
      mv pairwise*.txt full_DGE_data
      ls
      # have a look at one of the files
       head higher_root_Ctrl_mut_vs_WT.txt
      cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | head
      cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | sed '1d' | head
      # Let's do that for all files
      for f in *root*.txt; do cut -f2 -d ''' $f | sed '1d' > $f.gene.list; done
       ls

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多