RNA

菌心說 2022-01-27

展開全文

本文是由比利時(shí)列日大學(xué)Marc HANIKEN課程整理。陸陸續(xù)續(xù)交付NE大學(xué)??1個(gè)月完成，根據(jù)需要做的內(nèi)容分為四個(gè)部分。
第一部分：將RNA-seq數(shù)據(jù)提交到組基因
上第第二部分：將把-seq基因數(shù)據(jù)表達(dá)到分析組推薦上，用于生成基因表達(dá)分析組，
第三部分使用DESeq包不同差異，
第四部分：對(duì)第三部分的表達(dá)GO和KEGG評(píng)論

1 目標(biāo)

RNA-Seq的目標(biāo)是說明如何處理和分析RNA-Seq的數(shù)據(jù)以識(shí)別差異基因（DGE）。
練習(xí)中使用真實(shí)的數(shù)據(jù)集，來自于加州的Illumina的表達(dá)基因RNA。
需要做：
1。在參考基因組）（每組參考工具組）（每組工具組）（工具組）上閱讀計(jì)數(shù)，作為替代帽子和排列的策略
；DESeq（R語言）2不同的基因（DGEs）
3）。簡(jiǎn)單進(jìn)行數(shù)據(jù)挖掘（GO和KEGG解釋）。

2 數(shù)據(jù)介紹

擬植物南芥的基因型（wt 組織模式和多種體型）在（c）和處理（t）條件下處于下。本樣品獨(dú)立株植物實(shí)驗(yàn)） 3 3 次 NextSeq 0 儀器以 4 次重復(fù)使用Illumina。集群基因組和芯片組在整個(gè)組件中運(yùn)行，使用中和兩個(gè) bp 的 5 個(gè)端快速介紹。。

3 分析數(shù)據(jù)

3.1 查看數(shù)據(jù)

head <your_sample>.fastq
查看每個(gè)文件數(shù)據(jù)的讀數(shù)：

圖像.png

將所有的樣本名稱攔截一個(gè)文件
，這樣方便進(jìn)行處理。

for f in *.fastq; do echo `basename $f .fastq`; done > samples.ids

3.2 RNA-Seq 數(shù)據(jù)分析中讀取映射的一般考慮

在分析Seq -Seq 時(shí)，有通用策略在計(jì)數(shù)之前讀取數(shù)據(jù)時(shí)。當(dāng)這種方法時(shí)，雖然看似有某種相似的檢測(cè)能力，但通常很可能會(huì)被認(rèn)為沒有檢測(cè)到，因?yàn)樗_實(shí)沒有什么合適的本機(jī)或本類型。（基因
ii）也可以使用組播組上合適的組播。幾乎適用于所有這些。然而，有多種方法可以證明本和本的表達(dá)方式不同。

第一部分：3.3 讀取映射到參考基因組

3.3.1 工具介紹

1. 頂帽軟件

我們將使用流行的帽子，這是將 RNA-Seq 外接閱讀與基因組外顯子以識(shí)別子程序-顯式程序的短連接的。更多
點(diǎn)擊查看：Tophat鏈接。

TopHat 如何找到連接點(diǎn)的原理：

TopHat 可以通過注釋的情況下將 RNA-Seq 讀取到?jīng)]有參考基因。這個(gè)映射信息，TopHat建立一個(gè)可能的剪接連接的數(shù)據(jù)庫，然后將讀取映射到這些連接以確認(rèn)它們。

這一段讀到這個(gè)標(biāo)題的機(jī)子可能有1個(gè)00個(gè)遺漏或短問題的外顯，但會(huì)在最初的象征中將比所有的內(nèi)容都被更多地漏掉。獨(dú)立映射這些。

TopHat 兩個(gè)約定生成可能的剪接點(diǎn)數(shù)據(jù)庫。這種情況，“GTAG”、“GC-AG”和“AT-AG”和“AT-AG”和“AT-AG” AC“通常在其中含有不同品種的標(biāo)題尋找。第二個(gè)來源是“封面年齡的島嶼”的開始，是最終中部的中部地區(qū)尋找到的。將這些內(nèi)含子連接起來的方法。我們只建議第二個(gè)選項(xiàng)（--coverage-search）用于將短讀?。?lt;45bp）和用戶讀取（<=1000萬）。后一個(gè)選項(xiàng)對(duì)“GT-AG”內(nèi)含子之間的比。

Tophat可以使用FASTA,FASTQ(推薦)格式的讀取。

想要使用這個(gè)軟件，首先需要使用一下命令：

圖像.png

Bowtie2用于熱門組上的閱讀。

蝶領(lǐng)結(jié)擅長使用一種超高配的技術(shù)，用于與組合工具和排列組合。 Bowtie 2 保持珠寶形狀使用組合（基于Browtie 2 對(duì)BWT 進(jìn)行），通常其占用或占用的內(nèi)存大小。 Bowtie 2 的結(jié)構(gòu)需要占用多少個(gè)內(nèi)存。雙端模式。同時(shí)可以使用多個(gè)處理器來更高的關(guān)注度。

Bowtie 2 以SAM 格式輸出的其他方式，以SAM格式輸出的其他方式，使用授權(quán)文件和大量使用同樣的工具（SAMtools、GATK 的許可互操作）。Bowtie 2GPLv3 在和下分發(fā)，Mac OS X Linux BSD 和它在Windows 下的運(yùn)行。

Bowtie 2和Bowtie 2和Bowtie BS （這里也叫“集成1 ” sowtie 2和Bowtie BS）通常是比較多種其他學(xué)組的，包括變異、RNA-seq、Ch IPeq。工具中，這里有其中一些。

要與 Tophat 的連接點(diǎn)，您首先需要為 RNA-Seq 中的生物體安裝蝴蝶結(jié)指數(shù)。使用 bowtie2-build 很容易自己制造一個(gè)。

圖像.png

Bowtie2 從 bowtie 索引中提取信息，允許確定它是什么索引以及使用什么序列來制造它。

2. GFF/GTF 格式文件

通過基因特征（例如外含子/內(nèi)含子描述格式組的基因組）提供的基因組注釋文件，可以幫助通過頂帽在基因組上進(jìn)行讀取映射。注釋文件以 GFF/GTF 提供。

Tophat 使用的基因組注釋文件就是 GFF/GTF
格式。

圖像.png

GTF(general transfer format)是GFF第二個(gè)版本，

3 htseq-count軟件

給定一個(gè)具有組合范圍的基因的文件，htseq-count 會(huì)計(jì)算出有多少讀取的特征映射到某個(gè)特征列表。 - 在每個(gè)情況下，特征通常是每個(gè)基因被結(jié)合的，其中所有外顯子的地方也可以顯示子的一個(gè)特征，例如，為了檢查。對(duì)于比較 ChIP-Seq，特征可能是列表中的結(jié)合區(qū)域。

htseq-count 腳本允許在不同模式之間進(jìn)行選擇。 hts-count 的位置重疊模式的工作原理如下：定義一個(gè)集合 S(i) 的位置為我重疊的特征的集合。然后，考慮集合 S，它是（我遍歷或讀取對(duì)中的所有位置）

并集，取所有模式集合 S(i) 的并集。對(duì)于大多數(shù)使用示例，建議使用此模式。
交集，嚴(yán)格的所有模式集合 S(i) 的交集。
如果S(i) 的交集，S(i) 的所有非空集。
如果交集包含一個(gè)特征，則該特征計(jì)算可讀?。ɑ蜃x取對(duì)）。它包含多個(gè)特征，則可讀取（或非模式）讀取對(duì)）計(jì)為不明確的特征（不計(jì)入任何特征，如果S為，則讀?。ɑ?qū)Γ┯?jì)為no_feature。
看圖更清晰的理解：

圖像.png

3.3.2 下載擬南芥參考

網(wǎng)址：https://www./（需要注冊(cè)）
也可以使用以下命令：

curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
TAIR10_genome_release/assembly/TAIR10_Chr.all.fasta.gz
curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gff.gz
curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_latest/annotation/Araport11_GFF3_genes_transposons.201606.gtf.gz

3.3.3 給基因參考建索引

使用bowtie2-build。

為擬南芥編制索引，花費(fèi)2分鐘

bowtie2-build Arabidopsis.fasta At_ref

檢查指數(shù)，幾秒鐘

bowtie2-inspect -n At-ref

3.3.4 讀取映射

內(nèi)容為存在以逗號(hào)隔FA打開的FASTQ或STA格式文件

使用tophat完成

一般使用命令：

圖像.png

更多的選擇閱讀文檔

其中： --num-threads 4 ##可以多線程
--output-dir <string> ## tophat輸出結(jié)果的文目錄
--min-intron-length <int> ##內(nèi)含運(yùn)行子的長度：默認(rèn)700
--intron-length <intmax的長度>：
TopHat <GTF/0000000000000000-G--GTF <GTF3文件> #默認(rèn)為模型50--提供基因組內(nèi)和/或已知作為 GFF3 的最佳主題，該格式的主題圖 2 將按順序排列。在一張組上進(jìn)行映射的地圖將被轉(zhuǎn)換為組圖（并描繪出新的描繪需要）中的映射和連接點(diǎn)與頂層。

請(qǐng)注意，所提供的 GTF/GFF 文件的第一個(gè)索引（指示特征所在的染色體相列或重疊群的列）的必須與 TopH 的 Bowtie-中的參考值。您可以使用序列匹配檢查進(jìn)行
。蝴蝶結(jié)指數(shù)，以便將與預(yù)期的本圖顯示。和相關(guān)的這些數(shù)據(jù)（如果 GFF 文件最初可以在此使用選項(xiàng)的多個(gè) TopHat 中運(yùn)行，因此文件僅針對(duì)給定的本計(jì)劃數(shù)據(jù)的第一次使用創(chuàng)建。該頂帽子，則應(yīng)首先使用 -G/---G 腳本的位置以及指向目錄和名稱標(biāo)題的標(biāo)題，然后將標(biāo)題顯示的主題目錄和標(biāo)題目錄的選項(xiàng)運(yùn)行的選項(xiàng)將顯示在頂部的主題目錄中。 -- 將運(yùn)行的中轉(zhuǎn)腳本-將使用頂部的運(yùn)行腳本-創(chuàng)建使用直接在第一次運(yùn)行選項(xiàng)組的數(shù)據(jù)（第一次選項(xiàng)后需要的組數(shù)據(jù)）。

開始操作

軟參考鏈接組基因的FASTA：

ln -s Arabidopsis.fasta At_ref.fa

創(chuàng)建簡(jiǎn)單的索引。立即創(chuàng)建，方便使用所有樣本，簡(jiǎn)單組圖 5 分鐘

tophat -G Arabidopsis.gtf --transcriptome-index=transcriptome_data/At_ref At_ref

會(huì)在transcriptome_data/下產(chǎn)生10個(gè)文件

映射閱讀，先創(chuàng)建一個(gè)模板

tophat -o output_[% basename %] --read-mismatches 2 --min-intron-length 40 --max-intron-length 2000 --num-threads 2 --report-secondary-alignments --no-novel-juncs --transcriptome-index=transcriptome_data/At_ref At_ref [% basename %].fastq

樣品創(chuàng)建一個(gè)灰

for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f tophat.tt > tophat_$f.sh
done

提交任務(wù)：

for f in `cat samples.ids`
do qsub -pe snode 2 tophat_$f.sh
done

此步驟費(fèi)用大約 1 小時(shí)
查看任務(wù)

qstat -f

對(duì)所有的樣本進(jìn)行總結(jié)查看

for f in `cat samples.ids`
do head output_$f/align_summary.txt
done

3.3.5 讀計(jì)數(shù)

使用htseq-count

圖像.png

指定輸出任務(wù)的一個(gè)表，包含功能（這里是由于計(jì)算）的計(jì)數(shù)，然后是特定測(cè)點(diǎn)的特殊點(diǎn)，用于未針對(duì)特定原因進(jìn)行的讀取。于過濾。情況是：

圖像.png

提示：如果你有特定于鏈的特定數(shù)據(jù)，否則請(qǐng)確保你設(shè)置的 RNA-Seq 數(shù)據(jù)不是特定鏈的協(xié)議。-strand=no！
htseq-count 有很多選項(xiàng)，請(qǐng)查看鏈接文檔
的一些選項(xiàng)：
-f < sam or bam># 輸入文件，sam 或 bam 格式

-s <yes/no/reverse>
數(shù)據(jù)是否來自特定鏈的檢測(cè)（默認(rèn)：yes）。上雙淺=no，無論是映射到特征還是相同的鏈，都讀取與特征值重疊。 strand=reverse，這些規(guī)則是相反的。

讀計(jì)數(shù)模板

htseq-count -f bam -s reverse output_[% basename %]/accepted_hits.bam Arabidopsis.gtf

運(yùn)行花費(fèi)半個(gè)小時(shí)。

搜索征集統(tǒng)計(jì)信息

貝殼命令

for f in <your_name>_htseqcount_*.o*; do tail -n 5 $f; done

.組件計(jì)算矩陣

基因的名字

cut -f1 <your_name>_htseqcount_<your_sample>.o<job_number> > gene_lists

識(shí)數(shù)

for f in `cat samples.ids`
do cut -f2 <your_name>_htseqcount_$f.o* > $f.count
done

組件列表和計(jì)數(shù)

paste gene_lists *.count > <your_name>_htseqcount.matrix

得到這個(gè)結(jié)果文件，將用于 GE 的統(tǒng)計(jì)分析，

第二部分： 4閱讀到參考組。

3.4.1 工具介紹

trinity耶路撒冷大學(xué)開發(fā)的一種新方法，由新地軟件從
三個(gè)三角形研究所和模塊組成。以蝴蝶全長的基因圖譜，將高清圖片序列。剪剪接體像這樣的節(jié)目，并用系同源的節(jié)目本，是同源工作的：

尺蠖——長短的本序列，通常能夠以同樣的方式組裝成不同類型的本子，通常為類型生成全長RNA本，但只要報(bào)告播種接本本的獨(dú)特部分。
這些蛹的連續(xù)性將菊花的排列組合成簇，并為各個(gè)簇集組成。de Bruijs 在簇代表基因（或隨后的排列順序的組圖）的完整不相交交性。間劃分完整的閱讀集。
蝴蝶源處理本本圖，跟蹤圖片閱讀和閱讀，最終報(bào)告出同種類型的全長接續(xù)本，并播出基因于旁系同種的劇情。

2組組您需要分析
完成后，可以進(jìn)行分析，以便根據(jù)預(yù)測(cè)和輸入的 RNA-S-A 數(shù)據(jù)探索體模型的相關(guān)參數(shù)。

其他分析先決條件，例如用不同的表達(dá)方式舉例說明的本。
如果你的樣本和產(chǎn)品的基因數(shù)據(jù)重復(fù)存在并進(jìn)一步檢查相關(guān)關(guān)系。如果檢查或復(fù)制或檢查異常值的組合因素，例如異常值的組合結(jié)果，你將在任何混雜的情況下發(fā)現(xiàn)你的樣本和生物。數(shù)據(jù)探索中考慮到他們。
進(jìn)行差異表達(dá)分析。Trinity 直接支持阿德萊德分析方法，包括 edgeR、DESeq2、Limma/Voom 和 ROTS。
提取使用的編碼區(qū)TransDecoder和功能注釋使用的成績(jī)單Trinotate。
如果您的身體擁有組件的基因，請(qǐng)考慮使用 Trinity 組合組合討論使用PASA進(jìn)行結(jié)構(gòu)。

分析使用每一個(gè)腳本：使用對(duì)齊的工具進(jìn)行統(tǒng)計(jì)分析。因此，我們將使用對(duì)齊的工具來展示
代碼。使用SEM的一個(gè)例子，其應(yīng)用程序的一個(gè)問題是如何處理數(shù)據(jù)的不同類型的。 RSEM雙端數(shù)據(jù)分別采用不同類型的RNA-Seq，分別從不同頭型和類型端進(jìn)行衡量基因組。

請(qǐng)注意，Trinity 提供了一個(gè)密切關(guān)注和高清晰的收視率統(tǒng)計(jì)方案。

3
必須提供數(shù)據(jù)標(biāo)準(zhǔn)的日歷統(tǒng)計(jì)方法（如指數(shù)或數(shù)字各種統(tǒng)計(jì)。）的預(yù)告統(tǒng)計(jì)片提供，另外還提供了預(yù)告到本刊的預(yù)告，該預(yù)告片還應(yīng)報(bào)道長短片、發(fā)布到每個(gè)千月的預(yù)告圖，以及發(fā)布任何本期的預(yù)告。本千報(bào)告為本本長的圖片（FPKM）或每本本（TPM）的長展示。

3.4 擬擬南芥參考組2。

來自Araport，需要登錄進(jìn)行免費(fèi)注冊(cè)。再使用以下代碼獲取。

curl -sO -H 'Authorization: Bearer <your_id_key>' https://api./files/v2/media/system/araport-public-files// \
Araport11_Release_201606/annotation/Araport11_genes.201606.cds.fasta.gz

3.4.索引擬南芥參考組3

使用ltrinity的perl命令：align_and_estimate_abundance.pl，可以對(duì)所有樣本一次完成。

圖像.png

索引的操作命令

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --est_method RSEM --aln_method bowtie2 --prep_reference --output_dir ref_transcriptome_index

這個(gè)過程花費(fèi)大約5分鐘，會(huì)生成14個(gè)文件，包含.bowtie2 .和.RSEM

3.4.4 對(duì)排列和計(jì)數(shù)

使用 ltrinity 的 perl 命令：align_and_estimate_abundance.pl，并使用 RSEM 估計(jì)方法

圖像.png

2建立gene_trans_地圖
需要快速編排的文件，并且需要我們安排一個(gè)由安排快速編排的文件，以一個(gè)中的指揮安排名稱的方式
的文件、外殼的意思

grep \> Arabidopsis_transcripts.fasta | cut -f2 -d '>' | cut -f1 -d '|' > transcripts.ids
# Let's paste twice this list in the same file
$ paste transcripts.ids transcripts.ids > double_transcripts.ids
$ head double_transcripts.ids
# And apply the following perl one liner to remove the transcript number
# from 1st column
$ perl -nle 's/^(AT\w+)\.\d+/$1/g; print' double_transcripts.ids > gene_trans_map.txt

3、進(jìn)行地圖和計(jì)數(shù)

align_and_estimate_abundance.pl 命令

使用模板：

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/align_and_estimate_abundance.pl --transcripts Arabidopsis_transcripts.fasta --seqType fq --single [% basename %].fastq --est_method RSEM --aln_method bowtie2 --SS_lib_type R --thread_count [% thread %] --gene_trans_map gene_trans_map.txt --output_prefix [% basename %] --output_dir trinity_[% basename %]

創(chuàng)建多個(gè)樣本的sh文件：

for f in `cat samples.ids`
do tpage --define queue=smallnodes --define basename=$f --define thread=2 trinity_align_estimate.tt > align_estimate_$f.sh
done

提交任務(wù)：

for f in `cat samples.ids`
do qsub -pe snode 2 align_estimate_$f.sh
done

這大概要花90分鐘
再看看你的結(jié)果：

圖像.png

3.4.5 生成表達(dá)矩陣

使用：trinity下的abundance_estimates_to_matrix.pl命令將
非常簡(jiǎn)單地創(chuàng)建一個(gè)矩陣，將所有樣本的腳本數(shù)據(jù)組合。

perl /media/vol1/apps/trinityrnaseq-2.2.0/util/abundance_estimates_to_matrix.pl --est_method RSEM trinity_*/*.genes.results --out_prefix <your_name>

大概需要2分鐘

該腳本輸出多個(gè)文件
。（未跨樣本歸一化）和TMM歸一表達(dá)值矩陣（應(yīng)用了跨樣本歸一化）。有關(guān)此查看更多詳細(xì)信息：https://github.com/trinityrnaseq/trinityrnaseq/wiki/Trinity -成績(jī)單-量化

第三部分： 3.5 差異表達(dá)的基因

使用R包DESeq2。

3.5.1 包介紹

詳細(xì)文檔介紹：https:///packages/release/bioc/html/DESeq2.html。
允許估計(jì)來自高均等模型和 GLM 的分析值（基于 2 個(gè)基于使用負(fù)二的分布）。

圖像.png

DESeq2將首先對(duì)數(shù)據(jù)進(jìn)行建模的例子。
這里可以從設(shè)置的系數(shù)開始，
就
可以確定。的子函數(shù)，用于第一次存儲(chǔ)計(jì)算和差異表達(dá)式分析的結(jié)果、數(shù)據(jù)集在“計(jì)數(shù)”矩陣中強(qiáng)制輸入的非任務(wù)值，作為分析列表中的一個(gè)元素存儲(chǔ)。實(shí)驗(yàn)設(shè)計(jì)的表達(dá)式。
使用：DESeqSetFromMatrix(countData, colData, DESeqSetFromMatrix(countData, colData, 公式
設(shè)計(jì)：設(shè)計(jì)一個(gè)來每個(gè)基因的排列方式) 是公式中的公式。 colData 中的表達(dá)式公式，包括具有多個(gè)變量的設(shè)計(jì)元素，例如：輸入組組基因，以及為各種結(jié)果+結(jié)果的設(shè)計(jì)，例如類型+治療基因型：治療基因型。查看設(shè)計(jì)的
選擇矩陣
。
2 DESeq DESeq
數(shù)據(jù)基于負(fù)二項(xiàng)格式進(jìn)行差異分析。它通過以下步驟執(zhí)行默認(rèn)分析：
· 估計(jì)大?。篹stimateSizeFactors
· 估計(jì)色散：estimateDisions
· 二項(xiàng)式 GLM 負(fù)測(cè)試和 Wald 統(tǒng)計(jì)：統(tǒng)計(jì)

有關(guān)每個(gè)步驟的詳細(xì)信息，請(qǐng)參閱相應(yīng)手冊(cè)頁。調(diào)整值的信息，請(qǐng)參見結(jié)果手冊(cè)頁。

使用DESeq(object)，是一個(gè)DESeqDataSet的對(duì)象。如：DESeqDataSetFromMatrix。

3
DESeq 中抽取結(jié)果表，樣本的基本均值2 對(duì)數(shù)變化、標(biāo)準(zhǔn)結(jié)果分析結(jié)果和檢驗(yàn)結(jié)果的倍數(shù)、檢驗(yàn)統(tǒng)計(jì)量、p 后的p 調(diào)整。

結(jié)果名稱返回模型的估計(jì)模型（因子）的名稱
。

results(object, contrast, lfcThreshold = 0, alpha = 0.1)
resultsNames(object)

參數(shù)是DESeqDataSet已經(jīng)在其上調(diào)用中以下函數(shù)： DESeq 、bino值對(duì)比WaldTest或nbinomLRT之一，對(duì)比值比較變化
從生成結(jié)果表。
lfcThres
0 是一個(gè)負(fù)值，指定log2非倍數(shù)的母值參數(shù)公式，值為 0，log2 倍數(shù)的名稱是最常用的值。 log2 倍數(shù)的默認(rèn)值變化的測(cè)試。

alpha 優(yōu)化的顯著性結(jié)束值（默認(rèn)為 0.）。如果調(diào)整的 p 最終值 (FDR) 為 1，則 alpha 應(yīng)設(shè)置為該值。
plotCounts
plotCounts 允許在對(duì)數(shù)字上為 0.1 使用：plotCounts
( dds, gene, in = 'condition')
dds 是 DESeqDataSet.，gene 是一個(gè)特殊的基因，intgroup:在colData(x)中，進(jìn)行分組的名稱。

3.5.2 下載DESeq2

library(BiocManager)
BiocManager::install('openssl')
BiocManager::install('RCurl')
BiocManager::install(c('DESeq2','limma','gplots'), force = T)

3.5.3 特征基因表達(dá)差異（成對(duì)比較）

我們將在下面發(fā)現(xiàn)的基因需要允許需要的 R 腳本。您在里面按順序添加每個(gè)新步驟。然后，根據(jù) DGE 的治療類型（Ctrl vs Treat），最后治療對(duì)各個(gè)種的類型?；蛑斜仨毧紤]到這一點(diǎn)。

Step 1. 加載數(shù)據(jù)并描述數(shù)據(jù)集

#Load data
countData=read.table('tophat_root.matrix',header=TRUE,row.names=1,sep='\t')
head(countData)
#Describe the dataset for each variable
genot=rep(c('WT','mut'),each=6)
treat=(rep(rep(c('Ctrl','Treat'),each=3),2))
g_t=rep(c('WT-Ctrl', 'WT-Treat', 'mut-Ctrl', 'mut-Treat'),each=3)
#Load dataset description in a data frame
colData=data.frame(g_t,genot,treat,row.names=names(countData))
colData

步驟 2. 建立基因型響應(yīng)分析模型

#Genotype effect
#####
#Load data using the DESeqDataSetFromMatrix command
genotDesign=DESeqDataSetFromMatrix(countData = countData,colData = colData,
                                   design = ~ genot)
#Build model using the DESeq command
genot_DESeq <- DESeq(genotDesign)
#Observe parameters of the model
resultsNames(genot_DESeq)

步驟 3. 使用 PCA 對(duì)數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)

rld<-rlog(genot_DESeq)
#tiff(filename = 'PCA_genot.tiff', width = 1500, height = 1500, units = 'px', res = 150)
plotPCA(rld, intgroup=c('g_t'))
dev.off()

Step 4. 建立樣本距離的熱圖

#Build sample distance
sampleDist <- dist(t(assay(rld)))
#Build heatmap
sampleDistMatrix<-as.matrix(sampleDist)
rownames(sampleDistMatrix)<-paste(rld$g_t)
colnames(sampleDistMatrix)<-NULL
colours=colorRampPalette(rev(brewer.pal(9, 'Blues')))(300)
tiff(filename = 'heatmap_sampledist_Treat_root.tiff', width = 1500, 
     height = 1500, units = 'px', res = 150)
heatmap.2(sampleDistMatrix, dendrogram = 'both', trace = 'none', col = colours,
           main = 'Treat Root Sample Distance', margin=c(6, 8))
dev.off()

步驟 5. 識(shí)別基因型主動(dòng)的 DGE

#Extract results (contrast WT and mutant) with set lfc and pvalue
res_genot=results(genot_DESeq, contrast = c('genot', 'mut', 'WT'), 
                  lfcThreshold = 1, alpha = 0.05)
#Observe the summary of the analysis
summary(res_genot)
#Look at the results
head(res_genot,2)
#Export data into a table
write.table(res_genot,'pairwise_root_WT_vs_mut.txt',sep='\t')
#Filter data to extract up-regulated genes with a certain lfc and pvalue
fc_genotM<- res_genot[which(res_genot$log2FoldChange > 1 & res_genot$padj<0.05),]
#Filter data to extract down-regulated genes with a certain lfc and pvalue
fc_genotL<- res_genot[which(res_genot$log2FoldChange < -1 & res_genot$padj<0.05),]
#Export data into tables
write.table(fc_genotM,'root_higher_mut_vs_WT.txt',sep='\t')
write.table(fc_genotL,'root_lower_mut_vs_WT.txt',sep='\t')

步驟 6。

plotCounts(genot_DESeq, 'AT2G19110', intgroup = 'genot')

第四部分：3.6數(shù)據(jù)挖掘

我們非常容易和我們一起使用 GE 數(shù)據(jù)集進(jìn)行的數(shù)據(jù)接口。 Thalemine 非常容易獲得相關(guān)數(shù)據(jù)集的功能。
https://bar./thalemine/

為了使用這個(gè)，我們首先需要從DESeq中
生成2個(gè)提取DESeq的文件（8個(gè)生成對(duì).txt，8個(gè)工具對(duì).txt和8個(gè)過濾低解析）。列表的數(shù)據(jù)我們只生成一個(gè)對(duì)high.txt和lower.*txt文件部分。
使用外殼對(duì)文件信息提取，并進(jìn)行合并：

mkdir full_DGE_data
mv pairwise*.txt full_DGE_data
ls
# have a look at one of the files
 head higher_root_Ctrl_mut_vs_WT.txt
cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | head
cut -f2 -d ''' higher_root_Ctrl_mut_vs_WT.txt | sed '1d' | head
# Let's do that for all files
for f in *root*.txt; do cut -f2 -d ''' $f | sed '1d' > $f.gene.list; done
 ls

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：菌心說 > 《生物信息學(xué)，生信，統(tǒng)計(jì)，數(shù)據(jù)分析》

舉報(bào)/認(rèn)領(lǐng)