在研究組織或者腸道微生物時(shí),常常需要去除宿主的DNA序列,以防止宿主的序列干擾研究。去宿主序列的主要研究方法是通過(guò)將質(zhì)控后的序列與宿主基因組進(jìn)行比對(duì),將比對(duì)上的序列進(jìn)行去除。比對(duì)軟件通常有bowtie、bwa、SOAPaligner等短序列比對(duì)工具,去宿主比對(duì)的話通常選擇bowtie2。
構(gòu)建索引用bowtie2-build來(lái)構(gòu)建新的index bowtie2-build --threads 20 human.fa human.fa
運(yùn)行結(jié)束后,生成6個(gè)文件 
比對(duì)bowtie2命令 bowtie2 [options] -x <bt2-idx> { -1 <m1> -2 <m2> | -U <r>} [-S <hit>]
<文件>:
-x <bt2-idx>
參考基因組(reference genome)通過(guò)bowtie2-build指令構(gòu)建的Index文件
-1 <m1>
雙末端測(cè)序中第一個(gè)fastq文件,可以寫多個(gè)文庫(kù)但是必須用逗號(hào)隔開,但文件m1與文件m2必須一一對(duì)應(yīng),測(cè)序文件中的Reads的長(zhǎng)度可以不同。
-2 <m2>
雙末端測(cè)序?qū)?yīng)的第二個(gè)fastq文件,與文件m1對(duì)應(yīng)
-U <r>
與前面的文件1,文件2為或的關(guān)系,此處的文件是非雙末端比對(duì)文件。例如lane1.fq,lane2.fq,lane3.fq,lane4.fq。可以是多個(gè)文件,但是必須用逗號(hào)隔開。
-S <hit>
指定輸出文件,后綴是sam的格式的文件,默認(rèn)標(biāo)準(zhǔn)輸出
[options]:
-q
Reads(用<m1>,<m2>,<s>指定)是FASTQ格式的文件,默認(rèn)即FASTQ。
--qseq
Reads(用<m1>,<m2>,<s>指定)是QSEQ格式的文件。
-f
Reads(用<m1>,<m2>,<s>指定)是FASTA文件。
-r
Reads(用<m1>,<m2>,<s>指定),每行代表一個(gè)輸入序列,沒(méi)有任何其他信息(無(wú)read名稱,無(wú)qualities)。
-c
后面直接是比對(duì)的reads序列(而不是文件),即reads序列在命令行上給出。
-s/--skip <int>
<int>中是數(shù)字,input的reads跳過(guò)前<int>個(gè)reads或read pairs
-u/--qupto <int>
比對(duì)前<int>個(gè)reads或read pairs,然后停止。
-5/--trim5 <int>
剪掉5'(左)端<int>長(zhǎng)度的堿基,再用于比對(duì)(默認(rèn)值0)
-3/--trim3 <int>
剪掉3'(右)端<int>長(zhǎng)度的堿基,再用于比對(duì)(默認(rèn)值0)
--phred33
輸入的序列質(zhì)量數(shù)據(jù)為Phred33體系(默認(rèn)為phred33)
--phred64
輸入的序列質(zhì)量數(shù)據(jù)為Phred64體系
-p
程序運(yùn)行所用核數(shù)
比對(duì)去宿主 bowtie2 -p 4 --un-gz sample.filter --un-conc-gz sample.filter -x human -1 sample.clean_1.fq.gz -2 J2.clean_2.fq.gz
輸出結(jié)果中sample.filter.1.fq.gz和sample.filter.2.fq.gz即為去除宿主之后的reads,可以進(jìn)入下一步的分析。
|