Read:高通量測序平臺產生的短序列就稱為reads,也稱為一個讀段,reads可以是單獨一條,成為Single End reads,簡稱SE read,也可以是兩條具有物理關系的一對reads,根據(jù)reads方向,可以分為Pair-end reads和mate-pair reads,簡稱為PE reads。在很多分析中會利用管道reads之間的關系。 Contig:來自于單詞contiguous,拼接軟件基于reads之間的overlap關系,連接成為更長的序列為contig,contig序列之間不再具有overlap關系,也不包含N堿基。 Scaffold:基因組拼接得到contig序列之后,通過reads之間的pair-end或者mate-pair關系,連接成更長的片段成為scaffold,scaffold序列一般包含N堿基。 N50:N50是基因組拼接之后一個評價指標,將拼接得到的所有的序列,根據(jù)序列大小從大到小進行排序,然后逐步開始累加,當加和長度超過總長一半時,加入的序列長度即為N50長度。N50越長,拼接得到的更長的序列越多,類似的還有N90等。 Coverage depth:(覆蓋深度,亦簡稱覆蓋度,也叫乘數(shù)),指每個堿基被測序的平均次數(shù),是用來衡量測序量的首要參數(shù)。 Coverage ratio :(覆蓋比率,亦簡稱覆蓋率),指被測序到的堿基占全基因組大小的比率。覆蓋比率隨覆蓋深度升高而提高,亦受測序bias的影響,如illumina測序會受到GC bias的影響而導致測序不均勻。 回文序列:palindromic sequence;palindrome具有反向重復的DNA序列。通常是DNA結合蛋白的識別部位,也是限制性核酸內切酶識別位點的序列特征。 串聯(lián)重復序列(Tandem Repeat sequences):在染色體上一段序列的多次重復,稱為串聯(lián)重復序列。常用來作為物理圖譜中的標記子。 LTR:長末端重復轉座子(long terminal repeat),是由RNA反轉錄而成的元件,它在兩端有長大數(shù)百堿基對的LTR。Length:1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats。 LINE:長散在重復序列(long interspersed nuclear elements),意為散在分布的長細胞核因子,是散在分布在哺乳動物基因組中的一類重復,這種重復序列比較長,平均長度大于1000bp,平均間隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。 SINE:為短散在重復序列(short interspersed nuclear elements)。SINE是非自主轉座的反轉錄轉座子,來源于RNA聚合酶III 的轉錄物,它的平均長度約為300bp,平均間隔1000bp,如:Alu家族,Hinf家族序列。 SNP:單核苷酸多態(tài)性(英語:Single Nucleotide Polymorphism,簡稱SNP,讀作/snip/)指的是DNA序列上發(fā)生的單個核苷酸堿基之間的變異,在人群中這種變異的發(fā)生頻率至少大于1%,否則被認為是點突變。在人類遺傳基因的各種差異,有90%都可歸因于SNP所引起的基因變異。在人基因組中,每隔100至300個堿基就會存在一處SNP。每3個SNP中有兩個會是胞嘧啶(C)和胸腺嘧啶(T)的相互轉變。 錯義突變(missense mutation):是編碼某種氨基酸的密碼子經堿基替換以后,變成編碼另一種氨基酸的密碼子,從而使多肽鏈的氨基酸種類和序列發(fā)生改變。錯義突變的結果通常能使多肽鏈喪失原有功能,許多蛋白質的異常就是由錯義突變引起的。 無義突變(nonsense mutation ):是指由于某個堿基的改變使代表某種氨基酸的密碼子突變?yōu)榻K止密碼子,從而使肽鏈合成提前終止。編碼氨基酸的密碼子突變?yōu)榻K止密碼子,使肽鏈合成中斷。 移碼突變(frameshift mutation):在正常地DNA分子中,堿基缺失或增加非3地倍數(shù),造成這位置之后的一系列編碼發(fā)生移位錯誤的改變,這種現(xiàn)象稱移碼突變。 InDel:一般把基因組突變小于50bp的插入和缺失成為InDel,一般50bp小于一個reads長度,可以通過reads進行檢測。 CNV:copy number variation:基因組拷貝數(shù)變異,基因組拷貝數(shù)變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。 基因組結構變化,Structure Variation,簡稱SV:染色體結構變異是指在染色體上發(fā)生了大片段的變異。分為廣義和狹義之分,廣義上來說基因組上所有的變化都可以成為SV,目前主要使用其狹義的概念,主要是指基因組結構變化超過50個堿基的突變,包括染色體大片段的插入和缺失,染色體內部的某塊區(qū)域發(fā)生翻轉顛換,兩條染色體之間發(fā)生重組(inter-chromosometrans-location)等。 Segment Duplication:一般稱為SD區(qū)域,串聯(lián)重復是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復在人類基因多樣性的靈長類基因中發(fā)揮重要作用。在人類染色體Y和22號染色體上,有很大的SD序列。 NT庫:NCBI非冗余的核酸數(shù)據(jù)庫,包括GeneBank、Refseq和PDB。 NR 庫 :NR庫是由NCBI收集的非冗余蛋白數(shù)據(jù)庫,包括所有非冗余GeneBank CDS的翻譯序列 + 參考序列蛋白 + PDB數(shù)據(jù)庫 + SwissProt蛋白數(shù)據(jù)庫 + PRF蛋白數(shù)據(jù)庫,內容豐富。 SwissProt:SwissProt數(shù)據(jù)庫是經過注釋的蛋白序列數(shù)據(jù)庫,由歐洲生物信息學研究所(EBI)維護。每個條目包括蛋白質序列、引用文獻、分類學信息和注釋等。注釋包括蛋白質的功能、轉錄后修飾、特殊位點、二級結構等信息。 TrEMBL :TrEMBL數(shù)據(jù)庫中大多數(shù)蛋白序列不是直接由實驗得到,而是通過DNA序列翻譯而得到,是一個計算機注釋的蛋白質數(shù)據(jù)庫,作為SwissProt的補充。該庫主要從EMBL/GeneBank/DDBJ核酸數(shù)據(jù)庫中根據(jù)CDS翻譯而得到蛋白質序列。 ---------- END ----------
|
|
來自: 生物_醫(yī)藥_科研 > 《待分類》