生物信息學常用名詞解釋（六）

生物_醫(yī)藥_科研 2019-07-16

展開全文

在生物信息中會出現(xiàn)很多的特殊名詞，從這次內容開始，我們將逐漸推送一些生物信息相關的一些名詞解釋。

Read：高通量測序平臺產生的短序列就稱為reads，也稱為一個讀段，reads可以是單獨一條，成為Single End reads，簡稱SE read，也可以是兩條具有物理關系的一對reads，根據(jù)reads方向，可以分為Pair-end reads和mate-pair reads，簡稱為PE reads。在很多分析中會利用管道reads之間的關系。

Contig：來自于單詞contiguous，拼接軟件基于reads之間的overlap關系，連接成為更長的序列為contig，contig序列之間不再具有overlap關系，也不包含N堿基。

Scaffold:基因組拼接得到contig序列之后，通過reads之間的pair-end或者mate-pair關系，連接成更長的片段成為scaffold，scaffold序列一般包含N堿基。

N50：N50是基因組拼接之后一個評價指標，將拼接得到的所有的序列，根據(jù)序列大小從大到小進行排序，然后逐步開始累加，當加和長度超過總長一半時，加入的序列長度即為N50長度。N50越長，拼接得到的更長的序列越多，類似的還有N90等。

Coverage depth：(覆蓋深度，亦簡稱覆蓋度，也叫乘數(shù))，指每個堿基被測序的平均次數(shù)，是用來衡量測序量的首要參數(shù)。

Coverage ratio ：（覆蓋比率，亦簡稱覆蓋率），指被測序到的堿基占全基因組大小的比率。覆蓋比率隨覆蓋深度升高而提高，亦受測序bias的影響，如illumina測序會受到GC bias的影響而導致測序不均勻。

回文序列：palindromic sequence;palindrome具有反向重復的DNA序列。通常是DNA結合蛋白的識別部位，也是限制性核酸內切酶識別位點的序列特征。

串聯(lián)重復序列（Tandem Repeat sequences）：在染色體上一段序列的多次重復，稱為串聯(lián)重復序列。常用來作為物理圖譜中的標記子。

LTR：長末端重復轉座子（long terminal repeat），是由RNA反轉錄而成的元件，它在兩端有長大數(shù)百堿基對的LTR。Length：1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats。

LINE：長散在重復序列（long interspersed nuclear elements），意為散在分布的長細胞核因子，是散在分布在哺乳動物基因組中的一類重復，這種重復序列比較長，平均長度大于1000bp，平均間隔3500-5000bp，如：rRNA，tRNA基因，形成基因家族。

SINE：為短散在重復序列（short interspersed nuclear elements）。SINE是非自主轉座的反轉錄轉座子，來源于RNA聚合酶III 的轉錄物，它的平均長度約為300bp，平均間隔1000bp，如：Alu家族，Hinf家族序列。

SNP：單核苷酸多態(tài)性（英語：Single Nucleotide Polymorphism，簡稱SNP，讀作/snip/）指的是DNA序列上發(fā)生的單個核苷酸堿基之間的變異，在人群中這種變異的發(fā)生頻率至少大于1％，否則被認為是點突變。在人類遺傳基因的各種差異，有90%都可歸因于SNP所引起的基因變異。在人基因組中，每隔100至300個堿基就會存在一處SNP。每3個SNP中有兩個會是胞嘧啶（C）和胸腺嘧啶（T）的相互轉變。
同義突變（synonymous mutation）：由于生物地遺傳密碼子存在兼并現(xiàn)象,是堿基被替換之后,產生了新地密碼子，但新舊密碼子是同義密碼子，所編碼的氨基酸種類保持不變，因此同義突變并不產生突變效應。

錯義突變（missense mutation）：是編碼某種氨基酸的密碼子經堿基替換以后,變成編碼另一種氨基酸的密碼子,從而使多肽鏈的氨基酸種類和序列發(fā)生改變。錯義突變的結果通常能使多肽鏈喪失原有功能，許多蛋白質的異常就是由錯義突變引起的。

無義突變（nonsense mutation ）：是指由于某個堿基的改變使代表某種氨基酸的密碼子突變?yōu)榻K止密碼子，從而使肽鏈合成提前終止。編碼氨基酸的密碼子突變?yōu)榻K止密碼子，使肽鏈合成中斷。

移碼突變（frameshift mutation）：在正常地DNA分子中,堿基缺失或增加非3地倍數(shù),造成這位置之后的一系列編碼發(fā)生移位錯誤的改變，這種現(xiàn)象稱移碼突變。

InDel：一般把基因組突變小于50bp的插入和缺失成為InDel，一般50bp小于一個reads長度，可以通過reads進行檢測。

CNV：copy number variation：基因組拷貝數(shù)變異，基因組拷貝數(shù)變異是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數(shù)量。

基因組結構變化，Structure Variation，簡稱SV：染色體結構變異是指在染色體上發(fā)生了大片段的變異。分為廣義和狹義之分，廣義上來說基因組上所有的變化都可以成為SV，目前主要使用其狹義的概念，主要是指基因組結構變化超過50個堿基的突變，包括染色體大片段的插入和缺失，染色體內部的某塊區(qū)域發(fā)生翻轉顛換，兩條染色體之間發(fā)生重組（inter-chromosometrans-location）等。

Segment Duplication:一般稱為SD區(qū)域，串聯(lián)重復是由序列相近的一些DNA片段串聯(lián)組成。串聯(lián)重復在人類基因多樣性的靈長類基因中發(fā)揮重要作用。在人類染色體Y和22號染色體上，有很大的SD序列。

NT庫：NCBI非冗余的核酸數(shù)據(jù)庫，包括GeneBank、Refseq和PDB。

NR 庫：NR庫是由NCBI收集的非冗余蛋白數(shù)據(jù)庫，包括所有非冗余GeneBank CDS的翻譯序列 + 參考序列蛋白 + PDB數(shù)據(jù)庫 + SwissProt蛋白數(shù)據(jù)庫 + PRF蛋白數(shù)據(jù)庫，內容豐富。

SwissProt：SwissProt數(shù)據(jù)庫是經過注釋的蛋白序列數(shù)據(jù)庫，由歐洲生物信息學研究所（EBI）維護。每個條目包括蛋白質序列、引用文獻、分類學信息和注釋等。注釋包括蛋白質的功能、轉錄后修飾、特殊位點、二級結構等信息。

TrEMBL ：TrEMBL數(shù)據(jù)庫中大多數(shù)蛋白序列不是直接由實驗得到，而是通過DNA序列翻譯而得到，是一個計算機注釋的蛋白質數(shù)據(jù)庫，作為SwissProt的補充。該庫主要從EMBL/GeneBank/DDBJ核酸數(shù)據(jù)庫中根據(jù)CDS翻譯而得到蛋白質序列。

---------- END ----------