【原】掃盲貼：基因上的這些符號究竟是什么鬼？

解螺旋 2020-08-27

展開全文

關于基因，它早期的名稱可以說是毫無章法，命名全憑研究者的個人喜好以及天馬行空的想象力，比如果蠅里的吸血鬼基因（dracula，怕光）、藍精靈基因（Smurf，調控SMAD）、冰山美人基因（Icebox，突變后對異性示好無感）、都鐸王朝基因（tudor，無后）等等。

顯然，這種雜亂的命名方式，總會讓科研者與基因面對面時感到一臉懵逼且無所適從，尤其不利于科研者對基因突變的解讀。那么要想將基因突變的結果更好地轉化為實際臨床應用，統(tǒng)一而通用的突變命名規(guī)則就顯得尤為重要。

好在后來人類基因組變異協(xié)會（HGVS）對基因突變進行統(tǒng)一的標準化命名，以確保定義明確并實現基因組信息的有效共享和下游使用。因此，只要各位小伙伴對基因的種種符號做到心中有數，就不怕出現無緣對面不識君的情況。

首先，HGVS將基因突變的基本類型分為7類（見下表），如此更新明確基因突變的定義后，可避免出現易混淆的概念或定義。

置換（>）：一個核苷酸被另一個核苷酸替代，使用“>”來表示；

例如g.1318G>T；

缺失（del）：一個或多個核苷酸被移除，使用“del”進行描述；

例如g.3661_3706del；

倒置（inv）：與原始序列反向互補的新的核苷酸序列（大于1個核苷酸）替換原始序列；

例如由CTCGA變?yōu)門CGAG，使用”inv“表示；

重復（dup）：一個或多個核苷酸拷貝直接插入原始序列的下游，使用“dup”表示；

插入（ins）：序列中插入一個或多個核苷酸，并且插入序列并非上游序列拷貝；

缺失-插入（delins/indel）：一個或多個核苷酸被其他核苷酸替代，但并不是發(fā)生替代、倒置和轉置；

轉換（con）：一種特殊類型的缺失-插入，其中替代原始序列的核苷酸序列是來自基因組中另一個位點的序列拷貝。

另外，描述基因突變時應定義原始序列的參考序列和核苷酸范圍。因為從不同的維度出發(fā)，相同的基因突變可以有多種不同的表現形式，比如參考序列的不同、表現層次的不同（DNA、RNA或者蛋白質水平）都會導致突變的表現方式產生差異。

而目前通用的參考序列主要包括：基因組參考序列（以前綴“g.”表示）、cDNA參考序列（以前綴“c.”表示）、非編碼DNA參考序列（以前綴“n.”表示）、RNA參考序列（以前綴“r.”表示）、蛋白質參考序列（以前綴“p.”表示）。

參考序列的選擇非常重要。在DNA水平描述突變時，通常會選擇cDNA作為參考序列，這是因為以cDNA作為參考序列，能夠更好的描述內含子中突變堿基與相鄰外顯子之間的關系。另外，基因突變也常以蛋白質水平的變化進行描述。

那么結合臨床常用的描述基因突變的參考序列，本文則將從cDNA層面就不同突變的類型進行舉例說明。

通常在cDNA中，編碼序列區(qū)域中的翻譯起始密碼子ATG的A編號為c.1，然后依次順序排列，直至翻譯終止密碼子的最后一個核苷酸；而非編碼區(qū)則從ATG上游則依次編號為c.-1、c.-2......；終止密碼子下游則依次編號為c.*1、c.*2......直至參考序列結尾處結束編號。

相對的，內含子是根據相鄰外顯子核苷酸進行編碼的，如上圖中編碼區(qū)187-188為內含子，則其5’端編號為c.187+1、c.187+2......，3’端編號為c.188-1、c.188-2......。如果內含子所含有核苷酸數目為奇數時，則使用“N”表示中央核苷酸并連接上游序列，如c.187+N。

而其基因突變的表達方式有：1）c.123A>T：123位的A被T所取代；2）c.2052delA：2052位發(fā)生A的缺失；3）c.5756_5757insAGG：第5756與5757位點之間插入了三個堿基AGG；4）c.6775delinsGA：第6775位缺失了一個堿基，同時缺失的堿基被GA做取代；5）c.6_8dupT：從第6位到第8位發(fā)生了T的重復。

當基因發(fā)生多個變異時，可用“[]”標注變異，并用“;”鏈接。當同一等位基因發(fā)生多個變異時，c.[56A>C;78G>C]即表示的是同一染色體上76位和83位發(fā)生兩個變異（順式）；不同等位基因發(fā)生多個變異時，c.[56A>C];[78G>C]則表示的是兩個變異發(fā)生在不同染色體上（反式）；不確定多個變異發(fā)生的位置時，c.[56A>C](;)[78G>C]表示的是兩個變異可能發(fā)生在同一染色體，也可能發(fā)生在不同染色體上。

至于重復序列的變異，當要定義重復序列的核苷酸范圍即重復單位的數量時，可用[]表示。比如g.23_24[4]：基因組序列第23-24間的核苷酸重復出現4次。對于短的、簡單的重復，可展示重復序列，比如g.23TG[4]：基因組序列從23位開始TG核苷酸重復出現4次。當重復序列長度不確定時，使用括號進行指定，比如g.-128GGC[(600-800)]：基因組編碼區(qū)上游128位核苷酸處重復插入GGC，重復次數在600-800之間。

此外，鑒于科研者打交道最多就是細菌基因，那么這些基礎常識就不可不知。通常其基因組上的每個基因均會以小寫的3個字母來命名，而這些名稱往往是主要信號通路或突變/插入相關表型的縮寫。具體見下表：

表1.常見基因縮寫