微生物多樣性或者宏基因組分析中,往往有幾個出現(xiàn)頻率很高的詞,比如 OTU,群落結構,alpha多樣性, beta多樣性。今天就來通過分析思路上(主要圍繞微生物多樣性)給大家解釋一下這些高頻詞匯。 一、OTU分類 OTU[1]全稱為Operational Taxonomic Unit, 直譯過來是操作分類單元,其實是人為進行定義的分類單元, 即一般是在微生物多樣性分析中,對序列以97%的相似度進行Cluster聚類。 微生物的研究我們往往是在生境(例如人體腸道樣本,可以把腸道環(huán)境就是一個生境; 又如某一區(qū)域土壤取樣,可以把區(qū)域土壤看做一個生境)的群落結構層面來關注。而類似生境下的群落構成是有極大的相似性的。 所以多樣性研究的方法是: 首先對所有樣本的valid tags(tags這里指雙端reads拼接后的序列)以97%相似度進行cluster聚類,分類OTU。例如9萬條tags可能cluster到2000個OTU單元。然后從每個OTU分類單元中挑選序列最長的或者是Abundance最大的作為代表序列。通過這2000個代表序列和數(shù)據(jù)庫比對并進行注釋。 基于OTU水平可展示的分析有: 1. 基于OTU的venn圖和花瓣圖: 可以統(tǒng)計不同樣本或者分組間特有的OTU和共有的OTU。 2. 基于OTU代表序列的系統(tǒng)發(fā)育樹構建: 可以挑選出豐度較高的OTU,并構建這些OTU的系統(tǒng)發(fā)育樹,并輔助Heatmap結果展示。相對高低豐度OTU在不同樣本或分組一目了然。 3. 基于OTU的熱圖: 可以直觀展示OTU在不同樣本或者分組的豐度差異。 二、群落結構 community structure即群落結構[2]。 生境內微生物環(huán)境可以看做一個大的生態(tài)生物群落,而這些群落是由各種優(yōu)勢菌屬以及低豐度菌屬構成,不同生境的微生物種類以及微生物的豐度是不同的,而這些多種類不同豐度的菌屬的構成就可以理解為生境的群落結構。 一般進行群落結構分析,可以從幾個角度來入手: 1. 群落結構分布柱狀圖: 可以展示不同樣本或者分組整體群落的構成,以及構成之間的差異。 2. 群落結構分布Heatmap圖: 可直觀展示物種在門綱目科屬水平的豐度高低。 三、alpha多樣性 alpha、beta多樣性均來源于生態(tài)學,可以理解為兩個不同的空間尺度。alpha多樣性一般指生境內物種的多樣性程度,即不側重于比較,而只是評估生境內的多樣性程度,而beta多樣性側重于對不同生境的多樣性進行比較。 alpha多樣性有很多評估指數(shù):observed species即觀測到的OTUs數(shù)目、shannon香農(nóng)指數(shù)[3]、simpson[4]指數(shù)、chao[5]指數(shù)、ACE指數(shù)等等…… 不同指數(shù)的側重點不同,以及計算公式也是不同??偟膩碚f:Observed species即為分類OTUs的數(shù)目;Shannon指數(shù)可同時反映群落的物種多樣性高低以及均勻度;Chao指數(shù)算法是通過計算群落中只檢測到1次和2次的OTU數(shù)目來估計群落中實際存在的物種數(shù)。因此該指數(shù)對于痕量菌(低豐度物種)相對比較敏感。 alpha多樣性分析可以從哪幾個角度來展示呢? 1. 可以計算出各個指數(shù)的數(shù)值,例如長這樣: 得到這樣一張指數(shù)表格,就可以評估出樣本的多樣性程度。當然如果需要從指數(shù)數(shù)值上對不同樣本的多樣性程度或者均勻度進行比較,可以首先對各個樣本中的序列進行隨機抽齊操作,在同等的測序量下,比較樣本間的多樣性指數(shù)高低。 2. 可以通過多樣性指數(shù)對測序的飽和度進行評估。例如下圖為稀釋曲線,縱坐標為observed species即觀測OTU的個數(shù),橫軸為對序列集進行隨機抽樣的抽樣深度。稀釋曲線展示的為在不同抽樣深度下構建OTU的個數(shù)。該曲線可以對測序飽和度做一個初步評估,如果最終曲線趨于水平,代表當前的測序量飽和度足夠。 3. 同時可以比較不同處理組的多樣性指數(shù)是否在兩組間有顯著性差異。如下圖,為2組(182個)樣本的shannon指數(shù)Boxplot圖。箱線圖上的每個點代表一個樣本。通過ANOVA差異統(tǒng)計方法,計算出兩組的shannon指數(shù)差異p value為1.38*10-34。 四、beta多樣性分析 beta多樣性側重于不同生境的群落構成的比較。常用于展示beta多樣性的分析方法有: 1. PCA[6]主成分分析。主成分分析是一項基于線性分析的模型,并不依賴于距離矩陣算法。 2. 基于距離矩陣算法的PCoA[6]分析以及NMDS分析。 與PCA主成分分析不同,PCoA以及NMDS可以通過不同的矩陣算法(Unweighted Unifrac、 Weighted Unifrac、 Bray Curtis、Binary Jaccard、 Euclidean等等)來比較樣本間的相似性。 3. RDA/CCA分析。即冗余分析(Redundancy analysis,RDA)、典型相關分析(Canonical analysis)。 即引入了環(huán)境因子的變量,通過菌群結構數(shù)據(jù)與某種給定的因素互相擬合,通過置換檢驗來探尋樣本、物種、環(huán)境兩兩之間的關系,或者三者之間的關系。 但是這么多beta多樣性比較的算法,應該怎么取舍呢? 微生物多樣性研究一般建議結合實驗設計,考慮多種矩陣算法,選取最合適的一種。例如Unifrac距離有權重和非權重方法,非權重方法側重于只考慮物種有無,即群落物種種類差異;而權重算法不僅考慮物種有無,也會考慮物種豐度的高低。而有些處理因素主要會引起微生物物種豐度的變化,這種情況下可能更適合于權重算法。 五、統(tǒng)計分析(差異統(tǒng)計或者分類) 微生物多元變量統(tǒng)計分析,即根據(jù)不同的分組尋找組間差異物種,或者尋找不同處理組的biomarker。 統(tǒng)計分析有基于物種豐度(ANOVA、G_test、Metastat等),也有基于距離矩陣(Adonis、ANOSIM等)的算法。同時也可分為參數(shù)檢驗的統(tǒng)計方法以及非參數(shù)檢驗統(tǒng)計算法。 另外還有一些對于分類評估的統(tǒng)計,例如ROC曲線分析。以及其他的一些統(tǒng)計方法: 隨機森林分布、LEfSe分析等。(想了解LEfSe分析么?想自己來做分析么? 請點擊以往微信文章:【干貨】微生物高分文章必備分析LEfSe) 上圖1為ROC[7]分析,即可以對于分類進行評估,例如在土壤不同pH值因素以及不同溫度的因素下,通過群落物種分布評估這兩個處理下的分類效果。如果ROC曲線大于0.5說明分類效果較好。上圖2為通過隨機森林分布(Random Forest)[8]算法挑選出來的對于分組貢獻度最大的30個物種,并根據(jù)這30個物種的貢獻度權重高低進行排序。 又例如優(yōu)勢物種間相關性計算以及網(wǎng)絡圖的繪制: 上圖中節(jié)點代表各優(yōu)勢菌屬,以不同的顏色標識,節(jié)點之間的連接表明兩個屬之間存在相關性,紅線表明正相關,綠線(灰色線)表明負相關,線的粗細代表相關性高低。相同顏色的點,代表這些屬均分類為相同的門。通過某節(jié)點的連接越多,表明該屬于菌群中其它成員的關聯(lián)越多。 通過以上的信息,不知道各位對于多樣性的分析有沒有更了解一些了呢?藏貨很多, 今天只是一個粗略的分享,并且在這些高頻“詞匯“下其實還隱藏有很多更深的問題,值得我們去一一探討。例如還有一些更為延伸的研究方向例如:Picrust功能預測(點擊以往文章了解:微生物16S高分文章必備之-PICRUSt功能預測 瞬間提高微生物多樣性研究性價比)、Enterotypes腸型分析、基于OTU或者宏基因組基因集的WGCNA分析等等。 [1] Blaxter M, Mann J, Chapman T, et al. Defining operational taxonomic units using DNA barcode data.Philosophical Transactions of the Royal Society of London, 2005, 360(1462): 1935-1943. [2]Girvan M, Newman M E. Community structure in social and biological networks.[J].Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(12):7821. [3]Chao A, Shen T J. Nonparametric estimation of Shannon's index of diversity when there are unseen species in sample[J]. Environmental and Ecological Statistics, 2003, 10(4):429-443. [4]Simpson EH. Measure of diversity.Nature, 1949, 163: 688. [5]Chao A. Non-parametric estimation of the classes in a population. Scandinavian Journal of Statistics, 1984, 11(4): 265-270. [6] Ramette A. Ramette A. Multivariate analyses in microbial ecology. FEMS MicrobiolEcol62: 142-160[J]. 2007, 62(2):142-160. [7] Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874. [8] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32. |
|
來自: liufuqiang0909 > 《待分類》