乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      組間差異檢驗,終于有人講清楚了!

       justby 2019-12-15

      什么是組間差異檢驗?就是組間的差異分析以及顯著性檢驗,應(yīng)用統(tǒng)計學上的假設(shè)檢驗方法,檢驗組間是否有差異及其差異程度。坦率地講,所有的差異檢驗都基于一個假設(shè):組間沒有差異,變量之間沒有關(guān)系(即原假設(shè),H_0)。上海交大王成老師也說方差分析其實研究的就是不同水平下是否有差異化的假設(shè)檢驗問題。而假設(shè)檢驗就是先對總體參數(shù)提出某種假設(shè),然后利用樣本信息判斷假設(shè)是否成立的過程。

      參數(shù)與非參數(shù)檢驗

      所以,本著負責的態(tài)度,在本文的開始我們有必要回顧一下《概率論與數(shù)理統(tǒng)計》中關(guān)于假設(shè)檢驗的基本概念。

      • 總體(population):包含所研究的全部個體(數(shù)據(jù))的集合。

      • 樣本(sample):從總體中抽取的一部分元素的集合。

      • 參數(shù)(parameter):用來描述總體特征的概括性數(shù)字度量。

      • 統(tǒng)計量(statistic):用來描述樣本的概括性數(shù)字度量。

      其中參數(shù)這個概念最值得我們好好體會,因為今天的主角組間差異檢驗,在這個水平上可以分為兩類:參數(shù)檢驗和非參數(shù)檢驗。那么什么叫參數(shù)檢驗和非參數(shù)檢驗,它們之間的區(qū)別是什么呢。要理解前面的問題,首先需要明白統(tǒng)計推斷的概念。

      統(tǒng)計推斷是研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計學方法,包括參數(shù)估計和假設(shè)檢驗兩大類。總體的參數(shù)一般是未知的,通??梢杂脴颖窘y(tǒng)計量來對總體的參數(shù)進行估計,例如可以用樣本均值對總體均值進行點估計,利用樣本均值的分布對總體均值進行區(qū)間估計,這些都稱為參數(shù)估計。

      對未知參數(shù)的假設(shè)進行檢驗稱為參數(shù)統(tǒng)計,所用的檢驗叫做參數(shù)檢驗(Parameter test)。不依賴總體分布的具體形式,也不對參數(shù)進行估計或檢驗的統(tǒng)計方法,叫做非參數(shù)統(tǒng)計,其檢驗方法就是非參數(shù)檢驗(Non-parametric test)

      參數(shù)檢驗和非參數(shù)檢驗的區(qū)別:

      • 1 參數(shù)檢驗是針對參數(shù)做的假設(shè),非參數(shù)檢驗是針對總體分布情況做的假設(shè),這個是區(qū)分參數(shù)檢驗和非參數(shù)檢驗的一個重要特征。例如兩樣本比較的t 檢驗是判斷兩樣本分別代表的總體的均值是否具有差異,屬于參數(shù)檢驗。而兩樣本比較的秩和檢驗(wilcoxcon 檢驗及Mann-Whitney 檢驗)是判斷兩樣本分別代表的總體的位置有無差別(即兩總體的變量值有無傾向性的未知偏離),自然屬于非參數(shù)檢驗。

      • 2 二者的根本區(qū)別在于參數(shù)檢驗要利用到總體的信息(總體分布、總體的一些參數(shù)特征如方差),以總體分布和樣本信息對總體參數(shù)作出推斷;非參數(shù)檢驗不需要利用總體的信息(總體分布、總體的一些參數(shù)特征如方差),以樣本信息對總體分布作出推斷。

      • 3,參數(shù)檢驗只能用于等距數(shù)據(jù)和比例數(shù)據(jù),非參數(shù)檢驗主要用于記數(shù)數(shù)據(jù)。也可用于等距和比例數(shù)據(jù),但精確性就會降低。

      那么什么時候用參數(shù)檢驗,什么時候用非參數(shù)檢驗?zāi)兀糠菂?shù)檢驗一般不直接用樣本觀察值作分析,統(tǒng)計量的計算基于原始數(shù)據(jù)在整個樣本中的秩次,丟棄了觀察值的具體數(shù)值,因此凡適合參數(shù)檢驗的資料,應(yīng)首選參數(shù)檢驗。但是不清楚是否合適參數(shù)檢驗的資料,則應(yīng)采用非參數(shù)檢驗。

      此處也許大家期待作者帶我們溫習一下假設(shè)檢驗的4 個步驟(提出假設(shè);構(gòu)造檢驗統(tǒng)計量;根據(jù)顯著水平,確定臨界值和拒絕域;做出檢驗決策),但是帶有幾分傲氣的作者絕情地不為我們沒有學好的課程補刀,補課的事情讓我們自己去做,他轉(zhuǎn)而講自己認為重要的知識點:抽樣分布。

      抽樣分布

      知道我們的研究對象整體處于什么狀態(tài),是一件非常重要的事情。三大抽樣分布(t-分布、\chi^2分布、F-分布)和正態(tài)分布共同構(gòu)成了現(xiàn)代數(shù)理統(tǒng)計學的基礎(chǔ),其中,正態(tài)分布和t-分布是關(guān)于均值的分布;\chi^2分布、F-分布是關(guān)于方差的分布。很多同學做統(tǒng)計做了很多年,卻不知道為什么幾乎每個方差分析都有F值??梢?,統(tǒng)計學拼到最后拼的都是基礎(chǔ)

      離開分布,假設(shè)檢驗無從談起;離開假設(shè)檢驗,差異分析毫無根基。同樣地,出于人道主義,我們來重溫一下抽樣分布。

      \chi^2分布

      設(shè) X1,X2,......Xn相互獨立, 都服從標準正態(tài)分布N(0,1), 則稱隨機變量χ2=X12+X22+......+Xn2所服從的分布為自由度為 n 的\chi^2分布

      t-分布

      設(shè)X_1服從標準正態(tài)分布N(0,1),X_2服從自由度為n的\chi^2分布,且X_1、X_2相互獨立,則稱變量t=X_1/(X_2/n)^{1/2}所服從的分布為自由度為n的t-分布

      F分布

      設(shè)X_1服從自由度為m\chi^2分布,X_2服從自由度為n\chi^2分布,且X_1、X_2相互獨立,則稱變量F=(X_1/m)/(X_2/n)所服從的分布為F分布,其中第一自由度為m,第二自由度為n。一般滴,這里F就是均方之比。

      不管是參數(shù)檢驗還是非參數(shù)檢驗,都要基于特定的分布來做假設(shè)檢驗。當總體分布已知時,例如總體服從正態(tài)分布,我們可以根據(jù)給定的顯著性水平(通常為0.01 或0.05)查表獲得臨界值。當總體分布未知時,可以先用Permutation test 構(gòu)造經(jīng)驗分布,再根據(jù)顯著性水平獲得臨界值。

      傳統(tǒng)的統(tǒng)計量檢驗的方法是在檢驗之前確定顯著性水平α,也就意味著事先確定了臨界值和拒絕域。這樣,不論檢驗統(tǒng)計量的值是大還是小,只要它的值落入拒絕域就拒絕原假設(shè),否則就不拒絕原假設(shè)。這種給定顯著性水平的方法,無法給出觀測數(shù)據(jù)與原假設(shè)之間不一致程度的精確度量。要測量出樣本觀測數(shù)據(jù)與原假設(shè)中假設(shè)值的偏離程度,則需要計算pvalue值。pvalue 值,也稱為觀測到的顯著性水平,它表示為如果原假設(shè)H_0正確時得到實際觀測樣本結(jié)果的概率。pvalue 值越小,說明實際觀測到的數(shù)據(jù)與H_0之間的不一致的程度就越大,檢驗的結(jié)果就越顯著。

      變量較多,判斷組間差異時需要多重檢驗的情況在宏基因組擴增子差異分析中十分常見。這種情況下,基于單次比較的檢驗標準將變得過于寬松,使得陽性結(jié)果中的錯誤率(FDR 值FalseDiscovery Rate)非常大(已經(jīng)大到令人不可忍受的地步)。怎么辦呢?最好的辦法就提高判斷的標準(p value),單次判斷的犯錯概率就會下降,總體犯錯的概率也將下降。在多重檢驗中提高判斷標準的方法,我們就稱之為多重檢驗校正。從1979 年以來,統(tǒng)計學家提出了多種多重檢驗校正的方法。相應(yīng)地,對p值校正之后的叫法也不一樣,比如,F(xiàn)DR、Q value、Adjusted p-value,這個大家知道在多重檢驗時需要校正就行了,具體的用法作者有時間再教大家(這個作者真是皮啊~~)。

      關(guān)于宏基因組或擴增子組間差異檢驗的理論知識就到這了,作者認為知道以上知識點是必要的,也告訴我們,今天我們討論的是統(tǒng)計推斷。換句話說,找差異,我們是專業(yè)的。

      觀察差異

      人民為了找差異,這才學會做統(tǒng)計。為了說明組間的數(shù)據(jù)差異很大,人民開發(fā)了許多沿用至今的圖畫,下面我們就一起來揭開這一幅幅有差異的畫面。

      • 箱線圖(boxplot)

      在數(shù)據(jù)科學家的工具箱里,這是一款經(jīng)久不衰、常用常新的瑞士軍刀。幾乎只要想到差異分析,就會想到箱線圖。也開發(fā)出類箱線圖的工具比如小提琴圖(小提琴圖Violin plot)

      • 散點圖(Scatter plot)
        散點圖也是一款百搭的工具,可以和箱線圖結(jié)合著用,當然多元分析大多也得借助這個的散點圖。比如,回歸分析、排序(PCA。CA、CCA、RDA,NMDS,PCoA)、聚類(均值聚類 、劃分)用散點圖來反映都是比較直觀地。也開發(fā)有新的散點圖比如叫火山圖。

      • 熱圖(heatmap)
        熱圖可以簡單地聚合大量數(shù)據(jù),并使用一種漸進的色帶來優(yōu)雅地表現(xiàn)出來,可以很直觀地展現(xiàn)數(shù)據(jù)的相對大小。在生物醫(yī)學研究中,常用來展現(xiàn)基因表達或豐度數(shù)據(jù),當然用它表達相關(guān)系數(shù)大小也是允許的。當然也有開發(fā)的熱圖,比如地理熱圖等。

      樹狀圖

      一般有進化樹和層次聚類樹,如果你想表達對象之間的距離差異,最直觀的的也許就是樹狀圖了。為了用圖表示親緣關(guān)系,把分類單位擺在圖上樹枝頂部,根據(jù)分枝可以表示其相互關(guān)系,具有二次元和三次元。在數(shù)量分類學上用于表型分類的樹狀圖,稱為表型樹狀圖(phenogram),摻入系統(tǒng)的推論的稱為系統(tǒng)樹狀圖(cladogram)以資區(qū)別。

      貼心的作者小朋友把實現(xiàn)這些圖形的常見R包列給大家,安裝后就能用啦

      類型R包
      箱線圖geom_boxplot() {ggplot2}
      散點圖geom_point(){ggplot2}
      熱圖heatmap;pheatmap
      樹狀圖ggtree;cluster
      基于物種的差異檢驗

      這里說的基于物種言下之意是通過統(tǒng)計分析,可以有針對性的找出分組間豐度變化差異顯著的物種,并得到差異物種在不同分組間的富集情況,同時,可以比較組內(nèi)差異和組間差異的大小,判斷不同分組間的群落結(jié)構(gòu)差異是否具有顯著意義。也就是說可以找出區(qū)別組間的一個biomarker。

      這類檢驗一般只輸出p值,它的目的很簡單,就是檢驗比較組之間的相似性距離是否有差異。常用的分析方法有卡方檢驗、Student t檢驗、Wilcoxon秩和檢驗等等。

      如果只有兩個樣本比較,適合用卡方檢驗,不過說實在的,檢驗出來的結(jié)果沒什么可靠性,因為現(xiàn)階段16s研究不做重復(fù)實在“難以服眾”了。先不說價格便宜,做重復(fù)壓根沒有難度,就是從生物學、統(tǒng)計學角度考慮,也需要做重復(fù)。

      如果是兩組樣本(至少3重復(fù)),可以試一下Student t,Welch‘st以及Wilcoxon秩和檢驗。Student t檢驗需要樣本符合正態(tài)分布,而且方差對齊。當組間樣本數(shù)不同,方差也不對齊的時候,Welch’s t檢驗是很好的選擇。

      Wilcoxon秩和檢驗又叫Mann-Whitney U 檢驗,是基于變量排名的一種統(tǒng)計方法,不需要樣本符合正態(tài)分布,也不需要樣本方差對齊,是更為廣泛的檢驗方法,但同時也由于檢驗太寬松,容易帶來很多假陽性。

      如果是多組樣本比較,可以選擇one way ANOVA、TURKEY以及Kruskal-Wallis H檢驗等方法。one way ANOVA和TURKEY其實都是基于方差分析,只不過后者帶有后驗,可以知道兩個分組對整體差異的貢獻度。

      Kruskal-Wallis H檢驗本質(zhì)也是一種秩和檢驗,與前兩者的區(qū)別在于,它不需要樣本數(shù)和方差的對齊,應(yīng)用更為廣泛。Kruskal-Wallis檢驗又被稱之為單因素非參數(shù)方差分析。

      毫不客氣地講,一般秩和檢驗或置換檢驗屬于非參數(shù)檢驗。在這類差異檢驗中,有兩種集成方法特別值得我們注意:LEfSe 、metastats。

      • LEfSe (LDA EffectSize)
        其實是一種判別分析。它通過生物學統(tǒng)計差異使其具有強大的識別功能。然后,它執(zhí)行額外的測試,以評估這些差異是否符合預(yù)期的生物學行為。具體來說,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數(shù)因子克魯斯卡爾—沃利斯和秩驗檢)檢測具有顯著豐度差異特征,并找到與豐度有顯著性差異的類群。最后,LEfSe采用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小。

      得到結(jié)果展示如下,差異體現(xiàn)在柱形圖和樹狀圖上。LDA值分布柱狀圖中展示了LDA Score大于設(shè)定值(默認設(shè)置為4)的物種,即組間具有統(tǒng)計學差異的Biomarker。展示了不同組中豐度差異顯著的物種,柱狀圖的長度代表差異物種的影響大?。礊?LDA Score)。

      在進化分支圖中,由內(nèi)至外輻射的圓圈代表了由門至屬(或種)的分類級別。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。著色原則:無顯著差異的物種統(tǒng)一著色為黃色,差異物種Biomarker跟隨組進行著色,紅色節(jié)點表示在紅色組別中起到重要作用的微生物類群,綠色節(jié)點表示在綠色組別中起到重要作用的微生物類群,若圖中某一組缺失,則表明此組中并無差異顯著的物種,故此組缺失。圖中英文字母表示的物種名稱在右側(cè)圖例中進行展示。

      • metastats
        核心在于針對不同的特征分為t檢驗和Fish exact檢驗,t檢驗通過permutation去估算分布模型,從而計算p值,計算好的p值,利用FDR去判斷存在顯著差異的界限值。此軟件主要針對兩組之間的比較,兼顧考慮了物種中分布廣泛的菌(t permutation的分析)和分布稀少的菌(卡方檢驗)。

      +  將豐度數(shù)據(jù)歸一化成為相對豐度
      + 組間T-test計算
      + 顯著性檢驗
         + Permutation test 置換檢驗
            + 重復(fù)數(shù) ≥8與重復(fù)數(shù) <8的p值計算規(guī)則不同
                + 重復(fù)數(shù) ≥8:只開展單物種的置換檢驗
                +重復(fù)數(shù) <8:將混合整個樣本進行置換檢驗
          + 組內(nèi)某個物種的數(shù)目少于樣本重復(fù)數(shù)的時候,會利用Fisher精確檢驗進行p值計算
      + 多重檢驗

      metastats結(jié)果給出差異物種的p值和q值(表中 的數(shù)據(jù)是假的?。?/p>

      Taxamean
      (group1)
      variance
      (group1)
      standard error
      (group1)
      mean
      (group2)
      variance
      (group2)
      standard error
      (group2)
      p
      value
      q
      value
      Clostridia0.00453.3191e-060.0770.034.37e-050.0890.00250.0257
      Alphaproteobacteria;0.24450.00180.00620.11170.0030.0090.05980.03933
      Spirochaetia;0.00021.448e-085.949e-050.001461.10134e-070.000160.0030.0141
      Nitrospira;0.0590.0090.0080.08747.1501e-050.0030.00540.0323
      Deltaproteobacteria;0.0370.320.0090.034541.58e-050.00160.014840.03733
      Acidimicrobiia;0.0039.0e-060.0015180.020.0034310.006190.0010.020
      Anaerolineae;0.035.015e-060.0010.04169.1706e-050.00480.0020.0244
      ----------------------------

      基于矩陣的檢驗方法

      所謂基于距離也就是檢驗的是群落差異而不是某個物種。上面所提及的檢驗方法,其實都只能告訴大家,這些分組是否有顯著差異(可以簡單理解為有無)。那如果想同時知道這些差異的程度(可以簡單理解為多少)呢,那需要Anosim,Adonis以及MRPP等檢驗方法。這些方法不但可以輸出檢驗顯著性結(jié)果(p值),還有程度結(jié)果(R值),R值可以用來判斷分組貢獻度大小。Anosim、Adonis這些可用于多元統(tǒng)計檢驗的模型就非常適合了。要值得注意的是,Anosim本質(zhì)是基于排名的算法,其實與NMDS的配合效果最好。如果是PCoA分析,建議配合使用Adonis檢驗結(jié)果。

      • Anosim

      Anosim(Analysis of similarities)是一種非參數(shù)檢驗方法。它首先通過變量計算樣本間關(guān)系(或者說相似性),然后計算關(guān)系排名,最后通過排名進行置換檢驗判斷組間差異是否顯著不同于組內(nèi)差異。這個檢驗有兩個重要的數(shù)值,一個是p值,可以判斷這種組間與組內(nèi)的比較是否顯著;一個是R值,可以得出組間與組內(nèi)比較的差異程度。Anosim用來檢驗組間的差異是否顯著大于組內(nèi)差異,從而判斷分組是否有意義,Anosim分析使用R vegan包anosim函數(shù),一般基于Bray-Curtis距離值的秩次進行組間差異顯著行檢驗,詳細計算過程可查看Anosim

      • Adonis

      ADONIS又稱置換多因素方差分析(permutational MANOVA)或非參數(shù)多因素方差分析(nonparametric MANOVA),是一種基于Bray-Curtis距離的非參數(shù)多元方差分析方法。它與Anosim的用途其實差不多,也能夠給出不同分組因素對樣品差異的解釋度(R值)與分組顯著性(P值)。不同點是應(yīng)用的檢驗?zāi)P筒煌?,ADONIS本質(zhì)是基于F統(tǒng)計量的方差分析,所以很多細節(jié)與上述方差分析類似。該方法可分析不同分組因素對樣本差異的解釋度,并使用置換檢驗對分組的統(tǒng)計學意義進行顯著性分析。ADONIS分析使用R vegan包adonis函數(shù)進行分析,詳細計算過程可adonis

      • MRPP

      MRPP分析與Anosim類似,但是MRPP是基于Bray-Curtis的參數(shù)檢驗,用于分析組間微生物群落結(jié)構(gòu)的差異是否顯著,通常配合PCA、PCoA、NMDS等降維圖使用,MRPP分析使用R vegan包mrpp函數(shù),詳細計算過程可查看MRPP

      • amova

      分子方差分析法 (AMOVA)與ANOVA類似,是基于加權(quán)或非加權(quán)Unifrac距離矩陣,檢驗不同組間差異顯著性的非參數(shù)分析方法。一般基于Unifrac距離,使用mothur軟件amova函數(shù)進行組間差異分析,詳細計算過程可查看Amova

      • Mantel test

      Mantel test,Mantel test 是對兩個矩陣相關(guān)關(guān)系的檢驗,顧名思義,是一種檢驗。既然是檢驗就得有原假設(shè),它的原假設(shè)是兩個矩陣見沒有相關(guān)關(guān)系。檢驗過程如下:兩個矩陣都對應(yīng)展開,變量兩列,計算相關(guān)系數(shù)(理論上什么相關(guān)系數(shù)都可以計算,但常用pearson相關(guān)系數(shù)),然后其中一列或兩列同時置換,再計算一個值,permutation 成千上萬次,看實際的r值在所得r值分布中的位置,如果跟隨機置換得到的結(jié)果站隊較近,則不大相關(guān),如果遠遠比隨機由此得到顯著性。詳細計算過程可查看Mantel test

      方法R值p值
      AnosimR-value介于(-1,1)之間,R-value大于0,說明組間差異顯著P< 0.05 表示統(tǒng)計具有顯著性
      AdonisR2 表示不同分組對樣本差異的解釋度Pr表示P 值,小于0.05 說明本次檢驗的可信度高
      Amova---p-value表示P 值,小于0.05 說明組間差異顯著
      MRPPA值大于0說明組間差異大于組內(nèi)差異Significance值小于0.05說明差異顯著
      Mantel testr為相關(guān)系數(shù),r值越大兩矩陣相關(guān)性越大P<0.05表示統(tǒng)計具有顯著性

      作者實在太懶,堅持別人已經(jīng)說過的話不愿再說,只要抄過來就好了,在文章的最后他把趙小胖的一段話原版搬了過來:

      無論你從事何種領(lǐng)域的科學研究還是統(tǒng)計調(diào)查,顯著性檢驗作為判斷兩個乃至多個數(shù)據(jù)集之間是否存在差異的方法被廣泛應(yīng)用于各個科研領(lǐng)域。筆者作為科研界一名新人也曾經(jīng)在顯著性檢驗方面吃過許多苦頭。后來醉心于統(tǒng)計理論半載有余才摸到顯著性檢驗的皮毛,也為顯著性檢驗理論之精妙,品種之繁多,邏輯之嚴謹所折服。在此,特寫下這篇博文,以供那些仍然掙扎在顯著性檢驗?zāi)嗵兜姆墙y(tǒng)計專業(yè)的科研界同僚們參考。由于筆者本人也并非統(tǒng)計專業(yè)畢業(yè),所持觀點粗陋淺鄙,貽笑大方之處還望諸位業(yè)界前輩,領(lǐng)域翹楚不吝賜教。小可在此謝過諸位看官了。




        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多