乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      【通俗向】方差分析

       高心望云 2019-07-12

      最近在圖書館借了本《R和ASReml-R統(tǒng)計分析教程》,林元震和陳曉陽主編的關(guān)于R的書籍,當(dāng)時看上這本書的原因在于里面以統(tǒng)計學(xué)知識為主,作為R語言實戰(zhàn)的良好補充,雖然R語言實戰(zhàn)是一本相當(dāng)詳實的介紹R語言的書,但是其中的統(tǒng)計學(xué)原理往往一筆帶過(雖然本書也不是很詳盡),但是作為一個數(shù)據(jù)分析從業(yè)人員,我感覺對于很多統(tǒng)計理論,達到可以講明白原理和邏輯就可以,具體的計算過程和推導(dǎo)反而在其次,而最重要的是在什么情況下應(yīng)用什么算法和模型,這才是最關(guān)鍵的。

      這篇博客分享下對方差分析的理解。

      其實在之前的文章中,對t檢驗相關(guān)說明比較多,而方差分析和t檢驗方法的功效和作用非常相近,網(wǎng)上對此也不是很詳盡,下面首先說說我的理解。

      這里說的t檢驗是雙樣本t,也就是兩組數(shù),看這兩組數(shù)據(jù)對應(yīng)的總體差異;方差檢驗也是看兩組(及以上)的數(shù)據(jù)見有沒有差異,那么其實二者是不是一樣呢?

      其實在某種程度是一樣的。下面的情況分為兩個維度:檢驗的組數(shù)和組內(nèi)方差

      情況1:僅有兩組,且組內(nèi)方差相等

      在這種情況下,t檢驗和F檢驗相等

      我們看下F檢驗的原理,F(xiàn)檢驗是看F分布,而F value是SSB/SSW,關(guān)于SSB和SSW可以參考可汗學(xué)院有一節(jié)專門講組間平方和(SSB)和組內(nèi)平方和(SSW),如果我們把組間平方和理解為兩組之間的差異,組內(nèi)平方和理解為兩組內(nèi)部不同數(shù)據(jù)的差異的話,那么簡單點說,兩個數(shù)據(jù)在有差異的前提下,究竟是組間的差異大,還是組內(nèi)的差異大呢?如果是組間的差異大,那么這兩組數(shù)據(jù)本身不一致的概率就非常大了,對應(yīng)F值比較大;

      那么看看兩組的t檢驗,t檢驗的前提是兩組數(shù)據(jù)都是從不同樣本抽出的數(shù)據(jù),而樣本都符合正態(tài)分布,然后用這兩個樣本推斷這兩個總體存不存在差異;舉個例子,我有一缸黑米,和一缸白米,為了看這兩缸米的密度有沒有差異,用小勺各盛了十次,觀察密度,然后用小勺的十次,去判定總體的差異;如果想用t檢驗,前提假設(shè)是由于隨機誤差,兩缸米在抽取的時候密度會有隨機誤差,那么每次抽取的密度都呈現(xiàn)正態(tài)分布,還有一個假設(shè),就是兩個勺子盛的米離散程度是相等的,也就是方差相等。所以,在方差相等,或者說方差齊的前提是t檢驗的必要前提。而F檢驗不要求方差齊,或者說本身就是檢查方差的差異的。

      按照之前的定義,如果兩組方差齊,由于F檢驗的F值是SSB/SSW,組內(nèi)方差相等,如果兩組有變異,那么全部都是由于組間差異造成的,F(xiàn)檢驗自然成了t檢驗,下面附上F檢驗和t檢驗的代碼和結(jié)果(數(shù)據(jù)參考了《R和ASReml-R統(tǒng)計分析教程》中的數(shù)據(jù)):

      weight<-scan()
      16.68 20.67 18.42 18 17.44 15.95 18.68 23.22 21.42 19 18.92 NA
      
      V<-rep(c('LY1','DXY'),rep(6,2))
      df<-data.frame(V,weight)
      a<-subset(df$weight,V=='LY1')
      b<-subset(df$weight,V=='DXY')
      var.test(a,b)
      t.test(a,b,var.equal=T,paired = F)

      t檢驗的結(jié)果是:

      Two Sample t-test
      
      data:  a and b
      t = -2.1808, df = 9, p-value = 0.0571
      alternative hypothesis: true difference in means is not equal to 0
      95 percent confidence interval:
       -4.86513222  0.08913222
      sample estimates:
      mean of x mean of y 
         17.860    20.248 

      F檢驗:

      fit<-aov(weight~V,data=df)
      summary(fit)

      結(jié)果:

        Df Sum Sq Mean Sq F value Pr(>F)  
      V            1  15.55   15.55   4.756 0.0571 .
      Residuals    9  29.43    3.27                 
      ---
      Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
      1 observation deleted due to missingness

      可以看到p值都是0.0571,相等,因為前提是在t檢驗中加入了var.test,然后設(shè)置參數(shù)var.equal=T。下面看看方差不等的情況:

      情況2,兩組數(shù)據(jù),方差不齊

      在這種情況下,如果忽略了方差齊的前提,比如我重新做一組數(shù)據(jù),先檢測防擦:

      weight<-scan()
      16.68 20.67 18.42 18 17.44 30 18.68 23.22 21.42 19 18.92 82
      
      V<-rep(c('LY1','DXY'),rep(6,2))
      df<-data.frame(V,weight)
      a<-subset(df$weight,V=='LY1')
      b<-subset(df$weight,V=='DXY')
      var.test(a,b)

      看到檢測結(jié)果:

      F test to compare two variances
      
      data:  a and b
      F = 0.038913, num df = 5, denom df = 5, p-value = 0.002832
      alternative hypothesis: true ratio of variances is not equal to 1
      95 percent confidence interval:
       0.005445095 0.278085194
      sample estimates:
      ratio of variances 
              0.03891273 

      p為0.002832,所以方差不齊;

      但是然后我們進行方差齊的t檢驗:

      t.test(a,b,var.equal=T,paired = F)
      Two Sample t-test
      
      data:  a and b
      t = -0.98304, df = 10, p-value = 0.3488
      alternative hypothesis: true difference in means is not equal to 0
      95 percent confidence interval:
       -33.77097  13.09431
      sample estimates:
      mean of x mean of y 
       20.20167  30.54000  

      看到兩組均值相等的概率好大;

      方差不齊調(diào)整后的t檢驗:

      t.test(a,b,var.equal=F,paired = F)
      Welch Two Sample t-test
      
      data:  a and b
      t = -0.98304, df = 5.3885, p-value = 0.3676
      alternative hypothesis: true difference in means is not equal to 0
      95 percent confidence interval:
       -36.79643  16.11976
      sample estimates:
      mean of x mean of y 
       20.20167  30.54000 

      P值是0.3676 稍微比之前大一些;

      F檢驗:

      fit<-aov(weight~V,data=df)
      summary(fit)
        Df Sum Sq Mean Sq F value Pr(>F)
      V            1    321   320.6   0.966  0.349
      Residuals   10   3318   331.8       

      p是0.349;這和t檢驗在方差齊的前提下是相等的。

      我理解是這樣的:

      t檢驗的前提是方差齊,只有方差齊了,t檢驗的結(jié)果才反應(yīng)兩組數(shù)據(jù)的是否有差異,否則如果方差不齊的話,會把組內(nèi)的差異也考慮進去,所以判定的概率就更寬松;而F檢驗其實就是看組間差異和組內(nèi)差異的比較,所以本質(zhì)上和t檢驗方差齊的概念相似。但是實際上在方差不齊的時候是無法進行t檢驗的,結(jié)果不具有統(tǒng)計學(xué)意義。

      情況3&4:多組情況下,方差齊&多組方差不齊

      t檢驗一般適用于兩組,所以在多維的情況下,不適用t檢驗,而F檢驗可以判定多組、一組多變量和多組間有交互(單因素、協(xié)方差、雙因素?zé)o重復(fù)、雙因素有重復(fù)等),然后在通過兩兩比較進行分析,用duncan和tukey等方法去判定。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多