乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      [轉(zhuǎn)載]logistic回歸模型總結(jié)

       wenasunny 2016-12-29
       

             logistic回歸模型是最成熟也是應(yīng)用最廣泛的分類(lèi)模型,通過(guò)學(xué)習(xí)和實(shí)踐擬通過(guò)從入門(mén)、進(jìn)階到高級(jí)的過(guò)程對(duì)其進(jìn)行總結(jié),以便加深自己的理解也為對(duì)此有興趣者提供學(xué)習(xí)的便利。

      一、有關(guān)logistic的基本概念

        logistic回歸主要用來(lái)預(yù)測(cè)離散因變量與一組解釋變量之間的關(guān)系

      最常用的是二值型logistic。即因變量的取值只包含兩個(gè)類(lèi)別 例如:好、壞 ;發(fā)生、不發(fā)生;常用Y=1或Y=0表示 X表示解釋變量則

      P(Y=1|X)表示在X的條件下Y=1的概率,logistic回歸的數(shù)學(xué)表達(dá)式為:

      log(p/1-p)=A+BX =L其中p/1-p稱(chēng)為優(yōu)勢(shì)比(ODDS) 即發(fā)生與不發(fā)生的概率之比

      可以根據(jù)上式反求出P(Y=1|X)=1/(1+e^-L)

      根據(jù)樣本資料可以通過(guò)最大似然估計(jì)計(jì)算出模型的參數(shù)

      然后根據(jù)求出的模型進(jìn)行預(yù)測(cè)

      下面介紹logistic回歸在SAS中的實(shí)現(xiàn)以及輸出結(jié)果的解釋

      二、logistic回歸模型初步

      SAS中logistic回歸輸出結(jié)果主要包括預(yù)測(cè)模型的評(píng)價(jià)以及模型的參數(shù)

      預(yù)測(cè)模型的評(píng)價(jià)與多元線(xiàn)性回歸模型的評(píng)價(jià)類(lèi)似主要從以下幾個(gè)層次進(jìn)行

      (1)模型的整體擬合優(yōu)度

      主要評(píng)價(jià)預(yù)測(cè)值與觀測(cè)值之間的總體一致性。可以通過(guò)以下兩個(gè)指標(biāo)來(lái)進(jìn)行檢驗(yàn)

      1、Hosmer-Lemeshowz指標(biāo)

              HL統(tǒng)計(jì)量的原假設(shè)Ho是預(yù)測(cè)值和觀測(cè)值之間無(wú)顯著差異,因此HL指標(biāo)的P-Value的值越大,越不能拒絕原假設(shè),即說(shuō)明模型很好的擬合了數(shù)據(jù)。

      在SAS中這個(gè)指標(biāo)可以用LACKFIT選項(xiàng)進(jìn)行調(diào)用

      2、AIC和SC指標(biāo) 即池雷準(zhǔn)則和施瓦茨準(zhǔn)則

               與線(xiàn)性回歸類(lèi)似AIC和SC越小說(shuō)明模型擬合的越好

      (2)從整體上看解釋變量對(duì)因變量有無(wú)解釋作用

                相當(dāng)于多元回歸中的F檢驗(yàn) 在logistic回歸中可以通過(guò)似然比(likelihood ratio test)進(jìn)行檢驗(yàn)

      (3)解釋變量解釋在多大程度上解釋了因變量

                與線(xiàn)性回歸中的R^2作用類(lèi)似 在logistic回歸中可以通過(guò)Rsquare和C統(tǒng)計(jì)量進(jìn)行度量

      在SAS中通過(guò)RSQ來(lái)調(diào)用Rsquare,C統(tǒng)計(jì)量自動(dòng)輸出

       (4) 模型評(píng)價(jià)指標(biāo)匯總

      統(tǒng)計(jì)量

      趨勢(shì)

      擬合

      作用

      SAS調(diào)用命令

      備注

      AIC、SC

      越小

      越好

      類(lèi)似與多元回歸中的殘差平方和

      模型自動(dòng)輸出

       

      似然比卡方

      越大

      越好

      類(lèi)似與多元回歸中的回歸平方和

      自動(dòng)輸出

      P值越小越好

      RSQUARE

      越大

      越好

      類(lèi)似與多元回歸中的R^2

      RSQ選項(xiàng)調(diào)用

       

      C統(tǒng)計(jì)量

      越大

      越好

      度量觀測(cè)值和條件預(yù)測(cè)的相對(duì)一致性

      自動(dòng)輸出

       

      HL統(tǒng)計(jì)量

      越小

      越好

      度量觀測(cè)值和預(yù)測(cè)值總體的一致性

      LACKFIT選項(xiàng)調(diào)用

      P值越大越好

      說(shuō)明:在實(shí)踐中,對(duì)以上統(tǒng)計(jì)量最為關(guān)注的是C統(tǒng)計(jì)量,其次是似然比卡方,最后才是HL統(tǒng)計(jì)量。AIC和RSQUARE極少關(guān)注,這一點(diǎn)和多元線(xiàn)性回歸有很大的區(qū)別。根本原因就是多元線(xiàn)性回歸模型是一個(gè)預(yù)測(cè)模型,目標(biāo)變量的值具有實(shí)際意義;而logistic是一個(gè)分類(lèi)模型,目標(biāo)變量只是一個(gè)分類(lèi)標(biāo)識(shí),因此更關(guān)注預(yù)測(cè)值和預(yù)測(cè)值之間的相對(duì)一致性而不是絕對(duì)一致性。(注:引自姚志勇的《SAS編程與數(shù)據(jù)挖掘商業(yè)案例》)

      (5)以SAS幫助中例子為例對(duì)輸出結(jié)果進(jìn)行解釋說(shuō)明

      data Remission;       input remiss cell smear infil li blast temp;
            cards;

          .8   .83  .66  1.9  1.1     .996
          .9   .36  .32  1.4   .74    .992
          .8   .88  .7    .8   .176   .982
            .87  .87   .7  1.053   .986
          .9   .75  .68  1.3   .519   .98
            .65  .65   .6   .519   .982
          .95  .97  .92    1.23    .992
          .95  .87  .83  1.9  1.354  1.02
            .45  .45   .8   .322   .999
          .95  .36  .34   .5      1.038
          .85  .39  .33   .7   .279   .988
          .7   .76  .53  1.2   .146   .982
          .8   .46  .37   .4   .38   1.006
          .2   .39  .08   .8   .114   .99
            .9   .9   1.1  1.037   .99
            .84  .84  1.9  2.064  1.02
          .65  .42  .27   .5   .114  1.014
            .75  .75    1.322  1.004
          .5   .44  .22   .6   .114   .99
            .63  .63  1.1  1.072   .986
            .33  .33   .4   .176  1.01
          .9   .93  .84   .6  1.591  1.02
            .58  .58     .531  1.002
          .95  .32  .3   1.6   .886   .988
            .6   .6   1.7   .964   .99
            .69  .69   .9   .398   .986
            .73  .73   .7   .398   .986
         ;
      run;

      proc logistic data= Remission desc;

      model  remiss=cell smear infil li blast temp

                             /selection=stepwise

                             lackfit

                            Rsquare;

      run;

      輸出結(jié)果如下:紅色字體是對(duì)輸出結(jié)果的注釋

      (一)

      SAS 系統(tǒng)

      The LOGISTIC Procedure
                                                             SAS 系統(tǒng)

                                                      The LOGISTIC Procedure


      Model Information
      Data Set WORK.TEST    (注:指明模型所用的數(shù)據(jù)集)  
      Response Variable TRAD (注:指明模型的因變量) Complete Remission
      Number of Response Levels          (注:指明模型因變量取兩類(lèi)值)  
      Model binary logit (注:指明模型是二分類(lèi)logistic回歸模型)  
      Optimization Technique Fisher's scoring (注:指明采用的是fisher優(yōu)化方法)  

      Number of Observations Read 165
      Number of Observations Used 165


      Response Profile
      Ordered
      Value
      remiss Total
      Frequency
      1 1 82
      2 0 83
      (注:指明因變量的取值類(lèi)型及取每一類(lèi)變量的頻數(shù))


      Probability modeled is remiss=1.(注:這個(gè)要關(guān)注 指明了模型求的是在自變量作用下因變量remiss=1的概率)
      (二)
      Stepwise Selection Procedure(注:逐步回歸的選擇過(guò)程,說(shuō)明了模型是怎么一步步根據(jù)一定的原則來(lái)選擇最終進(jìn)入模型的變量的)

      Step 0. Intercept entered:(注:第一步只包含截距項(xiàng)而無(wú)變量時(shí)時(shí)的結(jié)果)

      Model Convergence Status
      Convergence criterion (GCONV=1E-8) satisfied.
      (注:用來(lái)判斷模型的收斂狀態(tài)的,也就是說(shuō)經(jīng)過(guò)迭代模型是否求得了參數(shù)satisfied說(shuō)明收斂了,unsatisfied說(shuō)明沒(méi)收斂)

      -2 Log L = 228.733


      Residual Chi-Square Test
      Chi-Square DF Pr ChiSq
      62.1911 4 <.0001

      Step 1. Effect FAC4_1 entered:(變量FAC4_1進(jìn)入模型)


       

      Model Convergence Status
      Convergence criterion (GCONV=1E-8) satisfied.



       

      Model Fit Statistics
      Criterion Intercept
      Only
      Intercept
      and
      Covariates
      AIC 230.733 105.210
      SC 233.838 111.422
      -2 Log L 228.733 101.210

      (注:AIC、SC和-2 Log L都變小了說(shuō)明加入變量FAC4_1后模型擬合的更好了)

       

      R-Square 0.5383 Max-rescaled R-Square 0.7178



       

      Testing Global Null Hypothesis: BETA=0
      Test Chi-Square DF Pr ChiSq
      Likelihood Ratio 127.5226 1 <.0001
      Score 58.4568 1 <.0001
      Wald 37.8154 1 <.0001

      (注:原假設(shè)是所有變量的參數(shù)為0 ,根據(jù)檢驗(yàn)結(jié)果可以看出P<0.001拒絕原假設(shè),即變量的參數(shù)不全為0)

       

      Residual Chi-Square Test
      Chi-Square DF Pr ChiSq
      11.2572 3 0.0104

      接下來(lái)的跟上面的一樣都是些變量的選擇過(guò)程,進(jìn)進(jìn)出出的

      (三)最終的結(jié)果如下

       

      Note: No effects for the model in Step 1 are removed.




      Step 2. Effect FAC3_1 entered:



      Summary of Stepwise Selection
      Step Effect DF Number
      In
      Score
      Chi-Square
      Wald
      Chi-Square
      Pr ChiSq Variable
      Label
      Entered Removed
      1 FAC4_1   1 1 58.4568   <.0001 FAC4_1
      2 FAC3_1   1 2 8.9660   0.0028 FAC3_1


      Analysis of Maximum Likelihood Estimates
      Parameter DF Estimate Standard
      Error
      Wald
      Chi-Square
      Pr ChiSq
      Intercept 1 -2.6404 0.5092 26.8906 <.0001
      FAC3_1 1 -1.1846 0.4843 5.9825 0.0144
      FAC4_1 1 -4.7236 0.7924 35.5318 <.0001


      Odds Ratio Estimates
      Effect Point Estimate 95% Wald
      Confidence Limits
      FAC3_1 0.306 0.118 0.790
      FAC4_1 0.009 0.002 0.042


      Association of Predicted Probabilities and
      Observed Responses
      Percent Concordant 95.1 Somers' D 0.902
      Percent Discordant 4.9 Gamma 0.903
      Percent Tied 0.0 Tau-a 0.454
      Pairs 6806 c 0.951


      Partition for the Hosmer and Lemeshow Test
      Group Total trad = 1 trad = 0
      Observed Expected Observed Expected
      1 17 0 0.01 17 16.99
      2 17 0 0.29 17 16.71
      3 17 4 1.17 13 15.83
      4 17 0 2.93 17 14.07
      5 17 8 6.82 9 10.18
      6 17 8 11.06 9 5.94
      7 17 16 14.49 1 2.51
      8 17 17 16.32 0 0.68
      9 17 17 16.91 0 0.09
      10 12 12 12.00 0 0.00


      Hosmer and Lemeshow Goodness-of-Fit
      Test
      Chi-Square DF Pr ChiSq
      15.8290 8 0.0449


      -2 Log L = 34.372


      Residual Chi-Square Test
      Chi-Square DF Pr ChiSq
      9.4609 6 0.1493
        

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多