乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      集成學(xué)習(xí)

       無名小卒917 2016-10-10

       作為集成學(xué)習(xí)的二個方法,其實bagging和boosting的實現(xiàn)比較容易理解,但是理論證明比較費力。下面首先介紹這兩種方法。

      所謂的集成學(xué)習(xí),就是用多重或多個弱分類器結(jié)合為一個強(qiáng)分類器,從而達(dá)到提升分類方法效果。嚴(yán)格來說,集成學(xué)習(xí)并不算是一種分類器,而是一種分類器結(jié)合的方法。

      1.bagging

      bagging算是很基礎(chǔ)的集成學(xué)習(xí)的方法,他的提出是為了增強(qiáng)分類器效果,但是在處理不平衡問題上卻有很好的效果。

       

      如上圖,原始數(shù)據(jù)集通過T次隨機(jī)采樣,得到T個與原始數(shù)據(jù)集相同大小的子數(shù)據(jù)集,分別訓(xùn)練得到T個弱分類器Classifier,然后結(jié)合為一個強(qiáng)分類器。

      以下給出隨機(jī)采樣的概率解釋及效果分析:

      采用的是概率論里面的booststrap思想,由于小樣本估計的不準(zhǔn)確性,再加上現(xiàn)代計算性能的提升,可以用重復(fù)的計算提升小樣本的精度。

      原始小樣本不能正確反映數(shù)據(jù)的真實分布,用T次隨機(jī)采樣擬合真實分布。

      下式為L次分類得到的強(qiáng)分類器等于L次估計的期望:


      下式為真實的y與每個弱分類器之間的差異,展開后得到右邊:


      下式表示,最后得到弱分類器的差異會大于統(tǒng)計平均得到的強(qiáng)分類器的差異,簡而言之就是通過強(qiáng)分類,更好地擬合了。


      上面得到的結(jié)果就是,如果原始數(shù)據(jù)為真實分布的前提下,用bagging集成分類器,始終是能提升效果的,提升的效果取決于分類器的穩(wěn)定性,穩(wěn)定性越差,提升的效果越高。如神經(jīng)網(wǎng)絡(luò)這樣的不穩(wěn)定分類器。

      當(dāng)然,上面假設(shè)是數(shù)據(jù)接近真實分布,然后在概率[1/N,1/N,.....1/N]下重采樣。

      如果訓(xùn)練數(shù)據(jù)不是真實分布,那么bagging的效果也可能比非bagging更差。

      接下來是如何把L個弱分類器集成為強(qiáng)分類器:

      最簡單的方法就是投票法(vote)。對于一個測試樣本,通過L個弱分類器得到L個類別信息,這些信息投票產(chǎn)生最后的類別。如L=10,分類結(jié)果分別為:[3,3,3,3,5,5,6,7,1,8.]

      那么這個樣本就屬于3.


      2.boosting

      類似于bagging集成學(xué)習(xí),boosting也是通過重采樣得到多個弱分類器,最后得到一個強(qiáng)分類器。區(qū)別是boosting是基于權(quán)值的弱分類器集成。


      上面為boosting的流程圖,簡要概括如下:

      1.e表示某個弱分類器的錯誤分類率,計算用來作為這個分類器的可信度權(quán)值a,以及更新采樣權(quán)值D。

      2.D表示原始數(shù)據(jù)的權(quán)值矩陣,用來隨機(jī)采樣。剛開始每個樣本的采樣概率都一樣,為1/m。在某個弱分類器分類時,分類錯誤或?qū)?,則D就會根據(jù)e相應(yīng)地增加或減少,那么分錯的樣本由于D增大,在下一次分類采樣時被采樣的概率增加了,從而提高上次錯分樣本下次分對的概率。

      3.α為弱分類器的可信度,bagging中隱含的α為1,boosting中,根據(jù)每個弱分類器的表現(xiàn)(e較低),決定這個分類器的結(jié)果在總的結(jié)果中所占的權(quán)重,分類準(zhǔn)的自然占較多的權(quán)重。

      最后根據(jù)可信度α,以及各個弱分類器的估計h(x),得到最后的結(jié)果。


      如上圖為boosting的流程圖,主要為兩個部分,更新采樣權(quán)值D和計算分類器權(quán)重α,前者使得原來分錯的樣本再下一個分類器中能夠有較大的幾率出現(xiàn),從而提高原來分錯樣本之后分對的概率;后者根據(jù)分類器的表現(xiàn),賦予不同弱分類器不同權(quán)值,最后得到一個加權(quán)的強(qiáng)分類器。

      boosting概率上的效果證明這里略去,只引出一個結(jié)論,不斷地迭代更新能使得最終的結(jié)果無限接近最優(yōu)分類,不過boosting會傾向于一直分錯的樣本,如果樣本中有離群的錯誤樣本,boosting就會出現(xiàn)效果不好的情況。

      總結(jié)上面討論了兩個集成學(xué)習(xí)的方法,bagging和boosting,boosting有點像bagging的改進(jìn)版本,加入了權(quán)值采樣和權(quán)重強(qiáng)分類的概念。都是通過重采樣和弱分類器融合實現(xiàn)的方法。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多