簡介:在概率統(tǒng)計(jì)中有兩種主要的方法:參數(shù)統(tǒng)計(jì)和非參數(shù)統(tǒng)計(jì)(或者說參數(shù)估計(jì)和非參數(shù)估計(jì))。 其中,參數(shù)估計(jì)是概率統(tǒng)計(jì)的一種方法。主要在樣本知道情況下,一般知道或假設(shè)樣本服從某種概率分布,但不知到具體參數(shù)(或者知道具體模型,但不知道模型的參數(shù))。 參數(shù)估計(jì)就是通過多次試驗(yàn),觀察其結(jié)果,利用結(jié)果推出參數(shù)的大概值。 (當(dāng)你推出參數(shù)的極大可能值時(shí),就相當(dāng)于知道了分布及其參數(shù)情況,就可以利用它來推測其他樣例出現(xiàn)的概率了。 這屬于應(yīng)用了) 參數(shù)估計(jì)的方法有多種,這里我們分析三種基于概率的方法,分別是最大似然估計(jì)(Maximum Likelihood)、貝葉斯估計(jì)(Bayes)和最大后驗(yàn)估計(jì)(Maximum a posteriori)。我們假設(shè)我們觀察的變量是
“l(fā)ikelihood/似然”的意思就是“事件(即觀察數(shù)據(jù))發(fā)生的可能性”,最大似然估計(jì)就是要找到的一個(gè)估計(jì)值,使“事件發(fā)生的可能性”最大,也就是使最大。一般來說,我們認(rèn)為多次取樣得到的 由于一般都比較小,且N一般都比較大,因此連乘容易造成浮點(diǎn)運(yùn)算下溢,所以通常我們都去最大化對應(yīng)的對數(shù)形式 具體求解釋時(shí),可對右式對求導(dǎo)數(shù),然后令為0,求出值即為。 這時(shí)一般知道具體的分布,再加上參數(shù)theta,然后可以用含theta的式子表示每一次(獨(dú)立的)出現(xiàn)的概率。這樣L(theta)就是一個(gè)含theta參數(shù)的式子,最后求導(dǎo)(或偏導(dǎo)),解方程(組)就OK了。 注意:最大似然把待估的參數(shù)看做是確定性的量,只是其取值未知。最佳估計(jì)就是使得產(chǎn)生以觀測到的樣本的概率最大的那個(gè)值。 該估計(jì)是最大可能性估計(jì),但不是無偏估計(jì)。 最大似然估計(jì)屬于點(diǎn)估計(jì),只能得到待估計(jì)參數(shù)的一個(gè)值。(1) 但是在有的時(shí)候我們不僅僅希望知道,我們還希望知道取其它值得概率,即我們希望知道整個(gè)在獲得觀察數(shù)據(jù)后的分布情況. (2) 最大似然估計(jì)僅僅根據(jù)(有限的)觀察數(shù)據(jù)對總體分布進(jìn)行估計(jì),在數(shù)據(jù)量不大的情況下,可能不準(zhǔn)確。例如我們要估計(jì)人的平均體重,但是抽樣的人都是小孩,這樣我們得到的平均體重就不能反映總體的分布,而我們應(yīng)該把“小孩之占總?cè)丝?0%”的先驗(yàn)考慮進(jìn)去。這時(shí)我們可以用貝葉斯方法。
使用Bayes公式,我們可以把我們關(guān)于的先驗(yàn)知識以及在觀察數(shù)據(jù)結(jié)合起來,用以確定的后驗(yàn)概率: 其中是累積因子,以保證和為1。要使用Bayes方法,我們需有關(guān)于的先驗(yàn)知識,即不同取值的概率。比如表示下雨,表示不下雨,根據(jù)以往的經(jīng)驗(yàn)我們大體上有、,在這種知識不足的時(shí)候,可以假設(shè)是均勻分布的,即取各值的概率相等。 在某個(gè)確定的取值下,事件x的概率就是,這是關(guān)于的函數(shù),比如一元正態(tài)分布。與上一節(jié)中的一樣,我們認(rèn)為各次取樣是獨(dú)立的,可以分開來寫,這樣我們就可以得到的一個(gè)表達(dá)式,不同的對應(yīng)不同的值。 根據(jù)獲得的,我們邊可以取使其最大化的那個(gè)取值,記為。可能有人已經(jīng)看出問題來了:我們做了很多額外功,為了求得一個(gè),我們把取其它值的情況也考慮了。當(dāng)然在有的時(shí)候分布是有用的,但是有的時(shí)候我們?nèi)〔⒉恍枰?,我們只要那個(gè)。最大后驗(yàn)估計(jì)這個(gè)時(shí)候就上場了。 備注:貝葉斯估計(jì)則把待估計(jì)的參數(shù)看成是符合某種先驗(yàn)概率分布的隨機(jī)變量。對樣本進(jìn)行觀測的過程,就是把先驗(yàn)概率密度轉(zhuǎn)化為后驗(yàn)概率密度,這樣就利用樣本的信息修正了對參數(shù)的初始估計(jì)值。在貝葉斯估計(jì)中,一個(gè)典型的效果就是,每得到新的觀測樣本,都使得后驗(yàn)概率密度函數(shù)變得更加尖銳,使其在待估參數(shù)的真實(shí)值附近形成最大的尖峰。
最大后驗(yàn)估計(jì)運(yùn)用了貝葉斯估計(jì)的思想,但是它并不去求解,而是直接獲得。從貝葉斯估計(jì)的公式可以看出, 與最大似然估計(jì)中一樣,我們通常最大化對應(yīng)的對數(shù)形式: 這樣,我們便無需去計(jì)算,也不需要求得具體的部分,便可以得到想要的。 和最大似然很相似,也是假定參數(shù)未知,但是為確定數(shù)值。只是優(yōu)化函數(shù)為后驗(yàn)概率形式,多了一個(gè)先驗(yàn)概率項(xiàng)。 區(qū)別與總結(jié):區(qū)別:而貝葉斯估計(jì)和二者最大的不同在于,假定參數(shù)也是隨機(jī)變量,不是確定值。在樣本分布D上,計(jì)算參數(shù)所有可能的情況,并通過基于參數(shù)期望,計(jì)算類條件概率密度。 也就是說貝葉斯估計(jì)不是想極大似然估計(jì)那樣找到使觀測到的樣本的概率最大的那個(gè)參數(shù)值。而是找到所有可能的參數(shù)值及其相應(yīng)的可信值(暫且怎么稱呼吧)。這樣你就可以知道不同參數(shù)值的可信程度。例如:①有三個(gè)分別為0.8,0.05,0.05; 則決然的選最大的0.8。例如②三個(gè)參數(shù)值的可信值為0.4,0.39, 0.39; 則選第一個(gè)參數(shù)值就要慎重了。 但是,當(dāng)參數(shù)分布為尖峰(如例①),且該參數(shù)對應(yīng)樣本分布比較平坦時(shí),極大似然近似于貝葉斯。 總結(jié): 三種方法各有千秋,使用于不同的場合。當(dāng)對先驗(yàn)概率的估計(jì)沒有信心,可以使用最大似然估計(jì)(當(dāng)然也可以使用其它兩種)。貝葉斯估計(jì)得到了后驗(yàn)概率的分布,最大似然估計(jì)適用于只需要知道使后驗(yàn)概率最大的那個(gè)。總體上,極大似然計(jì)算簡單,而貝葉斯在某些特殊情況下,效果好于極大似然。 另外一方面,我們可以感覺到,最大似然估計(jì)和Bayes/MAP有很大的不同,原因在于后兩種估計(jì)方法利用了先驗(yàn)知識,如果利用恰當(dāng),可以得到更好的結(jié)果。其實(shí)這也是兩大派別(Frequentists and Bayesians)的一個(gè)區(qū)別。 最后附上一張參數(shù)估計(jì)與非參數(shù)估計(jì)的對比圖:
|
|