參數(shù)估計(jì)：最大似然估計(jì)、貝葉斯估計(jì)與最大后驗(yàn)估計(jì)

黑塵子 2016-03-07

展開全文

簡介：

在概率統(tǒng)計(jì)中有兩種主要的方法：參數(shù)統(tǒng)計(jì)和非參數(shù)統(tǒng)計(jì)（或者說參數(shù)估計(jì)和非參數(shù)估計(jì)）。其中，參數(shù)估計(jì)是概率統(tǒng)計(jì)的一種方法。主要在樣本知道情況下，一般知道或假設(shè)樣本服從某種概率分布，但不知到具體參數(shù)（或者知道具體模型，但不知道模型的參數(shù)）。參數(shù)估計(jì)就是通過多次試驗(yàn)，觀察其結(jié)果，利用結(jié)果推出參數(shù)的大概值。（當(dāng)你推出參數(shù)的極大可能值時(shí)，就相當(dāng)于知道了分布及其參數(shù)情況，就可以利用它來推測其他樣例出現(xiàn)的概率了。這屬于應(yīng)用了）

參數(shù)估計(jì)的方法有多種，這里我們分析三種基于概率的方法，分別是最大似然估計(jì)（Maximum Likelihood）、貝葉斯估計(jì)（Bayes）和最大后驗(yàn)估計(jì)（Maximum a posteriori）。我們假設(shè)我們觀察的變量是，觀察的變量取值（樣本）為，要估計(jì)的參數(shù)是，的分布函數(shù)是（我們用條件概率來顯式地說明這個(gè)分布是依賴于取值的）。實(shí)際中，和都可以是幾個(gè)變量的向量，這里我們不妨認(rèn)為它們都是標(biāo)量（theta若是標(biāo)量求導(dǎo)，若是向量求偏導(dǎo)）。這里的p(x|θ)可以是高斯分布或其他分布。

最大似然估計(jì) Maximum Likelihood (ML)

“l(fā)ikelihood/似然”的意思就是“事件（即觀察數(shù)據(jù)）發(fā)生的可能性”，最大似然估計(jì)就是要找到的一個(gè)估計(jì)值，使“事件發(fā)生的可能性”最大，也就是使最大。一般來說，我們認(rèn)為多次取樣得到的是獨(dú)立同分布的（iid），這樣

由于一般都比較小，且N一般都比較大，因此連乘容易造成浮點(diǎn)運(yùn)算下溢，所以通常我們都去最大化對應(yīng)的對數(shù)形式

具體求解釋時(shí)，可對右式對求導(dǎo)數(shù)，然后令為0，求出值即為。

這時(shí)一般知道具體的分布，再加上參數(shù)theta，然后可以用含theta的式子表示每一次（獨(dú)立的）出現(xiàn)的概率。這樣L(theta）就是一個(gè)含theta參數(shù)的式子，最后求導(dǎo)（或偏導(dǎo)），解方程（組）就OK了。

注意：最大似然把待估的參數(shù)看做是確定性的量，只是其取值未知。最佳估計(jì)就是使得產(chǎn)生以觀測到的樣本的概率最大的那個(gè)值。

該估計(jì)是最大可能性估計(jì)，但不是無偏估計(jì)。

最大似然估計(jì)屬于點(diǎn)估計(jì)，只能得到待估計(jì)參數(shù)的一個(gè)值。(1) 但是在有的時(shí)候我們不僅僅希望知道，我們還希望知道取其它值得概率，即我們希望知道整個(gè)在獲得觀察數(shù)據(jù)后的分布情況. (2) 最大似然估計(jì)僅僅根據(jù)（有限的）觀察數(shù)據(jù)對總體分布進(jìn)行估計(jì)，在數(shù)據(jù)量不大的情況下，可能不準(zhǔn)確。例如我們要估計(jì)人的平均體重，但是抽樣的人都是小孩，這樣我們得到的平均體重就不能反映總體的分布，而我們應(yīng)該把“小孩之占總?cè)丝?0%”的先驗(yàn)考慮進(jìn)去。這時(shí)我們可以用貝葉斯方法。

貝葉斯估計(jì) Bayes

使用Bayes公式，我們可以把我們關(guān)于的先驗(yàn)知識以及在觀察數(shù)據(jù)結(jié)合起來，用以確定的后驗(yàn)概率：

其中是累積因子，以保證和為1。要使用Bayes方法，我們需有關(guān)于的先驗(yàn)知識，即不同取值的概率。比如表示下雨，表示不下雨，根據(jù)以往的經(jīng)驗(yàn)我們大體上有、，在這種知識不足的時(shí)候，可以假設(shè)是均勻分布的，即取各值的概率相等。

在某個(gè)確定的取值下，事件x的概率就是，這是關(guān)于的函數(shù)，比如一元正態(tài)分布。與上一節(jié)中的一樣，我們認(rèn)為各次取樣是獨(dú)立的，可以分開來寫，這樣我們就可以得到的一個(gè)表達(dá)式，不同的對應(yīng)不同的值。

根據(jù)獲得的，我們邊可以取使其最大化的那個(gè)取值，記為。可能有人已經(jīng)看出問題來了：我們做了很多額外功，為了求得一個(gè)，我們把取其它值的情況也考慮了。當(dāng)然在有的時(shí)候分布是有用的，但是有的時(shí)候我們?nèi)〔⒉恍枰?，我們只要那個(gè)。最大后驗(yàn)估計(jì)這個(gè)時(shí)候就上場了。

備注：貝葉斯估計(jì)則把待估計(jì)的參數(shù)看成是符合某種先驗(yàn)概率分布的隨機(jī)變量。對樣本進(jìn)行觀測的過程，就是把先驗(yàn)概率密度轉(zhuǎn)化為后驗(yàn)概率密度，這樣就利用樣本的信息修正了對參數(shù)的初始估計(jì)值。在貝葉斯估計(jì)中，一個(gè)典型的效果就是，每得到新的觀測樣本，都使得后驗(yàn)概率密度函數(shù)變得更加尖銳，使其在待估參數(shù)的真實(shí)值附近形成最大的尖峰。

最大后驗(yàn)估計(jì) MAP

最大后驗(yàn)估計(jì)運(yùn)用了貝葉斯估計(jì)的思想，但是它并不去求解，而是直接獲得。從貝葉斯估計(jì)的公式可以看出， Z_D 是與無關(guān)的，要求得使最的的，等價(jià)于求解下面的式子：

與最大似然估計(jì)中一樣，我們通常最大化對應(yīng)的對數(shù)形式：

這樣，我們便無需去計(jì)算，也不需要求得具體的部分，便可以得到想要的。

和最大似然很相似，也是假定參數(shù)未知，但是為確定數(shù)值。只是優(yōu)化函數(shù)為后驗(yàn)概率形式，多了一個(gè)先驗(yàn)概率項(xiàng)。

區(qū)別與總結(jié)：

區(qū)別：而貝葉斯估計(jì)和二者最大的不同在于，假定參數(shù)也是隨機(jī)變量，不是確定值。在樣本分布D上，計(jì)算參數(shù)所有可能的情況，并通過基于參數(shù)期望，計(jì)算類條件概率密度。

也就是說貝葉斯估計(jì)不是想極大似然估計(jì)那樣找到使觀測到的樣本的概率最大的那個(gè)參數(shù)值。而是找到所有可能的參數(shù)值及其相應(yīng)的可信值（暫且怎么稱呼吧）。這樣你就可以知道不同參數(shù)值的可信程度。例如：①有三個(gè)分別為0.8,0.05,0.05; 則決然的選最大的0.8。例如②三個(gè)參數(shù)值的可信值為0.4,0.39， 0.39；則選第一個(gè)參數(shù)值就要慎重了。

但是，當(dāng)參數(shù)分布為尖峰（如例①），且該參數(shù)對應(yīng)樣本分布比較平坦時(shí)，極大似然近似于貝葉斯。

總結(jié)：

三種方法各有千秋，使用于不同的場合。當(dāng)對先驗(yàn)概率的估計(jì)沒有信心，可以使用最大似然估計(jì)（當(dāng)然也可以使用其它兩種）。貝葉斯估計(jì)得到了后驗(yàn)概率的分布，最大似然估計(jì)適用于只需要知道使后驗(yàn)概率最大的那個(gè)。總體上，極大似然計(jì)算簡單，而貝葉斯在某些特殊情況下，效果好于極大似然。

另外一方面，我們可以感覺到，最大似然估計(jì)和Bayes/MAP有很大的不同，原因在于后兩種估計(jì)方法利用了先驗(yàn)知識，如果利用恰當(dāng)，可以得到更好的結(jié)果。其實(shí)這也是兩大派別（Frequentists and Bayesians)的一個(gè)區(qū)別。

最后附上一張參數(shù)估計(jì)與非參數(shù)估計(jì)的對比圖：

參考文獻(xiàn)：

http://guangchun./2011/10/13/ml-bayes-map/

圖片版：

因?yàn)樵撍赖腷log居然不支持latex公式編輯，導(dǎo)致公式顯示不出來，下面是圖片版

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黑塵子 > 《數(shù)學(xué)》

舉報(bào)/認(rèn)領(lǐng)