引言 即使讀過(guò)一些機(jī)器學(xué)習(xí)相關(guān)的書(shū),你也未必聽(tīng)說(shuō)過(guò)高斯過(guò)程。當(dāng)然了,若是聽(tīng)說(shuō)過(guò)也無(wú)妨,復(fù)習(xí)一下基礎(chǔ)知識(shí)也能幫你喚醒記憶。本文旨在向讀者介紹高斯過(guò)程,并且把它背后的數(shù)學(xué)原理講得更加直觀易懂。 高斯過(guò)程是機(jī)器學(xué)習(xí)工具箱里一種相當(dāng)有用的工具 [1]。它讓我們得以結(jié)合先驗(yàn)知識(shí),對(duì)數(shù)據(jù)做出預(yù)測(cè)。它最直觀的應(yīng)用領(lǐng)域是回歸問(wèn)題,比如在機(jī)器人學(xué)里會(huì)用到。同時(shí),也可以把它拓展到分類和聚類任務(wù)里。我們先小小復(fù)習(xí)一下:回歸的目的是為了找到一個(gè)函數(shù)來(lái)盡可能貼近地描述一組給定的數(shù)據(jù)點(diǎn)。這個(gè)過(guò)程叫做用函數(shù)擬合數(shù)據(jù)。對(duì)于一組既定的訓(xùn)練數(shù)據(jù)點(diǎn),或許潛在有無(wú)限多個(gè)函數(shù)可以用來(lái)做擬合。高斯過(guò)程則為此提供了一個(gè)優(yōu)雅的解決方案——給每個(gè)這類函數(shù)分配一個(gè)概率值 [1]。這個(gè)概率分布的均值便代表了這個(gè)數(shù)據(jù)最有可能的表征。而且,概率的方法使我們可以把對(duì)預(yù)測(cè)的置信度結(jié)合到回歸的結(jié)果里去。 首先,我們將探索高斯回歸的數(shù)學(xué)基礎(chǔ)。你可以通過(guò)文中的互動(dòng)圖,以及上手感受具體的例子來(lái)理解這些知識(shí)。它們有助于解釋每個(gè)組件的影響,并展示高斯過(guò)程的靈活性。希望你在閱讀本文之后,對(duì)高斯過(guò)程的工作原理以及如何把它適配給不同類型的數(shù)據(jù)能有一個(gè)直觀的理解。 多元高斯分布 在探索高斯分布之前,我們需要理解它們的數(shù)學(xué)基礎(chǔ)。從名字我們可以得知,高斯分布(也叫做正態(tài)分布)是高斯過(guò)程的基礎(chǔ)構(gòu)件。而我們最感興趣的是多元高斯分布,其每個(gè)隨機(jī)變量都呈正態(tài)分布,聯(lián)合分布也是高斯的。一般來(lái)說(shuō),多元高斯分布由均值向量 μ 和協(xié)方差矩陣 Σ 定義。 均值向量μ 描述了該分布的期望值,它的每個(gè)組件描述了對(duì)應(yīng)維度的均值。Σ 對(duì)每個(gè)維度的方差進(jìn)行建模,并確定不同隨機(jī)變量之間的關(guān)聯(lián)。協(xié)方差矩陣總是對(duì)稱且半正定的(positive semi-definite)[4]。Σ 的對(duì)角線由第 i 個(gè)隨機(jī)變量的標(biāo)準(zhǔn)差σ_i 組成,而非對(duì)角線的元素則描述了每個(gè)元素σ_ij 之間的相關(guān)性。 我們稱 X 符合正態(tài)分布。協(xié)方差矩陣Σ 描述了該分布的形狀,它由期望值 E 所定義: 從圖形上來(lái)看,該分布以均值為中心,由協(xié)方差矩陣決定其形狀。下圖展示了這些參數(shù)對(duì)于一個(gè)二維高斯分布的影響。每個(gè)隨機(jī)變量的標(biāo)準(zhǔn)差在協(xié)方差矩陣的對(duì)角線上,而其它的值則顯示了它們之間的協(xié)方差。 這是一個(gè)互動(dòng)式的圖,通過(guò)拖動(dòng)圖中的三個(gè)點(diǎn),你可以調(diào)節(jié)每個(gè)維度上的方差,以及兩個(gè)隨機(jī)變量之間的關(guān)聯(lián)。紫色的部分指的是分布內(nèi)高概率的區(qū)域。 高斯分布被廣泛應(yīng)用于為真實(shí)世界建模,有時(shí)在原分布未知的情況下作為替代品,有時(shí)用于中心極限定理。接下來(lái)我們會(huì)進(jìn)一步講解如何操縱高斯分布,以及如何從中獲得有用的信息。 邊緣化和條件作用 高斯分布有一個(gè)很贊的代數(shù)性質(zhì):它在條件作用和邊緣化情況下是封閉的。意思是,經(jīng)過(guò)這些運(yùn)算后,在結(jié)果中得到的分布依舊是高斯分布,這就使得很多統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的問(wèn)題變得易解。接下來(lái),我們將進(jìn)一步看看這兩個(gè)運(yùn)算,它們是高斯過(guò)程的基礎(chǔ)。 邊緣化和條件作用都作用于原始分布的子集,我們將使用以下符號(hào): 其中 X 和 Y 代表原始隨機(jī)變量的子集。 通過(guò)邊緣化,我們可以獲取多元概率分布的一部分信息。給定隨機(jī)變量 X 和 Y 組成的向量的正態(tài)概率分布 P(X,Y),我們可以用以下方法確定他們的邊緣概率分布: 這個(gè)公式所表達(dá)的意思很直接了當(dāng):X 和 Y 這兩個(gè)子集各自只依賴于它們 μ 和 Σ 中對(duì)應(yīng)的值。因此,要從高斯分布中邊緣化一個(gè)隨機(jī)變量,我們只需把μ 和Σ 里那些對(duì)應(yīng)的變量丟掉就行。 這個(gè)公式的意思是,如果我們只對(duì) X=x 的概率感興趣,我們要考慮 Y 所有可能的值,它們齊心協(xié)力才能得到最終的結(jié)果。 高斯過(guò)程的另一個(gè)重要運(yùn)算是條件作用,它可以用于得到一個(gè)變量在另一個(gè)變量條件下的概率分布。和邊緣化類似,這個(gè)運(yùn)算也是封閉的,會(huì)得到一個(gè)不同的高斯分布。條件運(yùn)算是高斯過(guò)程的基石,它使貝葉斯推斷成為可能。條件作用如下定義: 要注意的是,新的均值只依賴于作為條件的變量,而協(xié)方差矩陣則和這個(gè)變量無(wú)關(guān)。 了解了必要的公式以后,我們要思考的是:如何從視覺(jué)層面理解這兩個(gè)運(yùn)算。雖然邊緣化和條件作用可以用于多維的多元分布,還是用下圖中的二維分布作為例子更加好理解。邊緣化可以理解為在高斯分布的一個(gè)維度上做累加,這也符合邊緣分布的一般定義。條件作用也有個(gè)很好的幾何表達(dá)——我們可以把它想象成在多元分布上切下一刀,從而獲得一個(gè)維數(shù)更少的高斯分布。 中間是一個(gè)二元正態(tài)分布。圖左是該分布關(guān)于 Y 做邊緣化的結(jié)果,類似于沿著 Y 軸做累加。圖右是以給定的 X 為條件的分布,類似于在原始分布上切下一刀。你可以通過(guò)拖動(dòng)圖中的點(diǎn)來(lái)修改這個(gè)高斯分布和作為條件的變量。 高斯過(guò)程 復(fù)習(xí)好了多元高斯分布的基礎(chǔ)屬性,我們接著就可以把它們組裝到一起,來(lái)定義高斯過(guò)程,并展示怎么用高斯過(guò)程來(lái)解決回歸問(wèn)題。 首先,我們把視角從連續(xù)函數(shù)轉(zhuǎn)移到函數(shù)的離散表達(dá):相比于找一個(gè)隱函數(shù)而言,我們對(duì)預(yù)測(cè)具體點(diǎn)的函數(shù)值更感興趣,這些點(diǎn)叫做測(cè)試點(diǎn) X。對(duì)應(yīng)地,我們把訓(xùn)練數(shù)據(jù)稱為 Y。那么,高斯過(guò)程背后的關(guān)鍵點(diǎn)在于所有的函數(shù)值都來(lái)源于多元高斯分布。這意味著聯(lián)合概率分布 P(X,Y) 跨越了我們想要預(yù)測(cè)的函數(shù)的可能取值空間。這個(gè)測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的聯(lián)合分布有∣X∣+∣Y∣維。 為了在訓(xùn)練數(shù)據(jù)上進(jìn)行回歸,我們會(huì)用貝葉斯推斷來(lái)處理這個(gè)問(wèn)題。貝葉斯推斷的核心思想就是:在獲得新的信息以后,更新當(dāng)前的假設(shè)。對(duì)于高斯過(guò)程來(lái)說(shuō),這個(gè)信息指的就是訓(xùn)練數(shù)據(jù)。因此,我們感興趣的是條件概率 P(X|Y)。最后,還記得高斯分布在條件作用下是封閉的嗎?所以 P(X|Y) 也是正態(tài)分布的。 好了,我們已經(jīng)集齊了高斯過(guò)程的基本框架,只差一個(gè)東西:我們?cè)趺床拍芙⑵疬@個(gè)分布,定義均值μ 和協(xié)方差矩陣Σ?方法是:使用核函數(shù) k,具體細(xì)節(jié)將在下一節(jié)具體討論。但在這之前,我們先回憶一下怎么用多元高斯分布來(lái)估算函數(shù)值。下圖中的例子包含十個(gè)測(cè)試點(diǎn),我們將在十個(gè)點(diǎn)上預(yù)測(cè)函數(shù)。 這也是一個(gè)互動(dòng)式的圖 在高斯過(guò)程中,我們把每個(gè)測(cè)試點(diǎn)作為一個(gè)隨機(jī)變量,多元高斯分布的維數(shù)和隨機(jī)變量的數(shù)目一致。由于我們想要預(yù)測(cè)函數(shù)在∣X∣=N 個(gè)測(cè)試點(diǎn)上的取值,對(duì)應(yīng)的多元高斯分布也是 N 維的。用高斯過(guò)程做預(yù)測(cè)最終可以歸結(jié)為在這個(gè)分布上做采樣。這樣,我們就可以把結(jié)果向量上的第 i 個(gè)成員作為第 i 個(gè)測(cè)試點(diǎn)的對(duì)應(yīng)函數(shù)值。 核函數(shù) 讓我們回想一下,為了建立起我們要的分布,首先要定義 μ 和 Σ。在高斯過(guò)程中,我們往往假設(shè) μ =0,這樣可以簡(jiǎn)化條件作用所需要的公式。這樣做假設(shè)總是沒(méi)錯(cuò)的,就算 μ≠0,我們也可以在預(yù)測(cè)結(jié)束后把μ 加回到結(jié)果函數(shù)值中。所以配置μ 非常簡(jiǎn)單,更有意思的是這個(gè)分布的另一個(gè)參數(shù)。 高斯過(guò)程中巧妙的一步是如何設(shè)置協(xié)方差矩陣Σ。協(xié)方差矩陣不僅僅描述了這個(gè)分布的形狀,也最終決定了我們想要預(yù)測(cè)的函數(shù)所具有的特性。我們通過(guò)求核函數(shù) k 的值來(lái)生成協(xié)方差矩陣,這個(gè)核函數(shù)通常也被稱為協(xié)方差函數(shù),作用在兩兩成對(duì)的所有測(cè)試點(diǎn)上。核函數(shù)接收到的輸入是兩個(gè)點(diǎn), 我們將測(cè)試點(diǎn)兩兩配對(duì),在這個(gè)函數(shù)上求值以獲取協(xié)方差矩陣,這個(gè)步驟在下圖中也有所顯示。為了對(duì)核函數(shù)的作用有一個(gè)更直觀的理解,我們可以想一想?yún)f(xié)方差矩陣中元素描述的是什么。Σ_ij 描述的是第 i 個(gè)點(diǎn)和第 j 個(gè)點(diǎn)之間的相互影響,這和多元高斯分布的定義一致。在多元高斯分布的定義中,Σ_ij 定義了第 i 個(gè)隨機(jī)變量和第 j 個(gè)隨機(jī)變量之間的相關(guān)性。由于核函數(shù)描述的是函數(shù)值之間的相似度,它便控制了這個(gè)擬合函數(shù)可能擁有的形狀。注意,當(dāng)我們選擇一個(gè)核函數(shù)時(shí),我們要確保它生成的矩陣遵循協(xié)方差矩陣的屬性。 核函數(shù)被廣泛應(yīng)用于機(jī)器學(xué)習(xí),比方說(shuō)支持向量機(jī)。它之所以這么受歡迎,是因?yàn)樗屛覀兊靡栽跇?biāo)準(zhǔn)的歐幾里得距離(L2 距離)之外衡量相似度。很多核函數(shù)會(huì)把輸入點(diǎn)嵌到更高維的空間里去測(cè)量相似度。下圖介紹了高斯過(guò)程的一些常見(jiàn)核函數(shù)。對(duì)于每個(gè)核函數(shù),我們用 N=25 個(gè)呈線性、范圍在 [-5,5] 的點(diǎn)生成協(xié)方差矩陣。矩陣中的元素顯示出點(diǎn)和點(diǎn)之間的協(xié)方差,取值在 [0,1] 之間。 上圖展示了高斯過(guò)程可以使用的各種核函數(shù)。每個(gè)核函數(shù)的參數(shù)不同,你可以拖動(dòng)滑塊改變這些參數(shù)的值。當(dāng)你點(diǎn)擊某個(gè)滑塊時(shí),可以看到圖右側(cè)中當(dāng)前參數(shù)是如何影響核函數(shù)的。 核函數(shù)可分為平穩(wěn)和非平穩(wěn)的類型。平穩(wěn)核函數(shù),例如徑向基函數(shù)核(RBF)或者周期核,都具有平移不變性,兩點(diǎn)之間的協(xié)方差只取決于它們之間的相對(duì)位置。非平穩(wěn)核函數(shù),比如線性核,就沒(méi)有這個(gè)限制且取決于絕對(duì)位置。徑向基函數(shù)核的平穩(wěn)特性可以從其協(xié)方差矩陣的對(duì)角線帶來(lái)觀察(如下圖)。增加長(zhǎng)度參數(shù)會(huì)使得這個(gè)帶狀區(qū)域變得更寬,因?yàn)榫嚯x較遠(yuǎn)的點(diǎn)彼此之間的相關(guān)性增加了。對(duì)于周期核,我們還有個(gè)參數(shù) P 來(lái)決定周期,從而控制了函數(shù)每次重復(fù)之間的距離。相比之下,線性核的參數(shù) C 讓我們得以改變各個(gè)函數(shù)交匯的點(diǎn)。 還有很多其它的核函數(shù)可以描述不同類別的函數(shù),它們使函數(shù)擁有我們所希望的形狀。Duvenaud 的《Automatic model construction with Gaussian processes》對(duì)不同核函數(shù)進(jìn)行了概覽,值得一觀。我們還可以把幾個(gè)核函數(shù)結(jié)合起來(lái)用,不過(guò)這個(gè)以后再講。 先驗(yàn)分布 回到我們?cè)瓉?lái)的回歸任務(wù),正如我們之前提到過(guò)的,高斯過(guò)程定義了潛在函數(shù)的概率分布。由于這是一個(gè)多元高斯分布,這些函數(shù)也呈正態(tài)分布。我們通常假設(shè)μ= 0,姑且先考慮還沒(méi)有觀察到任何訓(xùn)練數(shù)據(jù)的情況。在貝葉斯推斷的框架下,我們稱之為先驗(yàn)分布 P(X)。 如果還沒(méi)觀察到任何訓(xùn)練樣本,該分布會(huì)如我們剛開(kāi)始所假設(shè)的,圍繞 μ=0 展開(kāi)。先驗(yàn)分布的維數(shù)和測(cè)試點(diǎn)的數(shù)目 N=∣X∣一致。我們將用核函數(shù)來(lái)建立協(xié)方差矩陣,維數(shù)為 N×N。 我們?cè)谏弦徽驴催^(guò)不同核函數(shù)的例子,由于核函數(shù)被用于定義協(xié)方差矩陣的內(nèi)容,它也就決定了在這個(gè)包含所有可能的函數(shù)的空間里,哪些類型的函數(shù)可能性更大。先驗(yàn)分布還不包含任何額外的信息,這就給了我們一個(gè)絕佳的機(jī)會(huì)來(lái)呈現(xiàn)核函數(shù)對(duì)于函數(shù)分布的影響。下圖顯示了用不同核函數(shù)產(chǎn)生的先驗(yàn)分布可以獲取到的潛在函數(shù)的一些樣本。 點(diǎn)擊圖片可以得到一系列在高斯過(guò)程中使用指定核函數(shù)時(shí)的連續(xù)采樣。在每次采樣過(guò)后,之前的樣本會(huì)在背景里被淡化。一段時(shí)間后,大概可以看到這些函數(shù)圍繞均值 μ呈正態(tài)分布。 通過(guò)調(diào)節(jié)參數(shù),你可以控制所獲得的函數(shù)的形狀,這同時(shí)也會(huì)改變預(yù)測(cè)的置信度。方差σ 是一個(gè)所有核函數(shù)都常見(jiàn)的參數(shù),如果減小它,采樣到的函數(shù)就會(huì)更加緊密地圍繞在均值μ 周圍。對(duì)于線性核而言,設(shè)置 σb = 0,我們會(huì)得到一組精確地交匯在點(diǎn) c 的函數(shù),而設(shè)置σ_b = 0.2,則會(huì)引入一些不確定性,采樣到的各個(gè)函數(shù)會(huì)大致經(jīng)過(guò)點(diǎn) c 附近。 后驗(yàn)分布 那么如果我們觀察到了訓(xùn)練數(shù)據(jù),會(huì)發(fā)生什么呢?我們來(lái)回顧一下貝葉斯推斷的模型,它告訴我們可以把這個(gè)額外的信息結(jié)合到模型里去,從而得到后驗(yàn)分布 P(X|Y)。我們來(lái)進(jìn)一步看看在高斯過(guò)程里怎么用上它。 首先,我們得到測(cè)試點(diǎn) X 和訓(xùn)練點(diǎn) Y 之間的聯(lián)合分布 P(X,Y),這是一個(gè)維數(shù)為∣Y∣+∣X∣的多元高斯分布。下圖中可以看到,我們把訓(xùn)練點(diǎn)和測(cè)試點(diǎn)拼接到一起,計(jì)算對(duì)應(yīng)的協(xié)方差矩陣。 接下來(lái)我們要在高斯分布上做一個(gè)之前定義過(guò)的運(yùn)算:通過(guò)條件作用從 P(X,Y) 得到 P(X|Y)。這個(gè)新分布的維數(shù)和測(cè)試點(diǎn)的數(shù)目 N 一致,呈正態(tài)分布。要重點(diǎn)注意的是,條件作用以后均值和標(biāo)準(zhǔn)差會(huì)相應(yīng)發(fā)生變化:X∣Y~N(μ′,Σ′),具體的細(xì)節(jié)可以在講邊緣化和條件作用的章節(jié)找到。直觀上講,就是訓(xùn)練點(diǎn)為候選的函數(shù)設(shè)了一個(gè)限定范圍:要經(jīng)過(guò)訓(xùn)練點(diǎn)。 增加訓(xùn)練點(diǎn) (■) 會(huì)改變多元高斯分布的維數(shù);通過(guò)兩兩配對(duì)核函數(shù)的值生成協(xié)方差矩陣,結(jié)果是一個(gè)十二維的分布;在條件作用下,我們會(huì)得到一個(gè)分布,這個(gè)分布可以描述我們對(duì)于給定 x 值所預(yù)測(cè)的函數(shù)值。 和先驗(yàn)分布類似,我們可以通過(guò)對(duì)該分布采樣獲得一個(gè)預(yù)測(cè)結(jié)果。然而,由于采樣包含隨機(jī)性,我們無(wú)法保證結(jié)果能很好地?cái)M合數(shù)據(jù)。為了優(yōu)化預(yù)測(cè)結(jié)果,我們可以用到高斯分布的另一個(gè)基礎(chǔ)運(yùn)算。 通過(guò)對(duì)每個(gè)隨機(jī)變量做邊緣化操作,我們可以為第 i 個(gè)測(cè)試點(diǎn)提取到對(duì)應(yīng)的均值函數(shù)的值μ'i,以及標(biāo)準(zhǔn)差σ'i=Σ'ii。和先驗(yàn)分布不同的是,我們做先驗(yàn)分布時(shí)會(huì)設(shè)μ= 0,在那個(gè)情況下均值并不太重要。而當(dāng)我們把條件作用施加在測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的聯(lián)合分布上時(shí),得到的分布往往會(huì)有個(gè)非零的均值,μ′≠ 0。提取μ′ 和 σ′ 不僅會(huì)使預(yù)測(cè)更有意義,還表示出了預(yù)測(cè)值的置信度。 下圖(原圖為互動(dòng)圖)展示了一個(gè)條件分布的例子。剛開(kāi)始的時(shí)候,沒(méi)有觀察到任何訓(xùn)練點(diǎn),所以預(yù)測(cè)的均值保持在 0,標(biāo)準(zhǔn)差對(duì)每個(gè)測(cè)試點(diǎn)來(lái)說(shuō)都是一樣的。把光標(biāo)懸停在協(xié)方差矩陣上,你可以看到每個(gè)點(diǎn)對(duì)當(dāng)前測(cè)試點(diǎn)的影響。只要還沒(méi)觀察到任何訓(xùn)練點(diǎn),只有相鄰的點(diǎn)對(duì)彼此有影響。 通過(guò)點(diǎn)擊可以激活訓(xùn)練點(diǎn),從而得到一個(gè)受到約束的分布。這個(gè)變化體現(xiàn)在協(xié)方差矩陣的內(nèi)容里,并且會(huì)改變預(yù)測(cè)到的函數(shù)具有的均值和標(biāo)準(zhǔn)差。正如我們所料,在靠近訓(xùn)練數(shù)據(jù)的區(qū)域,預(yù)測(cè)的不確定性很小,離得越遠(yuǎn),不確定性越大。 沒(méi)激活任何訓(xùn)練數(shù)據(jù)的時(shí)候,圖中顯示的是一個(gè)高斯過(guò)程的先驗(yàn)分布,它使用的是徑向基函數(shù)核。光標(biāo)懸停在協(xié)方差矩陣上時(shí),漸變色上的不透明度顯示了一個(gè)函數(shù)值對(duì)它的相鄰點(diǎn)的影響。當(dāng)我們觀察到訓(xùn)練數(shù)據(jù)的時(shí)候,這個(gè)分布會(huì)發(fā)生變化??梢酝ㄟ^(guò)點(diǎn)擊單個(gè)點(diǎn)激活它們。然后,高斯過(guò)程被約束,傾向于給那些與這些點(diǎn)相交的函數(shù)更高的概率。對(duì)訓(xùn)練數(shù)據(jù)的最佳闡釋就蘊(yùn)含在更新過(guò)的均值函數(shù)里。 在受到約束的協(xié)方差矩陣中,我們可以看到相鄰點(diǎn)之間的相關(guān)性會(huì)被訓(xùn)練數(shù)據(jù)所影響。如果預(yù)測(cè)的點(diǎn)在訓(xùn)練數(shù)據(jù)上,它和其他點(diǎn)就不存在相關(guān)性,所以,這個(gè)函數(shù)必須直接經(jīng)過(guò)它。更遠(yuǎn)的預(yù)測(cè)值也會(huì)受到訓(xùn)練數(shù)據(jù)的影響,程度和它的距離相關(guān)。 結(jié)合不同的核函數(shù) 正如我們之前介紹的,高斯過(guò)程的強(qiáng)大在于它所選的核函數(shù)。這一點(diǎn)使得專家可以把某個(gè)領(lǐng)域的知識(shí)引入到這個(gè)過(guò)程中,使得高斯過(guò)程足夠靈活,足以捕捉訓(xùn)練數(shù)據(jù)中的趨勢(shì)。比如,一個(gè)專家可以通過(guò)為徑向基函數(shù)核選取一個(gè)合適的帶寬,來(lái)控制結(jié)果中的函數(shù)的平滑度。 核函數(shù)的一大優(yōu)勢(shì)是,它們可以被結(jié)合起來(lái),形成一個(gè)更加專精的核函數(shù)。這使得某個(gè)領(lǐng)域的專家可以加入更多的信息,使預(yù)測(cè)更加精確。通常我們結(jié)合不同核函數(shù)的方法是把它們相乘。我們可以考慮一下兩個(gè)核函數(shù)的情況,比如說(shuō)一個(gè)徑向基函數(shù)核 k_rbf 和一個(gè)周期核 k_per。我們是這樣把它們結(jié)合起來(lái)的: 在下圖(原圖為互動(dòng)圖)中,原始的訓(xùn)練數(shù)據(jù)呈上升趨勢(shì)并有周期性偏離。如果只用一個(gè)線性核,可能會(huì)得到這些點(diǎn)的一個(gè)普通線性回歸。乍一看,徑向基函數(shù)核可以準(zhǔn)確地逼近這些點(diǎn)。但由于徑向基函數(shù)核是平穩(wěn)的,在遠(yuǎn)離觀察到的訓(xùn)練數(shù)據(jù)的地方,它總是會(huì)回到均值μ= 0。這就使得預(yù)測(cè)特別早或者特別晚的時(shí)間點(diǎn)時(shí),結(jié)果不太準(zhǔn)確。只有通過(guò)結(jié)合幾個(gè)核函數(shù),才能同時(shí)保持?jǐn)?shù)據(jù)的周期特性和均值非零的趨勢(shì)。比如,這個(gè)方法可以用于分析天氣數(shù)據(jù)。 通過(guò)點(diǎn)擊復(fù)選框,我們可以把不同的核函數(shù)結(jié)合成一個(gè)新的高斯過(guò)程。只有結(jié)合了多個(gè)核函數(shù),我們才可能捕捉到更復(fù)雜的訓(xùn)練數(shù)據(jù)的特性。 結(jié)論 讀過(guò)本文以后,你應(yīng)該對(duì)高斯過(guò)程有了一個(gè)整體的印象,更加了解它們是如何運(yùn)作的。正如我們所見(jiàn),高斯過(guò)程為回歸問(wèn)題提供了一個(gè)靈活的框架,并且擁有一些拓展功能使它更加通用。如果要處理真實(shí)世界的數(shù)據(jù),我們經(jīng)常會(huì)發(fā)現(xiàn)測(cè)量值受到不確定性和誤差的影響。利用高斯過(guò)程可以定義一個(gè)核函數(shù)來(lái)擬合我們的數(shù)據(jù),并為預(yù)測(cè)結(jié)果增加不確定性。比如,McHutchon 等人 [7] 對(duì)高斯過(guò)程進(jìn)行了一個(gè)特殊的拓展,使其可以兼容包含噪音的輸入。 雖然我們大都在回歸問(wèn)題的語(yǔ)境下討論高斯過(guò)程,它也可以用在其它的任務(wù)上,比如模型剝離和假設(shè)檢驗(yàn)。通過(guò)比較不同核函數(shù)在數(shù)據(jù)集上的效果,某個(gè)領(lǐng)域的專家可以借由恰當(dāng)?shù)亟Y(jié)合核函數(shù)或是為其選擇參數(shù),來(lái)嵌入額外的知識(shí)。由于在很多情況下我們無(wú)法擁有這樣的專家,人們也在研究如何使用深度學(xué)習(xí) [8, 9] 從給定數(shù)據(jù)中學(xué)得專用的核函數(shù)。此外,也有多篇論文 [10, 11] 探討了貝葉斯推斷、高斯過(guò)程和深度學(xué)習(xí)之間的聯(lián)系。 原文地址:https://www./visual-exploration-gaussian-processes/ 本文為機(jī)器之心編譯,轉(zhuǎn)載請(qǐng)聯(lián)系公眾號(hào)獲得授權(quán)。 ?------------------------------------------------ 加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com 投稿或?qū)で髨?bào)道:content@jiqizhixin.com 廣告 & 商務(wù)合作:bd@jiqizhixin.com |
|
來(lái)自: taotao_2016 > 《計(jì)算機(jī)》