指數(shù)分布高斯分布、二項分布、多項分布、泊松分布、伽瑪分布和貝塔分布都屬于指數(shù)分布。它的一般形式是 A(η)是累積量函數(shù)。 其指數(shù)e?是歸一化因子,A(η)也稱為對數(shù)配分函數(shù)。η是自然參數(shù)。T(x)被稱為充分統(tǒng)計量。在許多特定的分布中,如伯努利分布,它等于x。 考慮以下伯努利分布,其取值為1的概率為α,值為0的概率為1- α。我們可以用指數(shù)形式重寫伯努利分布。 然后 h,T和A的選固定擇將定義一個特定的指數(shù)分布,如伯努利分布。如果我們轉(zhuǎn)換η,它將成為恢復(fù)伯努利分布的模型參數(shù)α的邏輯函數(shù)。 因此,它可以用自然參數(shù)η表示為指數(shù),而不是用參數(shù)α來建模伯努利分布。 對于二項式和泊松分布 到目前為止,我們的分布只需要一個參數(shù)來建模。對于由多個參數(shù)建模的分布,η將包含值向量。 許多概率模型中的概率密度,如在圖模型中由馬爾可夫隨機(jī)場MRF建模的概率密度,可以表示為指數(shù)。 因此,指數(shù)族分布成為建模概率模型的自然選擇。 讓我們來看看A(η)的導(dǎo)數(shù) 它的一階導(dǎo)數(shù)是充分統(tǒng)計量T(x)的期望。對于T(x)=x,這個導(dǎo)數(shù)等于分布的均值。 在泊松分布中,用傳統(tǒng)的積分定義計算E[x](均值)并不容易。將T(x)定義為泊松分布中的x,A '(η)等于E [ x ]。一般來說,微分比積分簡單,我們利用它來解期望。 二階導(dǎo)數(shù)A '(η)等于方差。 A的導(dǎo)數(shù)實際上幫助我們定義了分布。 矩匹配矩定量地描述了函數(shù)的形狀。定義為 這一矩被稱為關(guān)于零的矩。但是如果我們先用平均值減去x,它將被稱為中心矩。 k階矩等于a(η)的k階導(dǎo)數(shù)。 A(η)是凸函數(shù)(其二階導(dǎo)數(shù)大于0)。由于A'(η)= μ,η具有與μ(力矩參數(shù))的一對一映射。 根據(jù)充分統(tǒng)計量t(x)的定義,導(dǎo)數(shù)A'(η),A''(η),...... A?(η)具有特殊的意義,可以通過采樣數(shù)據(jù)進(jìn)行估計。因此,我們在樣本數(shù)據(jù)、分布矩和分布參數(shù)之間創(chuàng)建一個鏈接。在機(jī)器學(xué)習(xí)中,我們要用q*來模擬種群密度p。在矩匹配中,我們從樣本數(shù)據(jù)中計算矩,以使它們的充分統(tǒng)計量的期望值相匹配。 假設(shè)繪制的所有數(shù)據(jù)都是iid,最大似然估計將是: 可以通過從樣本數(shù)據(jù)中找出充分統(tǒng)計量的平均值來計算μ。這稱為矩匹配。估計后,我們可以找到分布的參數(shù)。 考慮一個簡單的zero-centered分布f 讓我們看看如何通過采樣計算分布參數(shù)σ。矩計算如下: 這些矩是鐘形分布的均值和方差。我們可以通過采樣來估計二階矩。 通過將理論矩和樣本矩聯(lián)系起來,得到了對σ(sampled σ)的估計。 在上面的例子中,通過積分求E (x)和E (x2)很容易。一般來說。對于許多其他指數(shù)分布來說,這并不容易,比如gamma分布。 自然參數(shù)及其逆定義為: 充分統(tǒng)計為(log x,x),a(η)為 使用A(η)的導(dǎo)數(shù),我們找到了充分統(tǒng)計的期望 然后利用樣本數(shù)據(jù)計算充分統(tǒng)計量的平均值,對上述參數(shù)α和β進(jìn)行反求。 貝葉斯推斷頻率推斷從事件的頻率得出結(jié)論。如果我們兩次擲硬幣兩次正面(head),p(head)等于100%嗎?然而,由于樣本量太小,頻率推斷不太可能發(fā)布這樣的結(jié)果。 貝葉斯推斷利用貝葉斯定理從似然和先驗信念中導(dǎo)出后驗分布。當(dāng)有新的觀測結(jié)果時,我們將后驗轉(zhuǎn)換為先驗,并根據(jù)新的證據(jù)計算新的后驗。由于后驗是一個確定性分布而不是一個點估計,我們可以繼續(xù)將其與新的證據(jù)相結(jié)合,形成一個新的belief。簡言之,我們從某個p(h)開始,并在新的證據(jù)下繼續(xù)更新后驗。 例如,可以通過結(jié)合汽車如何移動的動態(tài)模型和GPS之前的測量數(shù)據(jù)來開始對汽車位置的預(yù)先判斷。或者我們甚至可以完全從直覺或經(jīng)驗開始一個先驗。給定當(dāng)前傳感器讀數(shù),我們形成了給定不同位置假設(shè)的當(dāng)前傳感器讀數(shù)的可能性。利用貝葉斯推理,我們可以得到給定傳感器讀數(shù)的當(dāng)前汽車位置的概率分布P(H|E)。 我們將后驗轉(zhuǎn)換為前驗,以便下一次迭代時進(jìn)行新的觀察。樣本量越小,似然曲線越寬,峰值越低。我們還沒有畫出足夠的數(shù)據(jù)來排除許多可能性。因此,如果后驗是強(qiáng)的(窄的和尖的),后驗將與前驗相似。當(dāng)收集到的數(shù)據(jù)越多,似然值越尖,后驗分布越接近似然曲線。 Frequentist vs Bayesian Frequentist應(yīng)用最大似然估計來找到解釋觀察結(jié)果的最佳模型參數(shù)。貝葉斯聚焦在模型參數(shù)θ上,并使用貝葉斯定理計算模型參數(shù)的后驗。 貝葉斯推斷在給定觀察的情況下計算不同模型的概率。當(dāng)然,對于高維或大的連續(xù)空間,這可能非常復(fù)雜。進(jìn)一步簡化似然模型和先驗?zāi)P褪强尚械?。或者我們可以通過采樣或近似來解決這個問題。 根據(jù)樣本收集的方式,回答P(x|y)可能比回答P(y|x)更容易。有時,概率很容易在相反的方向上建模。例如,P(y | x, θ)和P(θ)通常用高斯分布或β分布建模。下面是貝葉斯線性回歸的一個例子。 我們忽略貝葉斯定理中的分母P(y | X),因為它不是θ的函數(shù)。對于P(y | x, θ)和P(θ),我們在貝葉斯線性回歸中用單獨的高斯模型對它們進(jìn)行建模。實際上,P(y |X)或P(X)通常很難計算,所以這是優(yōu)化后驗的一個很好的簡化。 在貝葉斯定理,我們有相對較大的自由選擇模型P(θ)。但并不是每個選擇都是相等的,這個選擇影響后驗分析計算的難易程度。如果相應(yīng)的后驗函數(shù)屬于前驗函數(shù)的同一類分布,則前驗函數(shù)是共軛前驗函數(shù)。由于后驗在下一次迭代中經(jīng)常被用作先驗,我們可以簡單地重復(fù)同樣的數(shù)學(xué)計算后驗。例如,如果似然和先驗都可以用高斯函數(shù)建模,那么后驗函數(shù)也是高斯函數(shù),易于計算。 如果模型θ可以使用共軛先驗對應(yīng)于特定似然分布來建模,我們通??梢匀菀椎睾头治龅亟鉀Q后驗。 Beta分布的貝葉斯推斷 對于二項分布,我們可以使用beta分布對其進(jìn)行建模。如果可能性是二項式或伯努利,我們將在beta分布之前選擇我們的共軛。這個選擇使得我們可以將后驗分布為β分布,并且可以容易地分析計算計算。 這是關(guān)于使用β分布來尋找后驗的框架,其中我們對p(data|θ)和p(θ)都使用β分布。后驗p(θ|data)將是β分布,所涉及的數(shù)學(xué)只是一些補(bǔ)充。 讓我們考慮一個人接觸病毒的感染率。如果我們沒有先驗知識,我們可以從均勻分布開始先驗(如下)。貝葉斯推理中的后驗與頻率論的結(jié)果相似,因為我們的belief較弱。 否則,我們可以從一些基于過去經(jīng)驗、知識甚至直覺的先驗知識開始。然而,如果我們的belief是錯的,我們需要收集更多的數(shù)據(jù)來逐漸重塑后驗曲線。 讓我們看看貝葉斯推理與頻率推斷的不同之處。在貝葉斯中,我們首先認(rèn)為流感感染率可以建模為B(2,6)。這將是我們下面的第一張圖。假設(shè)我們只有一個實驗室結(jié)果,并測試呈陽性。一個普通的頻率推斷者會說根據(jù)樣本感染率是100%。但我們知道這在科學(xué)上是不合理的。但是對于貝葉斯來說,隨著結(jié)果的逐漸出現(xiàn),我們?nèi)匀豢梢岳秘惾~斯推理得出某種結(jié)論。從某種角度來看,如果我們先驗是合理的,貝葉斯推理給我們一個合理的圖像。 Gamma分布作為共軛先驗 如果似然可以用高斯分布來建模,我們可以用伽馬分布作為共軛先驗。 似然p(x |θ)的高斯分布可以用以下形式表示 應(yīng)用貝葉斯定理,我們也可以以Gamma分布的形式推導(dǎo)出后驗。 Dirichlet - 多項式的共軛先驗 Dirichlet分布是多項式的共軛先驗。 后驗是: Dirichlet分布也是分類分布之前的共軛: 共軛先驗概述 以下是對應(yīng)于特定似然分布的一些其他共軛先驗。 預(yù)測與正則化 利用bayes定理,在給定觀測值的情況下,計算了θ模型的后驗概率。假設(shè)模型參數(shù)θ為zero-centered高斯分布,則先驗p(θ)在目標(biāo)函數(shù)中轉(zhuǎn)化為l2正則項。從概念上講,p(θ)可以看作是一個正則化因子。它可以懲罰成本函數(shù)。如下圖所示,如果我們事先知道θ是什么樣子的,我們可以對p(θ)應(yīng)用一個相當(dāng)復(fù)雜的模型。 為了進(jìn)行新的預(yù)測,我們在訓(xùn)練中使用后驗p(θ| X,y)作為p(θ)。然后我們通過積分θ得到邊際概率p(y 0 | x 0)。這是邊際推斷。我們通過將其他所有內(nèi)容相加來計算變量的概率。 導(dǎo)數(shù)雅可比矩陣和Hessian矩陣 這些矩陣分別是f的一階和二階導(dǎo)數(shù)。 這種表示法稱為分子布局。hessian矩陣是對稱的。具有hessian矩陣和向量v的二次方程的上界是 下面,我們使用分母布局。它是分子布局的轉(zhuǎn)置。 這是微分一個向量和一個矩陣的結(jié)果 矩陣分解圖形解釋 我們可以通過將x投影到x軸和y軸來表示二維向量x。因此數(shù)據(jù)點可以表示為(x?,y?)。我們可以選擇單位向量q并計算x對q的投影。投影向量為qq?x,其大小等于q?x。 在機(jī)器學(xué)習(xí)(ML)中,我們將特征從高維空間提取到低維潛在空間(比如k維)。概念上,我們把x投射到k個不同的向量q ?上。選擇q?是很重要的。如果做得正確,我們可以使用更少的成分來表示信息。例如,如果我們選擇下面的q 1和q 2,我們可以忽略q 2(藍(lán)點)。它們可能太小,我們可以忽略它們。但是,如果我們選擇x軸和y軸,則情況并非如此。 SVD將矩陣分解為獨立的成分。SVD中選取的所有q相互獨立(正交),即提取的特征不相關(guān)。從概念上講,SVD選擇第一個q,當(dāng)其余成分被刪除時,則最小化下面的最小平方誤差 XX?是對稱的。 最優(yōu)q(命名為q 1)將是XX?的特征向量,具有最大特征值λ或最大奇異值σ(λ=σ2) 然后我們基于相同的原理選擇下一個組件,條件是q彼此正交。因此,所選擇的q 2將具有第二大的特征值。我們可以繼續(xù)這個過程,直到我們用完特征向量。 奇異值分解(SVD) SVD在線性代數(shù)中的表現(xiàn)方式不同。任何矩陣A都可以分解為 其中U由u構(gòu)成- AA?和u?的本征向量彼此正交。類似地,v由A?A的特征向量v?組成,該特征向量也彼此正交。 從上面的等式,A也可以寫成 其中u?和v?是單位向量。因此,當(dāng)我們評估分解成分的重要性時,我們可以忽略那些具有非常小的σ?的項。 如果我們僅保留具有最大σ?的最頂部k項,我們有效地將A的維度減小為k,即,提取的特征僅在k維度上??紤]到每個主成分的重要性,我們有效地減少了輸入的維度。這就是PCA所做的。 主成分分析PCA 直觀地說,兩個輸入特征可能相互關(guān)聯(lián),因此您可以創(chuàng)建一個新特征來表示這兩個特征。對于主成分分析,我們希望找到k個獨立的特征來表示我們的數(shù)據(jù)。 PCA示例 在機(jī)器學(xué)習(xí)(ML)中,SVD將包含訓(xùn)練數(shù)據(jù)的矩陣分解為獨立的特征。例如,矩陣的行包含來自用戶的電影評級。列包含電影的用戶評分。 如果我們選擇AA?的前K個特征值,其相應(yīng)的特征向量等效于下面的前K個優(yōu)化q k向量: 回想一下,我們將x投影到這些主成分qk中。求出最上面K個優(yōu)化的qk,將x的維數(shù)降為K,就可以得到投影向量是x的第K個潛在因子。 我們可以連接q?形成矩陣Q。我們可以通過將Q?與用戶的電影分級相乘得出user? 的潛在特征。(q?是M ×1,其中M是電影的數(shù)量,Q是M × K) SVD發(fā)現(xiàn)用戶評級的模式(主成分)。我們可以想象一些主成分可能代表電影的類型或發(fā)行的年代。例如,z?中的第一個成分可以指示用戶是否喜歡喜劇。 概率PCA 在svd中,我們將x分解為USV?。而概率pca模型X≈WZ。我們將使用em算法來學(xué)習(xí)W和Z,其中Z可以作為X的潛在特征。與svd不同,W不需要是正交的。列不需要是單位長度或彼此垂直。 首先,我們假設(shè)潛變量z?是zero-centered高斯分布。利用W,我們可以通過WZ重建原始數(shù)據(jù)X,其中x也由高斯建模。 Z是EM算法中的潛在變量θ2,W是θ1。我們的目標(biāo)是 在E步驟中,我們計算q(z?)的高斯分布 在M步驟中,我們進(jìn)行優(yōu)化 算法是: Kernel PCA 從一個角度來看,PCA找到一組最大化q?XX?q的向量q 。由于XX?是對稱的,因此q將是具有最大特征值的XX?的特征向量。 因此,問題變?yōu)檎业骄哂凶畲筇卣髦档奶卣飨蛄俊?/p> 我們用核(Kernel)替換XX?以將輸入映射到更高維度。這允許我們創(chuàng)建線性邊界來對在低維空間中不可線性分離的數(shù)據(jù)進(jìn)行分類。相反,PCA通常被認(rèn)為是降維技術(shù)。所以這兩種技術(shù)似乎都朝著相反的方向發(fā)展。然而,有時候,我們需要在變小之前變大。進(jìn)入高維空間使我們能夠以更簡單明確的邊界對信息進(jìn)行聚類。一旦信息清晰地聚類,將更容易將其映射到較低維度的空間。這是PCA kernel背后的動機(jī)。讓我們從以下等式開始 經(jīng)過一些操作,我們得到 因此,假設(shè)矩陣K保持核結(jié)果,我們可以通過找到K的特征向量找到a?。讓我們用高斯函數(shù)定義核函數(shù)。x的相應(yīng)潛在因子可以計算為: 下面是我們?nèi)绾问褂肒ernel PCA 預(yù)測新輸入x 0 Cholesky分解 Hermitian正定矩陣A的Cholesky分解是 Hermitian矩陣是一個等于其轉(zhuǎn)置共軛的方陣。轉(zhuǎn)置共軛物取每個元素的復(fù)共軛,然后轉(zhuǎn)置矩陣。 協(xié)方差矩陣是對稱的(如果值都是real,則是Hermitian的特殊情況)和半正定。因此,Cholesky分解通常用于機(jī)器學(xué)習(xí)(ML),以便更容易和更穩(wěn)定地操作。 Moore-Penrose Pseudoinverse 對于線性方程組,我們可以計算方陣A的倒數(shù)來求解x。 但并非所有矩陣都是可逆的。在機(jī)器學(xué)習(xí)(ML)中,由于數(shù)據(jù)中存在噪聲,因此不太可能找到精確解。但x的解可以估算為 其中 統(tǒng)計顯著性空假設(shè)H 0表示兩個測量現(xiàn)象之間沒有關(guān)系,例如,財富和幸福之間沒有相關(guān)性。如果觀察到的數(shù)據(jù)具有統(tǒng)計顯著性,則拒絕零假設(shè)。例如,如果我們在100次拋硬幣中看到100個正面,我們可以“否定”硬幣是公平的假設(shè)。因此,備擇假設(shè) H 1(一種與H 0相矛盾的假設(shè))可能是真的(硬幣不均勻)。實際上,要量化兩個變量之間的關(guān)系比計算收集到的數(shù)據(jù)只是偶然發(fā)生的概率要難得多。因此,零假設(shè)是對兩種現(xiàn)象得出結(jié)論的較好方法。 p值(概率值)是零假設(shè)為真時觀測樣本的概率。一個小的p值(通常≤0.05或≤0.01)顯示出與原假設(shè)相反的有力證據(jù),即偶然發(fā)生的情況很少見。 例如,在收集100個數(shù)據(jù)點之后,我們可以基于數(shù)據(jù)計算相關(guān)系數(shù)。如上所示,如果我們收集的100個數(shù)據(jù)點的相關(guān)性為-0.25,則其對應(yīng)的PDF約為0.012。只有2.5%的群體可能具有小于-0.2的相關(guān)性。因此,零假設(shè)可能是錯誤的。 置信區(qū)間 在進(jìn)行實驗收集樣本后。我們可以使用樣本數(shù)據(jù)點來估計一個像平均值這樣的總體參數(shù)(稱為estimator)。置信區(qū)間可以計算為這個樣本均值周圍的范圍。95%置信水平意味著在95%的實驗中,其置信區(qū)間包含總體的真實均值。換句話說,一個實驗的置信區(qū)間不包含真實均值的概率是1 / 20。 這是計算樣本均值的置信區(qū)間的骨架 樣本方差: 卡方檢驗 卡方檢驗(Chi-square test)是一種常用的檢驗方法,用于測量觀察到的數(shù)據(jù)之間的相關(guān)性只是偶然的可能性,而不是兩個變量之間的某種相關(guān)性。 利用上述公式計算卡方統(tǒng)計量。我們比較樣本的實際計數(shù)和假設(shè)不存在相關(guān)性的期望計數(shù)。下面是一個決定性別是否影響寵物選擇的例子。 在這個例子中,如果性別不是一個因素,我們計算了擁有汽車的男性的實際數(shù)量減去預(yù)期數(shù)量之間的差額。我們平方它,除以期望的計數(shù)然后計算相應(yīng)的卡方值。在我們的表格中,我們有四種可能的組合(雄貓、雄狗、雌貓、雌狗)。因此,我們有四個自由度,我們需要把所有四個值加起來來計算卡方統(tǒng)計量。 對于雙邊檢驗,我們將給定的顯著性水平α除以2。例如,對于α=0.05,如果卡方統(tǒng)計量只有0.05/2=0.025的概率是偶然的,我們可以接受相關(guān)。由于卡方分布是不對稱的,我們通常會查表,看看對應(yīng)的特定概率值的卡方統(tǒng)計量是多少。 例如,當(dāng)自由度為4時,如果upper-tail表卡方統(tǒng)計量大于11.1,我們將接受相關(guān)性。當(dāng)然,我們也需要參考bottom-tail表來檢查卡方值是否太小。 探索性數(shù)據(jù)分析為了探索數(shù)據(jù),我們可以計算兩個變量之間的協(xié)方差,或執(zhí)行如下所示的散點圖來發(fā)現(xiàn)趨勢。 例如,下面的綠點和藍(lán)點分別是SF和NY的房子。對于海拔高度>73英尺,我們有一個決策樹樁,滿足這個條件的很可能是SF。 范數(shù)L1, L2-norm Lp-norm, L∞-norm (max norm) & Frobenius norm 相似度Jaccard相似度 Jaccard相似度測量交集大小與并集大小之間的比率。 余弦相似度 余弦相似度測量兩個矢量之間的角度。 皮爾遜相似度 Pearson相關(guān)系數(shù)ρ測量兩個變量之間的相關(guān)性。 |
|
來自: taotao_2016 > 《AI》