乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      機(jī)器學(xué)習(xí)筆記(九)異常檢測(cè)與推薦系統(tǒng)

       印度阿三17 2019-10-29

      Anomaly detection(異常檢測(cè))

      1、問題定義:假設(shè)數(shù)據(jù)集{x(1), x(2), ..., x(3)}表示的數(shù)據(jù)都是正常的,則判斷xtest是否異常。

      若概率值 p(xtest) <?ε,則表示異常;若 p(xtest) ≥ ε ,則表示正常。

      ?

      2、Gaussian Distribution(高斯分布 / 正態(tài)分布):

      (1)分布:X ~ N(μ,σ2)? ?μ為均值,σ2為方差.

      ?

      (2)Parameter estimation(參數(shù)估計(jì)):

      給定數(shù)據(jù)集,估算出 μ 和 σ 的值.?

      ?

      3、應(yīng)用高斯分布實(shí)現(xiàn)異常檢測(cè)算法:

      訓(xùn)練集:{x(1), x(2), ..., x(m)},每一個(gè)數(shù)據(jù)都是 n 維向量.

      建立模型:p(x) = p(x1; μ1, σ12) p(x2; μ2,?σ22)?p(x3; μ3,?σ32) ...?p(xn; μn,?σn2)

      算法流程:

      ?

      4、開發(fā)異常檢測(cè)系統(tǒng):

      (1)使用帶標(biāo)簽的數(shù)據(jù)集,y = 0表示正常,y = 1表示異常,即:

      (2)訓(xùn)練集表示所有正常的樣本集合(視為不帶標(biāo)簽),設(shè)置交叉驗(yàn)證集和測(cè)試集:

      舉例:如果一共10000個(gè)正常數(shù)據(jù),20個(gè)異常數(shù)據(jù):

      可以通過交叉驗(yàn)證集選擇較好的 ε 參數(shù). 選擇算法評(píng)估結(jié)果最好的(F1-score最高).

      (3)算法評(píng)估:

      由于異常的數(shù)據(jù)占極少數(shù),因此是傾斜類的情況,不能僅僅通過計(jì)算預(yù)測(cè)的準(zhǔn)確率來評(píng)估系統(tǒng)。需要計(jì)算 precision、recall,并計(jì)算F1-score.

      ?

      5、異常檢測(cè)與監(jiān)督學(xué)習(xí)的區(qū)別:

      既然異常檢測(cè)也帶有便簽,為什么不直接用邏輯回歸等方法進(jìn)行分類預(yù)測(cè)呢?

      異常檢測(cè) y = 1 的樣本極少,而 y = 0 的樣本極多.
      異常的種類很多,可能在以往的數(shù)據(jù)中都沒有出現(xiàn)過.
      應(yīng)用于:欺詐檢測(cè)、生產(chǎn)次品檢測(cè)、監(jiān)測(cè)數(shù)據(jù)中心等.
      監(jiān)督學(xué)習(xí) 大量的正負(fù)樣本.
      有足夠的樣本讓算法感知到不同種類的特征.
      應(yīng)用于:垃圾郵件檢測(cè)、天氣預(yù)測(cè)、分類等.

      ?

      6、特征量的選擇:

      (1)特征量的調(diào)整:

      在對(duì)特征向量建模時(shí),需要使得 xi 服從正態(tài)分布,或者接近于正態(tài)分布,如下圖所示:

      若不服從正態(tài)分布,則需要進(jìn)行修正,如下圖所示:

      ?

      ?

      (2)誤差分析:

      當(dāng)某一個(gè)數(shù)據(jù)處于異常,但是系統(tǒng)并沒有檢測(cè)出,即 p(x) 取值仍然較大,則可能原因是特征較少。

      如下圖所示,當(dāng)只有一個(gè)特征量時(shí),p(x) 值較高,但拓展特征量后,發(fā)現(xiàn)它處在了高斯分布的外圍區(qū)域.

      ?

      7、Multivariate gaussian distribution(多元高斯分布):

      (1)問題背景:

      在監(jiān)測(cè)數(shù)據(jù)中心的例子中,有兩個(gè)特征 x1 和 x2,當(dāng)出現(xiàn)一個(gè)異常的樣本,它有較低的CPU load和較高的Memory Use,在 x1 和 x2的正態(tài)分布圖中可以看出,該樣本含有較高的 p(x1) 和 p(x2),也就是有較高的 p(x),并不會(huì)被判定為異常.

      原因分析:我們傾向于認(rèn)為兩個(gè)特征所構(gòu)成的區(qū)域具有較為均勻的概率分布.

      ?

      (2)算法改進(jìn):

      X的協(xié)方差矩陣,第 i 行第 j 列表示 xi 和 xj 的協(xié)方差,

      舉例:

      ?

      (3)應(yīng)用多元高斯分布:

      ① 計(jì)算參數(shù),擬合模型:

      ② 對(duì)于新樣本計(jì)算 p(x):

      ?若 p(x) 小于閾值,則判定為異常點(diǎn).

      ?

      (4)多元高斯分布模型與常規(guī)高斯分布模型的聯(lián)系:

      常規(guī)高斯分布模型對(duì)應(yīng)多元高斯分布模型的情況:Σ 非對(duì)角線元素全為0.

      ?對(duì)于誤差情況,一種方法是增加特征量(上文已闡述),另一種方法是使用多元高斯模型自動(dòng)捕捉不同特征量之間的相關(guān)性.

      常規(guī)高斯分布

      Original model

      計(jì)算量小,n 較大的情況也適用.
      即時(shí)樣本數(shù) m 較少也適用.

      多元高斯分布

      Multivariate gaussian

      Σ 計(jì)算量大,適用于 n 較小的情況.

      必須滿足 m > n,否則 Σ 不可逆.?

      要求 m >> n.

      ?Σ 不可逆的兩種情況:① 不滿足 m > n; ② 有冗余的特征量.

      ?

      Recommender systems(推薦系統(tǒng))

      1、以電影推薦系統(tǒng)舉例:一共編號(hào)1 2 3 4四個(gè)人,5部電影(前3部為愛情類,后2部為動(dòng)作類),評(píng)分由0-5,可見編號(hào)1、2更喜歡愛情類電影,編號(hào)3、4更喜歡動(dòng)作類電影。

      符號(hào)定義:

      nu:用戶的數(shù)量;

      nm:電影的數(shù)量;

      r(i, j):如果用戶 j 已經(jīng)對(duì)電影 i 進(jìn)行評(píng)分,那么 r(i, j) = 1,否則 r(i, j) = 0;

      y(i, j):用戶 j 對(duì)電影 i 的評(píng)分(僅對(duì) r(i, j) = 1的定義).

      推薦系統(tǒng)的原理:根據(jù)已知的數(shù)據(jù),預(yù)測(cè)出帶問號(hào)的空缺數(shù)據(jù)的可能值.

      ?

      2、基于內(nèi)容的推薦系統(tǒng):

      (1)原理:

      使用兩種特征量,x1表示愛情電影的程度,x2表示動(dòng)作電影的程度.

      設(shè) x0 = 1,第 i 部電影設(shè)為 x(i),例如 x(1) = [1? 0.9? 0]T. 用 n 表示特征數(shù)量,即 n = 2. 第 j 個(gè)用戶評(píng)價(jià)過的電影數(shù)量為 m(j).

      若觀眾的打分預(yù)測(cè)是獨(dú)立的線性回歸問題,則每一個(gè)用戶 j 都有特征參數(shù) θ(j),其為 n 1 維向量. 對(duì)于電影 i 的打分為 (θ(j))Tx(i).

      現(xiàn)對(duì)第1個(gè)用戶的第3部電影的評(píng)分進(jìn)行預(yù)測(cè):

      x(3) = [1? 0.99? 0]T

      θ(1) = [0? 5? 0]T

      value =?(θ(1))Tx(3)?= 4.95

      ?

      (2)參數(shù) θ 的訓(xùn)練:(本來求和公式前的常數(shù)是 1/(2m(j)),但為了計(jì)算方面,將 m(j) 去除,不影響結(jié)果)

      ?

      3、Collaborative filtering(協(xié)同過濾):

      又名 Low rank matrix factorization (低秩矩陣分解)

      (1)問題描述:

      假設(shè)不知道電影的各個(gè)指數(shù)(如愛情電影指數(shù)、動(dòng)作電影指數(shù)等),僅僅使用上述的方法,無法進(jìn)行預(yù)測(cè). 但若已知用戶對(duì)各類電影的喜好程度,即已知 θ,則可以預(yù)測(cè)出各類電影的指數(shù).

      ?

      (2)目標(biāo)描述:

      利用 θ 和 x 的重復(fù)計(jì)算和迭代,收斂到一組合適的電影特征.?

      簡(jiǎn)化問題,可以定義新的代價(jià)函數(shù) J,將問題轉(zhuǎn)換為:

      ? ?

      (3)算法流程:

      ① 初始化 x(1), ..., x(nm) 和 θ(1), ..., θ(nu),初始值設(shè)置為一個(gè)較小的隨機(jī)數(shù)(類似于神經(jīng)網(wǎng)絡(luò),使得各個(gè)參數(shù)初始化值不一樣);

      ② 使用梯度下降法,最小化 J(這里沒有考慮 x0、θ0,即 k 從1開始):

      ③ 若對(duì)一個(gè)用戶進(jìn)行預(yù)測(cè),給出了參數(shù) θ 或者電影的指數(shù) x,則可以使用 θTx 進(jìn)行預(yù)測(cè)評(píng)分.

      ?

      (4)電影推薦的向量化實(shí)現(xiàn):

      ① 將打分?jǐn)?shù)據(jù)轉(zhuǎn)為矩陣 Y:

      一般化預(yù)測(cè)評(píng)分矩陣:

      ?

      ② 電影特征矩陣:x(i) 表示第 i 部電影的特征向量,是一列,(x(i))T 將列向量轉(zhuǎn)為行向量.

      X = [ (x(1))T??(x(2))T? ...? (x(nm))T]T?

      每一個(gè)用戶的參數(shù) θ 同理構(gòu)成矩陣 Θ,θ(j) 表示第 j 個(gè)用戶,是一列,(θ(j))T?將列向量轉(zhuǎn)為行向量.

      Θ = [(θ(1))T??(θ(2))T? ...? (θ(nu))T]T? ?(結(jié)構(gòu)類似 X )

      ③ 在使用協(xié)同過濾算法求得 X 和 Θ 后,預(yù)測(cè)評(píng)分矩陣為 XΘT.

      由于 XΘT?有低秩屬性,因此命名:低秩矩陣分解算法.

      ④ 尋找電影 i 的相關(guān)電影,即尋找若干個(gè)電影 j ,使得最小化

      ?

      4、推薦系統(tǒng)的實(shí)現(xiàn)細(xì)節(jié):均值歸一化:

      (1)問題背景:當(dāng)?shù)谖鍌€(gè)用戶對(duì)于數(shù)據(jù)中的電影一部都沒看過,即下圖的情況:

      那么當(dāng)計(jì)算 θ(5) 時(shí),根據(jù)目標(biāo)函數(shù)的定義:

      目標(biāo)函數(shù)轉(zhuǎn)為最小化 λ/2 * [(θ1(5))2 (θ2(5))2],

      有此會(huì)得出解 θ(5) = [0? 0]T

      最后的預(yù)測(cè)結(jié)果是把所有電影評(píng)分為 0.

      ?

      (2)解決方法:均值歸一化

      對(duì)于原矩陣 Y,減去均值 μ,將得到的新 Y 矩陣作為樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),得到 Θ 和 X,在進(jìn)行預(yù)測(cè). 在預(yù)測(cè)結(jié)果加上μ,即 XΘT μ. 如下圖:

      含義:一無所知的新用戶,把電影的平均評(píng)分作為預(yù)測(cè)評(píng)分進(jìn)行推薦.

      來源:https://www./content-4-534201.html

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多