乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

       niudp 2019-02-08

      無監(jiān)督學(xué)習(xí)是一組統(tǒng)計(jì)工具,用于只有一組特征而沒有目標(biāo)的情景。因此,我們無法進(jìn)行預(yù)測,因?yàn)槊總€(gè)觀察都沒有相關(guān)的響應(yīng)。我們感興趣的是找到一種有趣的方法來可視化數(shù)據(jù)或發(fā)現(xiàn)類似觀察的子組。

      無監(jiān)督學(xué)習(xí)往往更具挑戰(zhàn)性,因?yàn)榉治鰶]有明確的目標(biāo),而且往往是主觀的。此外,很難評估獲得的結(jié)果是否良好,因?yàn)闆]有公認(rèn)的機(jī)制來對獨(dú)立機(jī)器學(xué)習(xí)數(shù)據(jù)集執(zhí)行交叉驗(yàn)證或驗(yàn)證結(jié)果,因?yàn)槲覀儾恢勒嬲拇鸢浮?/p>

      本文將重點(diǎn)介紹兩種技術(shù):主成分分析和聚類。

      主成分分析(PCA)

      PCA指的是計(jì)算主成分并用于更好地理解機(jī)器學(xué)習(xí)數(shù)據(jù)集中數(shù)據(jù)的過程。PCA也可用于可視化。

      什么是主成分?

      假設(shè)你希望用一組p特性(作為探索性數(shù)據(jù)分析的一部分)對n個(gè)觀測值進(jìn)行可視化。我們可以一次檢查2個(gè)特征的2D散點(diǎn)圖,但是如果有很多預(yù)測因子,就會(huì)很難可視化。

      通過PCA,我們可以找到一個(gè)低維空間的數(shù)據(jù)集,它包含了盡可能多的變化。我們將獲得最感興趣的特征。

      如何找到主要成分?

      第一個(gè)主成分是具有最大方差的特征的歸一化線性組合:

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      第一主成分方程

      符號Φ稱為loadings。loadings必須最大化:

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      聚類方法(Clustering methods)

      聚類是指用于在數(shù)據(jù)集中查找子組或clusters的一組廣泛技術(shù)。這有助于我們將觀察分成不同的組,以便每個(gè)組包含彼此相似的觀察。例如,在乳腺癌的情景中,分組可以代表腫瘤級別。在市場細(xì)分的市場營銷中,它也非常有用,因?yàn)樗梢宰R別出更容易接受某種產(chǎn)品的人群。

      有許多聚類方法,但我們將專注于k-means聚類和層次聚類。在k-means聚類中,我們希望將數(shù)據(jù)劃分為預(yù)先指定的數(shù)量為K的聚類。另一方面,通過層次聚類,我們不知道需要多少個(gè)聚類,我們想要一個(gè)樹狀圖,它允許我們查看每個(gè)可能數(shù)量的聚類獲得的所有聚類。

      k - means聚類

      該方法簡單地將觀測數(shù)據(jù)分離為K個(gè)聚類。假設(shè):

      • 1.每個(gè)觀測至少屬于K個(gè)聚類中的一個(gè)
      • 2.聚類不重疊

      此外,每個(gè)聚類內(nèi)的變化最小化。

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      如何根據(jù)指定聚類的數(shù)量對觀察進(jìn)行聚類

      這是通過最小化聚類內(nèi)每個(gè)觀測值之間的歐幾里德平方距離的總和來實(shí)現(xiàn)的:

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      k - means聚類的優(yōu)化函數(shù)

      為了最小化,我們遵循以下算法:

      1.隨機(jī)選取K個(gè)種子點(diǎn)。這些用作觀測的初始聚類分配。

      2.迭代直到聚類分配停止更改:

      • 對于K個(gè)聚類中的每一個(gè),計(jì)算聚類質(zhì)心。第k個(gè)聚類質(zhì)心是第k個(gè)聚類中的觀測的p個(gè)特征均值的向量
      • 將每個(gè)觀測值分配給質(zhì)心最接近的聚類(歐幾里德距離最短)

      請注意,上述算法將找到局部最小值。因此,獲得的結(jié)果將取決于初始隨機(jī)聚類分配。因此,多次運(yùn)行算法很重要。

      層次聚類

      k-means聚類的潛在缺點(diǎn)是它需要人工輸入來指定聚類的數(shù)量。層次聚類不需要初始數(shù)量的聚類。

      最常見的層次聚類類型是自下而上的。這指的是樹形圖是從葉子開始生成的,并將聚類組合到樹干上。

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      樹形圖的例子

      該算法實(shí)際上非常簡單。它首先定義每對觀測值之間的不同度量值開始,如歐氏距離。然后,它首先假設(shè)每個(gè)觀測都屬于它自己的聚類。然后,融合兩個(gè)最相似的聚類,所以有n-1個(gè)聚類。然后,融合其他兩個(gè)相似的聚類,產(chǎn)生n-2個(gè)聚類。迭代地重復(fù)該過程,直到所有觀測結(jié)果都是單個(gè)聚類的一部分。

      雖然簡單,但有些問題沒有得到解決。如何定義聚類之間的不相似性度量呢?最常見的四種連接方式如下表所示:

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      最常見的四種連接方式

      Complete,Average和Centroid是最常用的連接類型,因?yàn)閟ingle 接傾向于產(chǎn)生不平衡的樹狀圖。請注意,得到的樹狀圖很大程度上取決于所用連接的類型。

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      連接對最終樹狀圖的影響

      此外,選擇合適的不同度量也很關(guān)鍵。如果兩個(gè)特征高度相關(guān),則認(rèn)為兩個(gè)特征是相似的。

      無監(jiān)督學(xué)習(xí)簡介:了解主成分分析(PCA)和聚類方法

      Observation 1 and 2是高度相關(guān)的

      例如,假設(shè)在線零售商有興趣根據(jù)過去的購物歷史對購物者進(jìn)行聚類。目標(biāo)是確定類似購物者的子群,以便向他們展示可能感興趣的廣告。使用歐幾里德距離,那些購買了少量物品的購物者將聚集在一起,這可能不是理想的情況。使用基于相關(guān)性的距離,具有相似偏好的購物者(他們購買物品A和B,但沒有購買物品C和D)將被聚集在一起。

      在所有情況下,我們?nèi)匀恍枰斯ぽ斎雭泶_定層次聚類完成后要使用的集群的最終數(shù)量。

        本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多