聚類算法總結(jié) 2013-06-06 14:17:48 分類: 大數(shù)據(jù) (本文轉(zhuǎn)自網(wǎng)上,具體出處忘了是哪里的,好像是上海一位女士在網(wǎng)上的博文,此處轉(zhuǎn)載,用以備查,請原作者見諒) 聚類算法總結(jié): --------------------------------------------------------- 聚類算法的種類: 基于劃分聚類算法(partition clustering)
基于層次聚類算法:
基于密度聚類算法:
基于網(wǎng)格的聚類算法:
基于神經(jīng)網(wǎng)絡(luò)的聚類算法:
基于統(tǒng)計學(xué)的聚類算法:
--------------------------------------------------------- 幾種常用的聚類算法從可伸縮性、適合的數(shù)據(jù)類型、高維性(處理高維數(shù)據(jù)的能力)、異常數(shù)據(jù)的抗干擾度、聚類形狀和算法效率6個方面進(jìn)行了綜合性能評價,評價結(jié)果如表1所示:
--------------------------------------------------------- 目前聚類分析研究的主要內(nèi)容: 對聚類進(jìn)行研究是數(shù)據(jù)挖掘中的一個熱門方向,由于以上所介紹的聚類方法都存在著某些缺點,因此近些年對于聚類分析的研究很多都專注于改進(jìn)現(xiàn)有的聚類方法或者是提出一種新的聚類方法。以下將對傳統(tǒng)聚類方法中存在的問題以及人們在這些問題上所做的努力做一個簡單的總結(jié): 1 從以上對傳統(tǒng)的聚類分析方法所做的總結(jié)來看,不管是k-means方法,還是CURE方法,在進(jìn)行聚類之前都需要用戶事先確定要得到的聚類的數(shù)目。然而在現(xiàn)實數(shù)據(jù)中,聚類的數(shù)目是未知的,通常要經(jīng)過不斷的實驗來獲得合適的聚類數(shù)目,得到較好的聚類結(jié)果。 2 傳統(tǒng)的聚類方法一般都是適合于某種情況的聚類,沒有一種方法能夠滿足各種情況下的聚類,比如BIRCH方法對于球狀簇有很好的聚類性能,但是對于不規(guī)則的聚類,則不能很好的工作;K-medoids方法不太受孤立點的影響,但是其計算代價又很大。因此如何解決這個問題成為當(dāng)前的一個研究熱點,有學(xué)者提出將不同的聚類思想進(jìn)行融合以形成新的聚類算法,從而綜合利用不同聚類算法的優(yōu)點,在一次聚類過程中綜合利用多種聚類方法,能夠有效的緩解這個問題。 3 隨著信息時代的到來,對大量的數(shù)據(jù)進(jìn)行分析處理是一個很龐大的工作,這就關(guān)系到一個計算效率的問題。有文獻(xiàn)提出了一種基于最小生成樹的聚類算法,該算法通過逐漸丟棄最長的邊來實現(xiàn)聚類結(jié)果,當(dāng)某條邊的長度超過了某個閾值,那么更長邊就不需要計算而直接丟棄,這樣就極大地提高了計算效率,降低了計算成本。 4 處理大規(guī)模數(shù)據(jù)和高維數(shù)據(jù)的能力有待于提高。目前許多聚類方法處理小規(guī)模數(shù)據(jù)和低維數(shù)據(jù)時性能比較好,但是當(dāng)數(shù)據(jù)規(guī)模增大,維度升高時,性能就會急劇下降,比如k-medoids方法處理小規(guī)模數(shù)據(jù)時性能很好,但是隨著數(shù)據(jù)量增多,效率就逐漸下降,而現(xiàn)實生活中的數(shù)據(jù)大部分又都屬于規(guī)模比較大、維度比較高的數(shù)據(jù)集。有文獻(xiàn)提出了一種在高維空間挖掘映射聚類的方法PCKA(Projected Clustering based on the K-Means Algorithm),它從多個維度中選擇屬性相關(guān)的維度,去除不相關(guān)的維度,沿著相關(guān)維度進(jìn)行聚類,以此對高維數(shù)據(jù)進(jìn)行聚類。 5 目前的許多算法都只是理論上的,經(jīng)常處于某種假設(shè)之下,比如聚類能很好的被分離,沒有突出的孤立點等,但是現(xiàn)實數(shù)據(jù)通常是很復(fù)雜的,噪聲很大,因此如何有效的消除噪聲的影響,提高處理現(xiàn)實數(shù)據(jù)的能力還有待進(jìn)一步的提高。 |
|
來自: 山也美 > 《學(xué)習(xí)》