基于圖的聚類分析研究—張濤 1. 典型聚類算法1.1 基于劃分的方法代表:kmeans算法·指定k個聚類中心 1.2 基于層次的方法代表:CURE算法·每個樣本作為單獨的一個類別 1.3 基于網(wǎng)格的方法代表:STING算法·將數(shù)據(jù)集合X劃分多層網(wǎng)格結(jié)構(gòu),從某一層開始計算 1.4 基于密度的方法代表:DBSCAN算法·輸入數(shù)據(jù)集合X,隨機選取一點,并找出這個點的所有高密度可達點 1.5 神經(jīng)網(wǎng)絡(luò)的方法代表:SOM算法·數(shù)據(jù)集合 1.6 基于圖的聚類方法代表:譜聚類算法·計算鄰接矩陣 2. 聚類算法的評價指標(biāo)一個好的聚類方法可以產(chǎn)生高品質(zhì)簇,是的簇內(nèi)相似度高,簇間相似度低。一般來說,評估聚類質(zhì)量有兩個標(biāo)準,內(nèi)部質(zhì)量評價指標(biāo)和外部評價指標(biāo)。 2.1 內(nèi)部質(zhì)量評價標(biāo)準內(nèi)部評價指標(biāo)是利用數(shù)據(jù)集的屬性特征來評價聚類算法的優(yōu)劣。通過計算總體的相似度,簇間平均相似度或簇內(nèi)平均相似度來評價聚類質(zhì)量。評價聚類效果的高低通常使用聚類的有效性指標(biāo),所以目前的檢驗聚類的有效性指標(biāo)主要是通過簇間距離和簇內(nèi)距離來衡量。這類指標(biāo)常用的有CH(Calinski-Harabasz)指標(biāo)等 CH指標(biāo)CH指標(biāo)定義為: 簇的凝聚度簇內(nèi)點對的平均距離反映了簇的凝聚度,一般使用組內(nèi)誤差平方(SSE)表示: 簇的鄰近度簇的鄰近度用組間平方和(SSB)表示,即簇的質(zhì)心 2.2 外部質(zhì)量評價標(biāo)準外部質(zhì)量評價指標(biāo)是基于已知分類標(biāo)簽數(shù)據(jù)集進行評價的,這樣可以將原有標(biāo)簽數(shù)據(jù)與聚類輸出結(jié)果進行對比。外部質(zhì)量評價指標(biāo)的理想聚類結(jié)果是:具有不同類標(biāo)簽的數(shù)據(jù)聚合到不同的簇中,具有相同類標(biāo)簽的數(shù)據(jù)聚合相同的簇中。外部質(zhì)量評價準則通常使用熵,純度等指標(biāo)進行度量。 熵:簇內(nèi)包含單個類對象的一種度量。對于每一個簇,首先計算數(shù)據(jù)的類分布,即對于簇 純度:簇內(nèi)包含單個類對象的另外一種度量。簇 |
|