聚類分析

Ethan的博客 2011-09-10

展開全文

§3.4 系統(tǒng)聚類分析方法
聚類分析是研究多要素事物分類問題的數(shù)量方法?；驹硎歉鶕?jù)樣本自身的屬性，用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo)，定量地確定樣本之間的親疏關(guān)系，并按這種親疏關(guān)系程度對樣本進(jìn)行聚類。
常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。
1. 聚類要素的數(shù)據(jù)處理
假設(shè)有m 個聚類的對象，每一個聚類對象都有個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用表3.4.1給出。（點擊顯示該表）在聚類分析中，常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。

① 總和標(biāo)準(zhǔn)化
聚類分析
② 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化

③ 極大值標(biāo)準(zhǔn)化

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù)，各要素的極大值為1，其余各數(shù)值小于1。
④ 極差的標(biāo)準(zhǔn)化

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù)，各要素的極大值為1，極小值為0，其余的數(shù)值均在0與1之間。

2. 距離的計算
距離是事物之間差異性的測度，差異性越大，則相似性越小，所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。
① 絕對值距離

選擇不同的距離，聚類結(jié)果會有所差異。在地理分區(qū)和分類研究中，往往采用幾種距離進(jìn)行計算、對比，選擇一種較為合適的距離進(jìn)行聚類。

[舉例說明]（點擊打開顯示該例）

3. 直接聚類法
直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果。
▲ 基本步驟：
① 把各個分類對象單獨視為一類；② 根據(jù)距離最小的原則，依次選出一對分類對象，并成新類；③ 如果其中一個分類對象已歸于一類，則把另一個也歸入該類；如果一對分類對象正好屬于已歸的兩類，則把這兩類并為一類；每一次歸并，都劃去該對象所在的列與列序相同的行；④ 那么，經(jīng)過m-1次就可以把全部分類對象歸為一類，這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。
★ 直接聚類法雖然簡便，但在歸并過程中是劃去行和列的，因而難免有信息損失。因此，直接聚類法并不是最好的系統(tǒng)聚類方法。
[舉例說明]（點擊打開新窗口，顯示該內(nèi)容）

例：已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣，使用直接聚類法做聚類分析。

解：
根據(jù)上面的距離矩陣，用直接聚類法聚類分析：
第一步，在距離矩陣D中，除去對角線元素以外，d49=d94=0.51為最小者，故將第4區(qū)與第9區(qū)并為一類，劃去第9行和第9列；
第二步，在余下的元素中，除對角線元素以外，d75= d57=0.83為最小者，故將第5區(qū)與第7區(qū)并為一類，劃掉第7行和第7列；
第三步，在第二步之后余下的元素之中，除對角線元素以外，d82= d28=0.88為最小者，故將第2區(qū)與第8區(qū)并為一類，劃去第8行和第8列；
第四步，在第三步之后余下的元素中，除對角線元素以外，d43= d34=1.23為最小者，故將第3區(qū)與第4區(qū)并為一類，劃去第4行和第4列，此時，第3、4、9區(qū)已歸并為一類；
第五步，在第四步之后余下的元素中，除對角線元素以外，d21= d12=1.52為最小者，故將第1區(qū)與第2區(qū)并為一類，劃去第2行和第2列，此時，第1、2、8區(qū)已歸并為一類；
第六步，在第五步之后余下的元素中，除對角線元素以外，d65= d56=1.78為最小者，故將第5區(qū)與第6區(qū)并為一類，劃去第6行和第6列，此時，第5、6、7區(qū)已歸并為一類；
第七步，在第六步之后余下的元素中，除對角線元素以外，d31= d13=3.10為最小者，故將第1區(qū)與第3區(qū)并為一類，劃去第3行和第3列，此時，第1、2、3、4、8、9區(qū)已歸并為一類；
第八步，在第七步之后余下的元素中，除去對角線元素以外，只有d51= d15=5.86，故將第1區(qū)與第5區(qū)并為一類，劃去第5行和第5列，此時，第1、2、3、4、5、6、7、8、9、區(qū)均歸并為一類；
根據(jù)上述步驟，可以做出直接聚類譜系圖。（點擊展開顯示該圖）
聚類分析

4. 最短距離聚類法
最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出，把分類對象Gp和Gq歸并為一新類Gr，然后按計算公式

計算原來各類與新類之間的距離，這樣就得到一個新的（m－1）階的距離矩陣；再從新的距離矩陣中選出最小者dij，把Gi和Gj歸并成新類；再計算各類與新類的距離，這樣一直下去，直至各分類對象被歸為一類為止。
[舉例說明]（點擊打開新窗口，顯示該例）

例：已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣，使用最短距離聚類法做聚類分析。

解：用最短距離聚類法對某地區(qū)的九個農(nóng)業(yè)區(qū)進(jìn)行聚類分析：
第一步，在9×9階距離矩陣D中，非對角元素中最小者是d94=0.51，故首先將第4區(qū)與第9區(qū)并為一類，記為G10，即G10=｛G4，G9｝。分別計算G1，G2，G3，G5，G6，G7，G8與G10之間的距離得：

這樣就得到G1，G2，G3，G5，G6，G7，G8，G10上的一個新的8×8階距離矩陣：
聚類分析
第二步，在上一步驟中所得到的8×8階距離矩陣中，非對角元素中最小者為d57=0.83，故將G5與G7歸并為一類，記為G11，即G11=｛G5，G7｝。分別計算G1，G2，G3，G6，G8，G10與G11之間的距離，可得到一個新的7×7階距離矩陣：
聚類分析
第三步，在第二步所得到的7×7階距離矩陣中，非對角元素中最小者為d28=0.88，故將G2與G8歸并為一類，記為G12，即G12=｛G2，G8｝。分別計算G1，G3，G6，G10，G11與G12之間的距離，可得到一個新的6×6階距離矩陣：
聚類分析
第四步，在第三步中所得的6×6階距離矩陣中，非對角元素中最小者為d6，11=1.07，故將G6與G11歸并為一類，記為G13，即G13=｛G6，G11｝=｛G6，（G5，G7）｝。計算G1，G3，G10，G12與G13之間的距離，可得到一個新的5×5階距離矩陣：
聚類分析
第五步，在第四步中所得的5×5階距離矩陣中，非對角線元素中最小者為d3，10=1.20，故將G3與G10歸并為一類，記為G14，即G14=｛G3，G10｝=｛G3，（G4，G9）｝。再按照公式（3.3.10）式計算G1，G12，G13與G14之間的距離，可得一個新的4×4階距離矩陣：
聚類分析
第六步，在第五步所得到的4×4階距離矩陣中，非對角線元素中最小者為d12，14=1.29，故將G12與G14歸并為一類，記為G15，即G15=｛G12，G14｝=｛（G2，G8），（G3，（G4，G9））｝。再按照公式（3.3.10）式計算G1，G13與G15之間的距離，可得一個新的3×3階距離矩陣：
聚類分析
第七步，在第六步所得的3×3階距離矩陣中，非對角線元素中最小者為d1，15=1.32，故將G1與G15歸并為一類，記為G16，即G16=｛G1，G15｝=｛（G1，（G2，G8），（G3，（G4，G9））｝。再按照公式（3.3.10）式計算G13與G16之間的距離，可得一個新的2×2階距離矩陣：
聚類分析
第八步，將G13與G16歸并為一類。此時，所有分類對象均被歸并為一類。
綜合上述聚類過程，可以作出最短距離聚類譜系圖。（點擊展開顯示）

5. 最遠(yuǎn)距離聚類法
最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。
最遠(yuǎn)距離聚類法的計算公式：

[舉例說明]（點擊打開新窗口，顯示該例）

例：已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣，使用最遠(yuǎn)距離聚類法做聚類分析。

答：最遠(yuǎn)距離聚類法的聚類步驟：
第一步，在9×9階距離矩陣中，非對角元素中最小者是d94=0.51，故首先將第4區(qū)與第9區(qū)并為一類，記為G10，即G10=｛G4，G9｝。計算G1，G2，G3，G5，G6，G7，G8與G10之間的距離，得到一個新的8×8階距離矩陣：
聚類分析
第二步，在第一步所得到的8×8階距離矩陣中，非對角線元素中最小者為d57=0.83，故將G5與G7歸并為一類，記為G11，即G11=｛G5，G7｝。分別計算G1，G2，G3，G6，G8，G10與G11之間的距離，得到一個新的7×7階距離矩陣如下：
聚類分析
第三步，在第二步中所得到的7×7階距離矩陣中，非對角線元素中最小者為d28=0.88，故將G2與G8歸并為一類，記為G12，即G12=｛G2，G8｝。分別計算G1，G3，G6，G10，G11與G12之間的距離，得到一個新的6×6階距離矩陣：
聚類分析
第四步，在第三步中所得的6×6階距離矩陣中，非對角元素中最小者為d3，10=1.23，故將G3與G10歸并為一類，記為G13，即G13=｛G3，G10｝=｛G3，（G4，G9）｝。計算G1，G6，G11，G12與G13之間的距離，得到一個新的5×5階距離矩陣：
聚類分析
第五步，在第四步所得的5×5階距離矩陣中，非對角線元素中最小者為d1，12=1.52，故將G1與G12歸并為一類，記為G14，即G14=｛G1，G12｝=｛G1，（G2，G8）｝。分別計算G6，G11，G13與G14之間的距離，得到一個新的4×4階距離矩陣：
聚類分析
第六步，在第五步所得的4×4階距離矩陣中，非對角線元素中最小者為d6，11=1.78，故將G6與G11歸并為一類，記為G15，即G15=｛G6，G11｝=｛G6，（G5，G7）｝。分別計算G13，G14和G15之間的距離，得到一個新的3×3階距離矩陣：
聚類分析
第七步，在第六步中所得的3×3階距離矩陣中，非對角線元素中最小者為d13，14=3.10，故將G13與G14歸并為一類，記為G16，即G16=｛G13，G14｝=｛（G3，（G4，G9）），（G1，（G2，G8））｝。計算G15與G16之間的距離，可得一個新的2×2階距離矩陣：
聚類分析
第八步，將G15與G16歸并為一類。此時，各個分類對象均已歸并為一類。
綜合上述聚類過程，可以作出最遠(yuǎn)距離聚類譜系圖。

聚類分析

6. 系統(tǒng)聚類法計算類之間距離的統(tǒng)一公式
▲ 最短距離聚類法具有空間壓縮性，而最遠(yuǎn)距離聚類法具有空間擴張性（圖3.4.4）。最短距離為 d_AB=d_a1b1，最遠(yuǎn)距離為 d_AB=d_ap2。

▲ 最短距離聚類法和最遠(yuǎn)距離聚類法關(guān)于類之間的距離計算可以用統(tǒng)一的式子表示：

當(dāng)γ= -1/2時，就是最短距離聚類法計算類間距離的公式；當(dāng)γ=1/2時，就是最遠(yuǎn)距離聚類法計算類間距離的公式。
▲ 系統(tǒng)聚類的方法還有：

表示了八種不同系統(tǒng)聚類方法計算類間距離的統(tǒng)一表達(dá)式（見表3.3.4）。

7. 系統(tǒng)聚類分析實例
作為系統(tǒng)聚類分析方法的應(yīng)用實例，下面對中國大陸31個省級區(qū)域第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行類型劃分及差異性程度分析。
1) 聚類指標(biāo)選擇
選取如下7項指標(biāo)作為對中國第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行聚類分析的基礎(chǔ)指標(biāo)：
① y1——人均GDP，反映經(jīng)濟社會發(fā)展的總體狀況和一般水平；
② y2——人均第三產(chǎn)業(yè)增加值，反映人均服務(wù)產(chǎn)品占有量或服務(wù)密度；
③ y3——第二產(chǎn)業(yè)增加值比重，反映工業(yè)化水平和產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)代化程度；
④ y4——第三產(chǎn)業(yè)增加值比重，反映第三產(chǎn)業(yè)的發(fā)展程度及其對國民經(jīng)濟的貢獻(xiàn)；
⑤ y5——第三產(chǎn)業(yè)從業(yè)人員比重，反映第三產(chǎn)業(yè)對勞動力的吸納能力；
⑥ y6——第三產(chǎn)業(yè)固定資產(chǎn)投資比重，反映第三產(chǎn)業(yè)的資金投入程度；
⑦ y7——城市化水平，反映農(nóng)村人口轉(zhuǎn)化為城市人口的程度及對服務(wù)的需求量。

2) 聚類計算
以 1999年國家統(tǒng)計局出版的《中國統(tǒng)計年鑒》（1998年度的數(shù)據(jù)）為數(shù)據(jù)來源，運用上述7項指標(biāo)(表3.4.5) （點擊顯示該表），借助于統(tǒng)計分析軟件包SPSS10.0進(jìn)行聚類分析計算，計算過程如下：
① 用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對7項指標(biāo)的原始數(shù)據(jù)進(jìn)行處理。
② 采用歐氏距離測度31個?。ㄊ?、區(qū)）之間的樣本間距離。
③ 選用組平均法計算類間的距離，并對樣本進(jìn)行歸類。
經(jīng)過上述聚類計算步驟，得到的聚類結(jié)果見圖3.4.5。（點擊在新窗口中顯示該圖）
3.http://gs./statistics_web/course/jlfx_word.htm

聚類分析

3.傳統(tǒng)聚類分析

聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域，并提出了許多聚類算法。
這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和
基于模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個劃分，k為要創(chuàng)建的劃分個數(shù)；然后利用一個循環(huán)
定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM,
EM(Expectation Maximization):不將對象明顯地分到么個簇,而是根據(jù)表示隸書可能性的權(quán)來分配對象.

2 層次方法(hierarchical method) 創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上
而下（分解）和自下而上（合并）兩種操作方式。為彌補分解與合并的不足，層次合
并經(jīng)常要與其它聚類方法相結(jié)合，如循環(huán)定位。典型的這類方法包括：
第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用樹的結(jié)構(gòu)對對象集進(jìn)行

劃分；然后再利
用其它聚類方法對這些聚類進(jìn)行優(yōu)化。
第二個是CURE(Clustering Using REprisentatives) 方法，它利用固定數(shù)目代表對象來表示相應(yīng)聚類；然后對各聚類按照指定
量（向聚類中心）進(jìn)行收縮。
第三個是ROCK方法，它利用聚類間的連接進(jìn)行聚類合并。
最后一個CHEMALOEN，它則是在層次聚類時構(gòu)造動態(tài)模型。

3 基于密度方法，根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度（如
DBSCAN）不斷增長聚類。典型的基于密度方法包括：GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密
度區(qū)域來進(jìn)行聚類；它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義
為一組“密度連接”的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一
個聚類，而是為自動交互的聚類分析計算出一個增強聚類順序。。

4 基于網(wǎng)格方法，首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu)；然后利
用網(wǎng)格結(jié)構(gòu)完成聚類。
STING(STatistical INformation Grid) 就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進(jìn)行基
于網(wǎng)格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基于網(wǎng)格與基于密度相結(jié)合的方
法。

5 基于模型方法，它假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的
基于模型方法包括：

統(tǒng)計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量（屬性-值）對來加以描述的。采用分類樹的形式來創(chuàng)建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續(xù)取值屬性進(jìn)行增量式聚
類。它為每個結(jié)點中的每個屬性保存相應(yīng)的連續(xù)正態(tài)分布（均值與方差）；并利
用一個改進(jìn)的分類能力描述方法，即不象COBWEB那樣計算離散屬性（取值）
和而是對連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大數(shù)據(jù)庫進(jìn)行聚類處理.
AutoClass:它采用貝葉斯統(tǒng)計分析來估算結(jié)果簇的數(shù)目.