§3.4 系統(tǒng)聚類分析方法
聚類分析是研究多要素事物分類問題的數(shù)量方法?;驹硎歉鶕?jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進(jìn)行聚類。
常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。
1. 聚類要素的數(shù)據(jù)處理
假設(shè)有m 個聚類的對象,每一個聚類對象都有個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用 表3.4.1給出。(點擊顯示該表) 在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。
① 總和標(biāo)準(zhǔn)化

② 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化

③ 極大值標(biāo)準(zhǔn)化

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。
④ 極差的標(biāo)準(zhǔn)化

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
2. 距離的計算
距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。
① 絕對值距離

選擇不同的距離,聚類結(jié)果會有所差異。在地理分區(qū)和分類研究中,往往采用幾種距離進(jìn)行計算、對比,選擇一種較為合適的距離進(jìn)行聚類。
[舉例說明](點擊打開顯示該例)
例:表3.4.2給出了某地區(qū)九個農(nóng)業(yè)區(qū)的七項指標(biāo),它們經(jīng)過極差標(biāo)準(zhǔn)化處理后,如表3.4.3所示。


對于表3.4.3中的數(shù)據(jù),用絕對值距離公式計算可得九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣:

3. 直接聚類法
直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果。
▲ 基本步驟:
① 把各個分類對象單獨視為一類;② 根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;③ 如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;④ 那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。
★ 直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失。因此,直接聚類法并不是最好的系統(tǒng)聚類方法。
[舉例說明](點擊打開新窗口,顯示該內(nèi)容)
例:已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣,使用直接聚類法做聚類分析。

解:
根據(jù)上面的距離矩陣,用直接聚類法聚類分析:
第一步,在距離矩陣D中,除去對角線元素以外,d49=d94=0.51為最小者,故將第4區(qū)與第9區(qū)并為一類,劃去第9行和第9列;
第二步,在余下的元素中,除對角線元素以外,d75= d57=0.83為最小者,故將第5區(qū)與第7區(qū)并為一類,劃掉第7行和第7列;
第三步,在第二步之后余下的元素之中,除對角線元素以外,d82= d28=0.88為最小者,故將第2區(qū)與第8區(qū)并為一類,劃去第8行和第8列;
第四步,在第三步之后余下的元素中,除對角線元素以外,d43= d34=1.23為最小者,故將第3區(qū)與第4區(qū)并為一類,劃去第4行和第4列,此時,第3、4、9區(qū)已歸并為一類;
第五步,在第四步之后余下的元素中,除對角線元素以外,d21= d12=1.52為最小者,故將第1區(qū)與第2區(qū)并為一類,劃去第2行和第2列,此時,第1、2、8區(qū)已歸并為一類;
第六步,在第五步之后余下的元素中,除對角線元素以外,d65= d56=1.78為最小者,故將第5區(qū)與第6區(qū)并為一類,劃去第6行和第6列,此時,第5、6、7區(qū)已歸并為一類;
第七步,在第六步之后余下的元素中,除對角線元素以外,d31= d13=3.10為最小者,故將第1區(qū)與第3區(qū)并為一類,劃去第3行和第3列,此時,第1、2、3、4、8、9區(qū)已歸并為一類;
第八步,在第七步之后余下的元素中,除去對角線元素以外,只有d51= d15=5.86,故將第1區(qū)與第5區(qū)并為一類,劃去第5行和第5列,此時,第1、2、3、4、5、6、7、8、9、區(qū)均歸并為一類;
根據(jù)上述步驟,可以做出直接聚類譜系圖。(點擊展開顯示該圖)

4. 最短距離聚類法
最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式

計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。
[舉例說明](點擊打開新窗口,顯示該例)
5. 最遠(yuǎn)距離聚類法
最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。
最遠(yuǎn)距離聚類法的計算公式:

[舉例說明](點擊打開新窗口,顯示該例)

6. 系統(tǒng)聚類法計算類之間距離的統(tǒng)一公式
▲ 最短距離聚類法具有空間壓縮性,而最遠(yuǎn)距離聚類法具有空間擴張性(圖3.4.4)。最短距離為 dAB=da1b1,最遠(yuǎn)距離為 dAB=dap2。

▲ 最短距離聚類法和最遠(yuǎn)距離聚類法關(guān)于類之間的距離計算可以用統(tǒng)一的式子表示:

當(dāng)γ= -1/2時,就是最短距離聚類法計算類間距離的公式;當(dāng)γ=1/2時,就是最遠(yuǎn)距離聚類法計算類間距離的公式。
▲ 系統(tǒng)聚類的方法還有:

表示了八種不同系統(tǒng)聚類方法計算類間距離的統(tǒng)一表達(dá)式(見表3.3.4)。

7. 系統(tǒng)聚類分析實例
作為系統(tǒng)聚類分析方法的應(yīng)用實例,下面對中國大陸31個省級區(qū)域第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行類型劃分及差異性程度分析。
1) 聚類指標(biāo)選擇
選取如下7項指標(biāo)作為對中國第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行聚類分析的基礎(chǔ)指標(biāo):
① y1——人均GDP,反映經(jīng)濟社會發(fā)展的總體狀況和一般水平;
② y2——人均第三產(chǎn)業(yè)增加值,反映人均服務(wù)產(chǎn)品占有量或服務(wù)密度;
③ y3——第二產(chǎn)業(yè)增加值比重,反映工業(yè)化水平和產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)代化程度;
④ y4——第三產(chǎn)業(yè)增加值比重,反映第三產(chǎn)業(yè)的發(fā)展程度及其對國民經(jīng)濟的貢獻(xiàn);
⑤ y5——第三產(chǎn)業(yè)從業(yè)人員比重,反映第三產(chǎn)業(yè)對勞動力的吸納能力;
⑥ y6——第三產(chǎn)業(yè)固定資產(chǎn)投資比重,反映第三產(chǎn)業(yè)的資金投入程度;
⑦ y7——城市化水平,反映農(nóng)村人口轉(zhuǎn)化為城市人口的程度及對服務(wù)的需求量。

2) 聚類計算
以 1999年國家統(tǒng)計局出版的《中國統(tǒng)計年鑒》(1998年度的數(shù)據(jù))為數(shù)據(jù)來源,運用上述7項指標(biāo)(表3.4.5) (點擊顯示該表),借助于統(tǒng)計分析軟件包SPSS10.0進(jìn)行聚類分析計算,計算過程如下:
① 用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對7項指標(biāo)的原始數(shù)據(jù)進(jìn)行處理。
② 采用歐氏距離測度31個?。ㄊ?、區(qū))之間的樣本間距離。
③ 選用組平均法計算類間的距離,并對樣本進(jìn)行歸類。
經(jīng)過上述聚類計算步驟,得到的聚類結(jié)果見圖3.4.5。 (點擊在新窗口中顯示該圖)
3.http://gs./statistics_web/course/jlfx_word.htm
聚類分析
3.傳統(tǒng)聚類分析
聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域,并提出了許多聚類算法。
這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和
基于模型方法。
1 劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)
定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM,
EM(Expectation Maximization):不將對象明顯地分到么個簇,而是根據(jù)表示隸書可能性的權(quán)來分配對象.
2 層次方法(hierarchical method) 創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上
而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合
并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:
第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結(jié)構(gòu)對對象集進(jìn)行
劃分;然后再利
用其它聚類方法對這些聚類進(jìn)行優(yōu)化。
第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數(shù)目代表對象來表示相應(yīng)聚類;然后對各聚類按照指定
量(向聚類中心)進(jìn)行收縮。
第三個是ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。
最后一個CHEMALOEN,它則是在層次聚類時構(gòu)造動態(tài)模型。
3 基于密度方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如
DBSCAN)不斷增長聚類。典型的基于密度方法包括:GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密
度區(qū)域來進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義
為一組“密度連接”的點集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一
個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。
4 基于網(wǎng)格方法,首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利
用網(wǎng)格結(jié)構(gòu)完成聚類。
STING(STatistical INformation Grid) 就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進(jìn)行基
于網(wǎng)格聚類的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基于網(wǎng)格與基于密度相結(jié)合的方
法。
5 基于模型方法,它假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的
基于模型方法包括:
統(tǒng)計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
用符號量(屬性-值)對來加以描述的。采用分類樹的形式來創(chuàng)建
一個層次聚類。
CLASSIT是COBWEB的另一個版本.。它可以對連續(xù)取值屬性進(jìn)行增量式聚
類。它為每個結(jié)點中的每個屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利
用一個改進(jìn)的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
和而是對連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
因此它們都不適合對大數(shù)據(jù)庫進(jìn)行聚類處理.
AutoClass:它采用貝葉斯統(tǒng)計分析來估算結(jié)果簇的數(shù)目.