在開始具體的聚類分析方法之前,需要了解一些關(guān)于聚類分析的基本原理。 聚類不同于分類聚類分析不同于日常生活中所說的分類,事先不知道所研究的問題應分為幾類,也不知道觀測到的個體的具體分類情況,需要按照性質(zhì)上的親疏程度在沒有先驗知識的情況下進行自動分類,產(chǎn)生分類結(jié)果。 例如,在大學,同學之間根據(jù)興趣愛好、性格、家鄉(xiāng)等,自發(fā)地聚集成不同的圈子,這個過程就是聚類,一開始不知道類別數(shù)目及細節(jié),聚類過程自發(fā)進行。 上面提到兩個關(guān)鍵點:親疏程度、沒有先驗知識。 親疏程度通過樣品間的距離來衡量,下面介紹樣品間的距離。 樣品間的距離1、歐式距離 最常用的距離是歐氏距離,初高中數(shù)學學過的兩點間的距離就是歐式距離。 2、平方歐式距離 平方歐式距離,即歐氏距離的平方。 3、切比雪夫距離 切比雪夫距離定義為兩個體中k個變量值絕對差的最大值。 4、塊距離 塊距離定義為兩個體中k個變量值絕對差的總和。 5、閔可夫斯基距離 在閔可夫斯基距離中,
其他距離還有蘭氏距離和馬氏距離等。 總結(jié)一下,如下圖所示。 一個例子下表是同一批客戶對經(jīng)常光顧的五座商廈在購物環(huán)境和服務質(zhì)量兩方面的平均評分?,F(xiàn)希望根據(jù)這批數(shù)據(jù)將五座商廈分類。 首先,通過這個例子講解一下樣品間的距離。 以A,B為例,在Excel中,可以直接根據(jù)公式計算: 具體Excel公式如下: 定義類間距離的方法在聚類分析中,不僅要計算要計算樣品間的距離,還要計算類與類之間的距離,比較常用的有:最短距離法、最長距離法、類平均法、Ward離差平方和法和重心法。 1、最短距離法 最短距離法:定義為兩個類中最鄰近的兩個樣品的距離,如下圖所示,這兩個類中最近的兩個樣本是2與4,按照最短距離法,將樣本2與4的距離作為這兩個類的距離。 2、最長距離法 最長距離法:定義為兩個類中最遠的兩個樣品的距離,如下圖所示,這兩個類中最遠的兩個樣本是1與3,按照最長距離法,將樣本1與3的距離作為這兩個類的距離。 3、類平均法 類平均法:定義為兩個類中任意兩個樣品距離的平均,如下圖所示,將這兩個類中的所有樣本的距離都計算出來,然后取平均,作為這兩個類的距離。 其他常用的距離還有Ward離差平方和法和重心法。 總結(jié)如下: 層次聚類法層次聚類法分為3步: 1、開始每個對象自成一類; 2、然后每次將距離最近的兩類合并,合并后重新計算新類與其他類的距離; 3、重復步驟2,直到所有對象歸為一類。 具體操作如下: 1、開始每個對象自成一類,計算出距離矩陣,記為D1 距離計算公式: 例如,計算A,B之間的距離,公式為: =SQRT(($C$5-C6)^2+($D$5-D6)^2) 其他樣本距離按照類似的方式計算。 2、然后每次將距離最近的兩類合并,合并后重新計算新類與其他類的距離 由距離矩陣D1可知,D,E之間距離最小,因合并為一新類,記為CL4 接著,按最短距離法計算新類與其他類的距離,得到距離矩陣,記為D2。 從距離矩陣D2可知,A,B之間距離最小,合并為一新類,記為CL3。 接著計算新類與其他類的距離,得到距離矩陣,記為D3。 由距離矩陣D3可知,C,CL4之間距離最小,合并為一新類,記為CL2。 接著計算新類與其他類的距離,得到距離矩陣,記為D4。 合并CL3與CL2,記為CL1。至此,聚類過程完成。 層次聚類法聚類的過程可用一張譜系聚類圖描述,如下所示。 如果要分為三類,則按照下圖所示的方式切割: 三類劃分方式為:G1={A,B},G2={C},G3={D,E}。 如果要分為兩類,則按照下圖所示的方式切割: 兩類劃分方式為:G1={A,B},G2={C,D,E}。 聚類分析不僅可以對樣品進行分類,也可以對變量進行分類,多數(shù)情況下,都是對樣品進行聚類,這也叫做Q型聚類,少數(shù)情況,需要對變量進行聚類,稱為R型聚類。 你是否做過聚類分析?用什么工具呢?歡迎評論留言! |
|
來自: 昵稱38017100 > 《表格使用學習》