高新波 謝維信
摘要 從模糊聚類準則函數的演化、算法實現的途徑、有效性度量方式以及在模式識別與圖像處理中的應用等4個方面對模糊聚類理論的研究進展做了綜述和評價,指出模糊聚類進一步研究的幾個重要方向及其應用前景.
關鍵詞 聚類分析 模糊聚類 聚類有效性 模式識別 圖像處理
聚類就是按照事物間的相似性進行區(qū)分和分類的過程,在這一過程中沒有教師指
導,因此是一種無監(jiān)督的分類. 聚類分析則是用數學方法研究和處理所給定對象的分類. “人以群分,物以類聚”,聚類是一個古老的問題,它伴隨著人類社會
的產生和發(fā)展而不斷深化,人類要認識世界就必須區(qū)別不同的事物并認識事物間的相似性[1].
傳統(tǒng)的聚類分析是一種硬劃分,它把每個待辨識的對象嚴格地劃分到某個類中,具有非此即彼的性質,因此這種分類的類別界限是分明的. 而實際上大多數對象并沒有嚴格的屬性,它們在性態(tài)和類屬方面存在著中介性,適合進行軟劃分. Zadeh[2]提
出的模糊集理論為這種軟劃分提供了有力的分析工具,人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析. 由于模糊聚類得到了樣本屬于各個類別的
不確定性程度,表達了樣本類屬的中介性,即建立起了樣本對于類別的不確定性的描述,能更客觀地反映現實世界,從而成為聚類分析研究的主流.
模糊劃分的概念最早由Ruspini[3]提出,利用這一概念人們提出了多種聚類方法,比較典型的有:基于相似性關系和模糊關系的方法(包括聚合法和分裂法)[4],基于模糊等價關系的傳遞閉包方法[5]、基于模糊圖論最大樹方法[6],
以及基于數據集的凸分解、動態(tài)規(guī)劃和難以辨識關系等方法. 然而由于上述方法不適用于大數據量情況,難以滿足實時性要求高的場合,因此其實際的應用不夠廣
泛,故在該方面的研究也就逐步減少了. 實際中受到普遍歡迎的是基于目標函數的方法,該方法設計簡單、解決問題的范圍廣,最終還可以轉化為優(yōu)化問題而借助
經典數學的非線性規(guī)劃理論求解,并易于計算機實現. 因此,隨著計算機的應用和發(fā)展,該類方法成為聚類研究的熱點.
以下將從目標函數的演化、算法的實現途徑、有效性度量方式以及在實際中的應用等4個方面綜述基于目標函數的模糊聚類方法的研究進展. 有關傳統(tǒng)聚類分析以及其他的模糊聚類方法的系統(tǒng)總結可參見文獻[1,7~10].
1 模糊聚類目標函數的演化
模糊聚類問題可以用數學語言描述為:把一組給定的模式O={o1,o2,…,on}劃分為c個模糊子集(聚類)S1,S2,…,Sc. 如果用μik(1≤i≤c,
1≤k≤n)表示模式ok隸屬于模糊子集Si的程度,那么就得到了這組模式的模糊c-劃分U={μik|1≤i≤c,
1≤k≤n}. 完成這樣一組無類別標記模式集模糊劃分的操作就是模糊聚類分析.為了獲得有意義的分類,需要定義劃分的準則,如相似性或相異性準則D(.)等. 假定每個模糊子集Si(1≤i≤c)都有一個典型模式pi,常被稱做聚類原型,這樣任一模式ok與模糊子集Si的相似性可以通過模式ok與聚類原型pi間的失真度dik=D(ok,pi)來度量.
基于目標函數的模糊聚類主要是利用模式集O的觀測值X={x1,x2,…,xn}Rs與原型特征值B={βi,
1≤i≤c}之間的距離構造一個目標函數,然后通過優(yōu)化這一帶約束的非線性規(guī)劃問題獲得最佳的模糊c-劃分:
(1)
其中,ζ為懲罰項,f(μik)∈C為約束條件,m為加權指數. 這樣,模糊聚類的目標函數就由參量集{U,D(.),B,m,X}而確定. 對應于這些參量,模糊聚類目標函數的發(fā)展演化可以從以下5個大的方面來概括.
1.1 對模糊劃分矩陣U的研究
傳統(tǒng)的聚拎分析為一種硬劃分,μi(xk)∈{0,1}為樣本xk類屬的指示函
數,而類別標記矢量μ(xk)=(μ1k,μ2k,…,μck)T則成為歐氏c-空間的基矢量. 為了表達模式間的相近信息,Ruspini[3]引入了模糊劃分的概念,令μi(xk)∈[0,1],把標記矢量μ(xk)擴展為歐氏c-空間中的超平面 ,這樣標記矢量既可稱做模糊標記又可稱為概率標記. 由于存在概率約束,使得隸屬函數只能表示模式在模糊類間的分享程度,而不能反映典型性,為此Krishnapuram等人[11]提出可能性c-劃分的概念,放松了概率約束 ,從而使標記矢量μ(xk)
變?yōu)槌ピc的單位超立方體. 由此而產生的可能性聚類算法具有良好的抗噪性能,但收斂速度慢,容易陷入局部極值點而得不到最優(yōu)分類. 為了結合傳統(tǒng)硬聚
類的收斂速度和模糊聚類的對初始化不敏感(獲得全局最優(yōu)解的概率大)而且能反映樣本間相近信息等優(yōu)點,Selim和Ismail[12]提出了半模糊劃分的概念,只保留劃分矩陣中較模糊的元素,其余的元素作去模糊處理. 這樣使劃分矩陣U既具有一定的明晰性,又保持了樣本在空間分布的模糊性,從而提高了分類識別的正確性. 后來,Kamel等人[13]以及裴繼紅等人[14]分別從不同的角度提出了改進型的半模糊劃分方法,即為閾值型軟聚類算法和截集模糊軟聚類算法. 上述幾種軟劃分的比較顯示在表1中.
表1 4種空間劃分概念的比較
|