乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      聚類分析

       Ethan的博客 2011-09-10

      §3.4 系統(tǒng)聚類分析方法
      聚類分析是研究多要素事物分類問題的數(shù)量方法?;驹硎歉鶕?jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進(jìn)行聚類。
      常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。
      1. 聚類要素的數(shù)據(jù)處理
      假設(shè)有m 個聚類的對象,每一個聚類對象都有個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用 表3.4.1給出。(點擊顯示該表) 在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。

      ① 總和標(biāo)準(zhǔn)化
      聚類分析
      ② 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化
          聚類分析
      ③ 極大值標(biāo)準(zhǔn)化
      聚類分析
      經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。
      ④ 極差的標(biāo)準(zhǔn)化
      聚類分析
      經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。



      2. 距離的計算
      距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。
      ① 絕對值距離
      聚類分析
      選擇不同的距離,聚類結(jié)果會有所差異。在地理分區(qū)和分類研究中,往往采用幾種距離進(jìn)行計算、對比,選擇一種較為合適的距離進(jìn)行聚類。

      [舉例說明](點擊打開顯示該例)


      3. 直接聚類法
      直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果。
      ▲ 基本步驟:
      ① 把各個分類對象單獨視為一類;② 根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;③ 如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;④ 那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。
      ★ 直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失。因此,直接聚類法并不是最好的系統(tǒng)聚類方法。
      [舉例說明](點擊打開新窗口,顯示該內(nèi)容)


      4. 最短距離聚類法
      最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式
      聚類分析
      計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。
      [舉例說明](點擊打開新窗口,顯示該例)


      5. 最遠(yuǎn)距離聚類法
      最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。
      最遠(yuǎn)距離聚類法的計算公式:
      聚類分析
      [舉例說明](點擊打開新窗口,顯示該例)


      聚類分析


      6. 系統(tǒng)聚類法計算類之間距離的統(tǒng)一公式
      ▲ 最短距離聚類法具有空間壓縮性,而最遠(yuǎn)距離聚類法具有空間擴張性(圖3.4.4)。最短距離為 dAB=da1b1,最遠(yuǎn)距離為 dAB=dap2
      聚類分析
      ▲ 最短距離聚類法和最遠(yuǎn)距離聚類法關(guān)于類之間的距離計算可以用統(tǒng)一的式子表示:
      聚類分析
      當(dāng)γ= -1/2時,就是最短距離聚類法計算類間距離的公式;當(dāng)γ=1/2時,就是最遠(yuǎn)距離聚類法計算類間距離的公式。
      ▲ 系統(tǒng)聚類的方法還有:
      聚類分析

      表示了八種不同系統(tǒng)聚類方法計算類間距離的統(tǒng)一表達(dá)式(見表3.3.4)。
      聚類分析



      7. 系統(tǒng)聚類分析實例
      作為系統(tǒng)聚類分析方法的應(yīng)用實例,下面對中國大陸31個省級區(qū)域第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行類型劃分及差異性程度分析。
      1) 聚類指標(biāo)選擇
      選取如下7項指標(biāo)作為對中國第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行聚類分析的基礎(chǔ)指標(biāo):
      ① y1——人均GDP,反映經(jīng)濟社會發(fā)展的總體狀況和一般水平;
      ② y2——人均第三產(chǎn)業(yè)增加值,反映人均服務(wù)產(chǎn)品占有量或服務(wù)密度;
      ③ y3——第二產(chǎn)業(yè)增加值比重,反映工業(yè)化水平和產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)代化程度;
      ④ y4——第三產(chǎn)業(yè)增加值比重,反映第三產(chǎn)業(yè)的發(fā)展程度及其對國民經(jīng)濟的貢獻(xiàn);
      ⑤ y5——第三產(chǎn)業(yè)從業(yè)人員比重,反映第三產(chǎn)業(yè)對勞動力的吸納能力;
      ⑥ y6——第三產(chǎn)業(yè)固定資產(chǎn)投資比重,反映第三產(chǎn)業(yè)的資金投入程度;
      ⑦ y7——城市化水平,反映農(nóng)村人口轉(zhuǎn)化為城市人口的程度及對服務(wù)的需求量。
      聚類分析
      2) 聚類計算
      以 1999年國家統(tǒng)計局出版的《中國統(tǒng)計年鑒》(1998年度的數(shù)據(jù))為數(shù)據(jù)來源,運用上述7項指標(biāo)(表3.4.5) (點擊顯示該表),借助于統(tǒng)計分析軟件包SPSS10.0進(jìn)行聚類分析計算,計算過程如下:
      ① 用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對7項指標(biāo)的原始數(shù)據(jù)進(jìn)行處理。
      ② 采用歐氏距離測度31個?。ㄊ?、區(qū))之間的樣本間距離。
      ③ 選用組平均法計算類間的距離,并對樣本進(jìn)行歸類。
      經(jīng)過上述聚類計算步驟,得到的聚類結(jié)果見圖3.4.5。 (點擊在新窗口中顯示該圖)
      3.http://gs./statistics_web/course/jlfx_word.htm

      聚類分析

       

       3.傳統(tǒng)聚類分析

      聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領(lǐng)域,并提出了許多聚類算法。
      這些算法可以被分為劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和
      基于模型方法。
      1 劃分方法(PAM:PArtitioning method) 首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)
      定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:
      k-means,k-medoids,CLARA(Clustering LARge Application),
      CLARANS(Clustering Large Application based upon RANdomized Search).
      FCM,
      EM(Expectation Maximization):不將對象明顯地分到么個簇,而是根據(jù)表示隸書可能性的權(quán)來分配對象.

      2 層次方法(hierarchical method) 創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上
      而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合
      并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:
      第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結(jié)構(gòu)對對象集進(jìn)行

      劃分;然后再利
      用其它聚類方法對這些聚類進(jìn)行優(yōu)化。
      第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數(shù)目代表對象來表示相應(yīng)聚類;然后對各聚類按照指定
      量(向聚類中心)進(jìn)行收縮。
      第三個是ROCK方法,它利用聚類間的連接進(jìn)行聚類合并。
      最后一個CHEMALOEN,它則是在層次聚類時構(gòu)造動態(tài)模型。

      3 基于密度方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如
      DBSCAN)不斷增長聚類。典型的基于密度方法包括:GDBSCAN,DBCLASD,DENCLUE(DENsity-based CLUstEring)
      DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密
      度區(qū)域來進(jìn)行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義
      為一組“密度連接”的點集。
      OPTICS(Ordering Points To Identify the Clustering Structure):并不明確產(chǎn)生一
      個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。

      4 基于網(wǎng)格方法,首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利
      用網(wǎng)格結(jié)構(gòu)完成聚類。
      STING(STatistical INformation Grid) 就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進(jìn)行基
      于網(wǎng)格聚類的方法。
      CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基于網(wǎng)格與基于密度相結(jié)合的方
      法。

      5 基于模型方法,它假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的
      基于模型方法包括:

      統(tǒng)計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采
      用符號量(屬性-值)對來加以描述的。采用分類樹的形式來創(chuàng)建
      一個層次聚類。
      CLASSIT是COBWEB的另一個版本.。它可以對連續(xù)取值屬性進(jìn)行增量式聚
      類。它為每個結(jié)點中的每個屬性保存相應(yīng)的連續(xù)正態(tài)分布(均值與方差);并利
      用一個改進(jìn)的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)
      和而是對連續(xù)屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。
      因此它們都不適合對大數(shù)據(jù)庫進(jìn)行聚類處理.
      AutoClass:它采用貝葉斯統(tǒng)計分析來估算結(jié)果簇的數(shù)目.

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多