原文鏈接:http:///?p=7661為了在SAS中運(yùn)行隨機(jī)森林,我們必須使用PROC HPFOREST指定目標(biāo)變量,并概述天氣變量是“類(lèi)別”還是“定量”。為了進(jìn)行此分析,我們使用了目標(biāo)(Repsone變量),該目標(biāo)是分類(lèi)的(SAS語(yǔ)言中標(biāo)稱(chēng)的),如下面的圖像代碼中所描述的黃色和紅色: 運(yùn)行代碼后,我們得到了一系列表格,這些表格將詳細(xì)分析數(shù)據(jù)。例如,模型信息讓我們知道,隨機(jī)選擇了3個(gè)變量來(lái)測(cè)試每個(gè)節(jié)點(diǎn)或每個(gè)樹(shù)中可能的分割(黃色)。我們還可以看到,運(yùn)行的最大樹(shù)數(shù)為100,如藍(lán)色下劃線(xiàn)所示。 HPFOREST僅使用在任何觀察值下均沒(méi)有缺失記錄的有效變量。但是,我們還可以看到,在研究樣本的213個(gè)國(guó)家中,有213個(gè)被利用。 接下來(lái),我們可以看到模型生成帶有“基線(xiàn)擬合統(tǒng)計(jì)量”的表。就本研究中的數(shù)據(jù)而言,我們可以看到該模型識(shí)別出38%的誤分類(lèi),換句話(huà)說(shuō)是62%的準(zhǔn)確分類(lèi)。這表示大部分樣本已在每個(gè)隨機(jī)選擇的樣本中正確分類(lèi)。 在下表中分析森林時(shí),我們可以看到誤分類(lèi)率已經(jīng)達(dá)到了最低點(diǎn),這表明在OOB樣本中使用該模型進(jìn)行測(cè)試時(shí),誤分類(lèi)率僅在22%。 最后,我們看到SAS POC HPFOREST為我們提供了“損失減少變量的重要性”表。下表概述了每個(gè)變量如何有助于模型的可預(yù)測(cè)性的重要性等級(jí)。如下圖所示,酒精變量排名最高。 現(xiàn)在,以下內(nèi)容將幫助我們理解如何閱讀表格:
通過(guò)上面的練習(xí),我們可以看到隨機(jī)森林是一種數(shù)據(jù)挖掘算法,可以選擇重要的解釋變量,這些變量可以用于確定響應(yīng)變量(目標(biāo)變量)的分類(lèi)結(jié)果還是定量結(jié)果。此外,此練習(xí)還允許我們結(jié)合使用分類(lèi)變量和定量變量??傊?,這個(gè)森林讓我們知道哪些變量很重要,但彼此之間沒(méi)有關(guān)系。 |
|
來(lái)自: 拓端數(shù)據(jù) > 《待分類(lèi)》