01 前言 在數(shù)據(jù)領(lǐng)域,特別是數(shù)據(jù)挖掘中,對于預(yù)測類分析,線性回歸、分類算法以及聚類算法是最經(jīng)常用的三種算法。它們的區(qū)別是哪呢? 首先線性回歸針對的目標(biāo)變量是連續(xù)型或有序值,往往用來對未來的銷量/利潤等等的預(yù)測。而分類和聚類針對的目標(biāo)變量是離散型或類屬標(biāo)號,是用來對未知類別的分類,其中,分類是屬于有監(jiān)督學(xué)習(xí),而聚類則是屬于無監(jiān)督學(xué)習(xí)。 02 分類 分類的模型訓(xùn)練為:訓(xùn)練數(shù)據(jù) → 分類算法 → 分類規(guī)則。其中,分類算法包括有:①決策樹;②貝葉斯;③神經(jīng)網(wǎng)絡(luò)... 決策樹分析是較為常用的分類算法,最早的是ID3算法,后面逐漸優(yōu)化到C4.5,以及C5.0算法。區(qū)別是在于決策樹的修剪。 本文介紹的是用決策樹分析算法,通過Excel的建模來簡單介紹這個分類算法。 >>>案例數(shù)據(jù) 下圖為我們的數(shù)據(jù),其中E列【是否打球】則為我們的目標(biāo)變量。 >>>操作步驟 1. 計算整個樣本集的信息熵,公式為: 2. 計算出各類屬性的信息增益,信息增益的公式為 Gain(S/A)=E(S)-E(A)。本例中有4個因子屬性,因此分別求出四個信息增益。 3.接下來對信息增益進(jìn)行排序。 從結(jié)果可以看出,Gain(天氣)
> Gain(濕度)
> Gain(是否有風(fēng))
> Gain(溫度),所以選擇天氣作為第一層分支節(jié)點。對于其每一個分支,重復(fù)前面三步,直至決策樹生成完畢。 以上是ID3的算法,則依次求出所有分支,直到?jīng)Q策樹全部構(gòu)建完全。而如果使用了C5.0算法,則是用信息增益比例來進(jìn)行排序,對應(yīng)某些比例較低的分支將做減枝,以此提高效率。 比如下圖則為C5.0算法得出的決策樹。 03 聚類 聚類是將一組對象中距離近的或者相似度高的分在一組,實現(xiàn)簇間距離最大化,簇內(nèi)距離最小化。聚類是完全按照數(shù)據(jù)的分布進(jìn)行類別劃分,沒有任何指導(dǎo)信息,大小和解構(gòu)也都沒有事先設(shè)定。 聚類類型算法也很多,最典型的是K-Means算法(K均值)。本文也是用最簡單的數(shù)據(jù)來建模,嘗試?yán)斫釱-Means聚類方法。 >>> 案例數(shù)據(jù) 這里使用的是簡單的樣本數(shù)據(jù)。本身的數(shù)據(jù)也是有很明顯的聚類效果。 >>> 操作步驟 1.我們先用A點為聚點,求出歐式距離d。距離公式為: 2.根據(jù)距離d,求出平均值,然后根據(jù)平均值高低來分簇,如C1,C2 3. 這個時候,我們引用C1,C2的數(shù)據(jù)插入圖形,便可以得到圖形。 4.上述是第一次聚類。接下來對C1,C2組內(nèi)的x,y求均值得到聚點C11,C12。同樣求出各點到C11,C12的距離。 5.同理,也根據(jù)距離來排序,分簇。最終用得到分簇的結(jié)果與第一次分簇結(jié)果來校驗是否一致。 從上面結(jié)果,我們可以看出兩次分簇的結(jié)果是一致的。 04 最后 當(dāng)然,在實際工作生活中,真正面對的數(shù)據(jù)是很復(fù)雜的。一般使用的是統(tǒng)計軟件SAS, SPSS來輔助生成結(jié)果。本文淺嘗即止,所采用的樣本數(shù)據(jù)簡單且明顯,故使用Excel建模即可生成。 |
|