1 判別分析 1. 定義 根據(jù)已掌握的一批分類明確的樣品建立判別函數(shù),使產(chǎn)生錯(cuò)判的事例最少,進(jìn)而對(duì)給定的一個(gè)新樣品,判斷它來自哪個(gè)總體。 2. 與聚類分析區(qū)別 聚類分析的知識(shí)我們?cè)诘谝徊糠忠呀?jīng)提到了→『統(tǒng)計(jì)學(xué) x 數(shù)據(jù)分析』常用方法盤點(diǎn) Part.1
3. 進(jìn)行分類 Fisher判別分析法
BAYES判別分析法 BAYES判別分析法比FISHER判別分析法更加完善和先進(jìn),它不僅能解決多類判別分析,而且分析時(shí)考慮了數(shù)據(jù)的分布狀態(tài),所以一般較多使用。 2 時(shí)間序列分析 動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律,以用于解決實(shí)際問題;時(shí)間序列通常由4種要素組成:趨勢(shì)、季節(jié)變動(dòng)、循環(huán)波動(dòng)和不規(guī)則波動(dòng)。 主要方法:移動(dòng)平均濾波與指數(shù)平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型 時(shí)間序列是指同一變量按事件發(fā)生的先后順序排列起來的一組觀察值或記錄值。構(gòu)成時(shí)間序列的要素有兩個(gè):
實(shí)際數(shù)據(jù)的時(shí)間序列能夠展示研究對(duì)象在一定時(shí)期內(nèi)的發(fā)展變化趨勢(shì)與規(guī)律,因而可以從時(shí)間序列中找出變量變化的特征、趨勢(shì)以及發(fā)展規(guī)律,從而對(duì)變量的未來變化進(jìn)行有效地預(yù)測(cè)。 時(shí)間序列的變動(dòng)形態(tài)一般分為四種:長期趨勢(shì)變動(dòng),季節(jié)變動(dòng),循環(huán)變動(dòng),不規(guī)則變動(dòng)。 1. 時(shí)間序列預(yù)測(cè)法的應(yīng)用 系統(tǒng)描述:根據(jù)對(duì)系統(tǒng)進(jìn)行觀測(cè)得到的時(shí)間序列數(shù)據(jù),用曲線擬合方法對(duì)系統(tǒng)進(jìn)行客觀的描述 系統(tǒng)分析:當(dāng)觀測(cè)值取自兩個(gè)以上變量時(shí),可用一個(gè)時(shí)間序列中的變化去說明另一個(gè)時(shí)間序列中的變化,從而深入了解給定時(shí)間序列產(chǎn)生的機(jī)理 預(yù)測(cè)未來:一般用ARMA模型擬合時(shí)間序列,預(yù)測(cè)該時(shí)間序列未來值 決策和控制:根據(jù)時(shí)間序列模型可調(diào)整輸入變量使系統(tǒng)發(fā)展過程保持在目標(biāo)值上,即預(yù)測(cè)到過程要偏離目標(biāo)時(shí)便可進(jìn)行必要的控制 2. 特點(diǎn)
(1)時(shí)間序列分析預(yù)測(cè)法是根據(jù)市場(chǎng)過去的變化趨勢(shì)預(yù)測(cè)未來的發(fā)展,它的前提是假定事物的過去會(huì)同樣延續(xù)到未來。 (2)時(shí)間序列分析預(yù)測(cè)法突出了時(shí)間因素在預(yù)測(cè)中的作用,暫不考慮外界具體因素的影響。 3 生存分析 用來研究生存時(shí)間的分布規(guī)律以及生存時(shí)間和相關(guān)因索之間關(guān)系的一種統(tǒng)計(jì)分析方法 1. 包含內(nèi)容
2. 方法 統(tǒng)計(jì)描述 包括求生存時(shí)間的分位數(shù)、中數(shù)生存期、平均數(shù)、生存函數(shù)的估計(jì)、判斷生存時(shí)間的圖示法,不對(duì)所分析的數(shù)據(jù)作出任何統(tǒng)計(jì)推斷結(jié)論 非參數(shù)檢驗(yàn) 檢驗(yàn)分組變量各水平所對(duì)應(yīng)的生存曲線是否一致,對(duì)生存時(shí)間的分布沒有要求,并且檢驗(yàn)危險(xiǎn)因素對(duì)生存時(shí)間的影響。
半?yún)?shù)橫型回歸分析 在特定的假設(shè)之下,建立生存時(shí)間隨多個(gè)危險(xiǎn)因素變化的回歸方程,這種方法的代表是Cox比例風(fēng)險(xiǎn)回歸分析法 參數(shù)模型回歸分析 已知生存時(shí)間服從特定的參數(shù)橫型時(shí),擬合相應(yīng)的參數(shù)模型,更準(zhǔn)確地分析確定變量之間的變化規(guī)律 4 典型相關(guān)分析 相關(guān)分析一般分析兩個(gè)變量之間的關(guān)系,而典型相關(guān)分析是分析兩組變量(如3個(gè)學(xué)術(shù)能力指標(biāo)與5個(gè)在校成績表現(xiàn)指標(biāo))之間相關(guān)性的一種統(tǒng)計(jì)分析方法。 典型相關(guān)分析的基本思想和主成分分析的基本思想相似,(主成分分析知識(shí)→『統(tǒng)計(jì)學(xué)』最常用的數(shù)據(jù)分析方法都在這了!Part.2)它將一組變量與另一組變量之間單變量的多重線性相關(guān)性研究轉(zhuǎn)化為對(duì)少數(shù)幾對(duì)綜合變量之間的簡單線性相關(guān)性的研究,并且這少數(shù)幾對(duì)變量所包含的線性相關(guān)性的信息幾乎覆蓋了原變量組所包含的全部相應(yīng)信息。 5 R0C分析 R0C曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標(biāo),假陽性率(1-特異度)為橫坐標(biāo)繪制的曲線。 用途:
6 其他分析方法 多重響應(yīng)分析、距離分析、項(xiàng)目分析、對(duì)應(yīng)分析、決策樹分析、神經(jīng)網(wǎng)絡(luò)、系統(tǒng)方程、蒙特卡洛模擬等。 決策樹分析與隨機(jī)森林:盡管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機(jī)森林,解決決策樹泛化能力弱的缺點(diǎn)。(可以理解成三個(gè)臭皮匠頂過諸葛亮) 決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。 由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。 在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。 分類樹(決策樹)是一種十分常用的分類方法。他是一種監(jiān)管學(xué)習(xí),所謂監(jiān)管學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。 優(yōu)點(diǎn) 決策樹易于理解和實(shí)現(xiàn),人們?cè)谠趯W(xué)習(xí)過程中不需要使用者了解很多的背景知識(shí),這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過解釋后都有能力去理解決策樹所表達(dá)的意義。 對(duì)于決策樹,數(shù)據(jù)的準(zhǔn)備往往是簡單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達(dá)式。 缺點(diǎn)
|
|