各種算法對比以及各自的優(yōu)缺點

昵稱35641324 2021-02-28

展開全文

詳細(xì)：https://www./question/big/kp_id/23/ques_id/2533

貝葉斯分類法

優(yōu)點：
對小規(guī)模的數(shù)據(jù)表現(xiàn)良好，適合多分類任務(wù)，適合增量式訓(xùn)練
1）所需估計的參數(shù)少，對于缺失數(shù)據(jù)不敏感。
2）有著堅實的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。

缺點：
對輸入數(shù)據(jù)的表達(dá)形式很敏感
1）假設(shè)屬性之間相互獨立，這往往并不成立。（喜歡吃番茄、雞蛋，卻不喜歡吃番茄炒蛋）。
2）需要知道先驗概率。
3）分類決策存在錯誤率。

決策樹

信息熵的計算公式：
H = ? ∑ i = 1 n p ( x i ) l o g 2 ( p ( x i ) ) H=-\sum_{i=1}^np(x_i)log_2(p(x_i)) H=?i=1∑np(xi)log2(p(xi))

優(yōu)點：
計算量簡單，可解釋性強，比較適合處理有缺失屬性值的樣本，能夠處理不相關(guān)的特征；
1）不需要任何領(lǐng)域知識或參數(shù)假設(shè)。
2）適合高維數(shù)據(jù)。
3）簡單易于理解。
4）短時間內(nèi)處理大量數(shù)據(jù)，得到可行且效果較好的結(jié)果。
5）能夠同時處理數(shù)據(jù)型和常規(guī)性屬性。

缺點：
1）對于各類別樣本數(shù)量不一致數(shù)據(jù)，信息增益偏向于那些具有更多數(shù)值的特征。
2）易于過擬合。
3）忽略屬性之間的相關(guān)性。
4）不支持在線學(xué)習(xí)。

支持向量機（SVM）

損失函數(shù)：Hinge loss
優(yōu)點：
1）可以解決小樣本下機器學(xué)習(xí)的問題。
2）提高泛化性能。
3）可以解決高維、非線性問題。超高維文本分類仍受歡迎。
4）避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。

缺點：
1）對缺失數(shù)據(jù)敏感。
2）內(nèi)存消耗大，難以解釋。
3）運行和調(diào)差略煩人。

K近鄰

優(yōu)點：
1）思想簡單，理論成熟，既可以用來做分類也可以用來做回歸；
2）可用于非線性分類；
3）訓(xùn)練時間復(fù)雜度為O(n)；
4）準(zhǔn)確度高，對數(shù)據(jù)沒有假設(shè)，對outlier不敏感；

缺點：
1）計算量太大
2）對于樣本分類不均衡的問題，會產(chǎn)生誤判。
3）需要大量的內(nèi)存。
4）輸出的可解釋性不強。

Logistic回歸

Logistic是用來分類的，是一種線性分類器
1、logistic函數(shù)表達(dá)式：
在這里插入圖片描述
其導(dǎo)數(shù)為 g ( z ) = g ( z ) ( 1 ? g ( z ) ) g(z)=g(z)(1-g(z)) g(z)=g(z)(1?g(z));

2、logisstic回歸方法主要是用最大似然估計來學(xué)習(xí)的
單個樣本的后驗概率為：
在這里插入圖片描述
整個樣本的后驗概率為：

其中：

化簡 L ( θ ) L(\theta) L(θ):

3、損失函數(shù)： ? l ( θ ) -l(\theta) ?l(θ)
我們要使損失函數(shù)最小，使用梯度下降法
在這里插入圖片描述
logistic求解 θ \theta θ，可以使用梯度下降， α \alpha α為學(xué)習(xí)率：
θ j : θ j + α ( y ( i ) ? h 0 ( x i ) ) x j ( i ) \theta_j: \theta_j+\alpha(y^{(i)}-h_0{(x^i)})x_j^{(i)} θj:θj+α(y(i)?h0(xi))xj(i)

優(yōu)點：
實現(xiàn)簡單，計算量小
1）速度快。
2）簡單易于理解，直接看到各個特征的權(quán)重。
3）能容易地更新模型吸收新的數(shù)據(jù)。
4）如果想要一個概率框架，動態(tài)調(diào)整分類閥值。

缺點：
容易欠擬合，準(zhǔn)確度不高
只能處理兩分類問題，且必須線性可分（在此基礎(chǔ)上衍生出來的softmax可以用于多分類）
特征處理復(fù)雜。需要歸一化和較多的特征工程。

神經(jīng)網(wǎng)絡(luò)
優(yōu)點：
1）分類準(zhǔn)確率高。
2）并行處理能力強。
3）分布式存儲和學(xué)習(xí)能力強。
4）魯棒性較強，不易受噪聲影響。

缺點：
1）需要大量參數(shù)（網(wǎng)絡(luò)拓?fù)?、閥值、閾值）。
2）結(jié)果難以解釋。
3）訓(xùn)練時間過長。

Adaboost

損失函數(shù)：指數(shù)損失
優(yōu)點：
1）adaboost是一種有很高精度的分類器。
2）可以使用各種方法構(gòu)建子分類器，Adaboost算法提供的是框架。
3）當(dāng)使用簡單分類器時，計算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡單。
4）簡單，不用做特征篩選。
5）不用擔(dān)心overfitting。

缺點：
對outlier比較敏感

參考：https://blog.csdn.net/timcompp/article/details/61209027