數(shù)據(jù)挖掘?qū)嵺`談:哪些算法的使用率較高
美國2006年機器學習和知識發(fā)現(xiàn)年會中的現(xiàn)場投票結(jié)果可以給我們一點線索。下圖是最近12個月中使用各種算法的人次(共203人投票)。 決策樹 Decision Trees/Rules (127) 62.60% 回歸 Regression (104) 51.20% 聚類 Clustering (102) 50.20% 描述性統(tǒng)計分析 Statistics (descriptive) (94) 46.30% 可視技術(shù)Visualization (66) 32.50% 關(guān)聯(lián)法則 Association rules (53) 26.10% 時序 Sequence/Time series analysis (35) 17.20% 神經(jīng)網(wǎng)絡 Neural Nets (35) 17.20% 支持向量機 SVM (32) 15.80% 貝葉斯 Bayesian (32) 15.80% Boosting (30) 14.80% 近鄰 Nearest Neighbor (26) 12.80% 模型合成 Hybrid methods (24) 11.80% 其它 Other (23) 11.30% 遺傳算法Genetic algorithms (23) 11.30% Bagging (22) 10.80% 由于是自愿投票,對投票人的背景,行業(yè),和工作領(lǐng)域沒有任何控制,因此這個結(jié)果在代表性方面當然是不夠完整的。但是,我們還是可以通過這個調(diào)查粗略了解到目前數(shù)據(jù)挖掘算法的使用態(tài)勢??偟膩碚f,用于分類和預測的決策樹和回歸算法,以及用于描述的聚類分析占有主導地位。對于有志于從事數(shù)據(jù)挖掘的畢業(yè)生和專業(yè)人士來說,掌握和精通這幾種算法有最廣闊的應用前景。 決策樹和邏輯回歸從技術(shù)角度看,都不是太高深的算法。但是能得到普遍的應用,說明它們在解決不同行業(yè),不同領(lǐng)域中的數(shù)據(jù)挖掘問題上都有很好的功效,說明企業(yè)的管理人員對這些算法的接受程度較好;也反映了企業(yè)擁有的數(shù)據(jù)并不是復雜到非需要高深的算法才可以對付的程度。此外不可忽略的是,這些算法在計算速度上有一定優(yōu)勢。 |
|
來自: 石頭狗 > 《數(shù)據(jù)挖掘》