r與python差異比較大的一個(gè)地方就是,python的機(jī)器學(xué)習(xí)算法集中程度比較高,比如sklearn,就集成了很多的算法,而R語言更多時(shí)候需要一個(gè)包一個(gè)包去了解,比較費(fèi)時(shí)費(fèi)力,對于python轉(zhuǎn)過來的朋友非常不友好,抽空整理了工作中常用的R包如下: 常用檢驗(yàn)函數(shù): 基本上分布中常見的都羅列了: 常用作圖函數(shù)包: ggplot2:萬能,基本上excel能畫的圖它都能畫 rattle:fancyRpartPlot函數(shù),決策樹畫圖函數(shù) 基礎(chǔ)包函數(shù):barplot、pie、dotchart、hist、densityplot、boxplot、contour等等 正態(tài)檢驗(yàn):qqplot、qqline、qqnorm 連續(xù)分類回歸模型: stats包 lm函數(shù),實(shí)現(xiàn)多元線性回歸;glm函數(shù),實(shí)現(xiàn)廣義線性回歸;nls函數(shù),實(shí)現(xiàn)非線性最小二乘回歸;knn函數(shù),k最近鄰算法 rpart包 rpart函數(shù),基于CART算法的分類回歸樹模型 randomForest包 randomForest函數(shù),基于rpart算法的集成算法 e1071包 svm函數(shù),支持向量機(jī)算法 kernlab包 ksvm函數(shù),基于核函數(shù)的支持向量機(jī) nnet包 nnet函數(shù),單隱藏層的神經(jīng)網(wǎng)絡(luò)算法 neuralnet包 neuralnet函數(shù),多隱藏層多節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)算法 RSNNS包 mlp函數(shù),多層感知器神經(jīng)網(wǎng)絡(luò);rbf函數(shù),基于徑向基函數(shù)的神經(jīng)網(wǎng)絡(luò) 離散分類回歸模型: stats包 glm函數(shù),實(shí)現(xiàn)Logistic回歸,選擇logit連接函數(shù) kknn包 kknn函數(shù),加權(quán)的k最近鄰算法 rpart包 rpart函數(shù),基于CART算法的分類回歸樹模型 adabag包bagging函數(shù),基于rpart算法的集成算法;boosting函數(shù),基于rpart算法的集成算法 party包c(diǎn)tree函數(shù),條件分類樹算法 RWeka包OneR函數(shù),一維的學(xué)習(xí)規(guī)則算法;JPip函數(shù),多維的學(xué)習(xí)規(guī)則算法;J48函數(shù),基于C4.5算法的決策樹 C50包C5.0函數(shù),基于C5.0算法的決策樹 e1071包naiveBayes函數(shù),貝葉斯分類器算法 klaR包NaiveBayes函數(shù),貝葉斯分類器算分 MASS包lda函數(shù),線性判別分析;qda函數(shù),二次判別分析 聚類:Nbclust包Nbclust函數(shù)可以確定應(yīng)該聚為幾類 stats包kmeans函數(shù),k均值聚類算法;hclust函數(shù),層次聚類算法 cluster包pam函數(shù),k中心點(diǎn)聚類算法 fpc包dbscan函數(shù),密度聚類算法;kmeansruns函數(shù),相比于kmeans函數(shù)更加穩(wěn)定,而且還可以估計(jì)聚為幾類;pamk函數(shù),相比于pam函數(shù),可以給出參考的聚類個(gè)數(shù) mclust包Mclust函數(shù),期望最大(EM)算法 關(guān)聯(lián)規(guī)則:arules包apriori函數(shù) Apriori關(guān)聯(lián)規(guī)則算法 recommenderlab協(xié)調(diào)過濾 DRM:重復(fù)關(guān)聯(lián) ECLAT算法: 采用等價(jià)類,RST深度搜索和集合的交集: eclat 降維算法: psych包prcomp函數(shù)、factanal函數(shù) 時(shí)序分析: ts時(shí)序構(gòu)建函數(shù) timsac包時(shí)序分析 holtwinter包時(shí)序分析 decomp、tsr、stl成分分解 zoo 時(shí)間序列數(shù)據(jù)的預(yù)處理 統(tǒng)計(jì)及預(yù)處理: 常用的包 Base R, nlme aov, anova 方差分析 density 密度分析 t.test, prop.test, anova, aov:假設(shè)檢驗(yàn) rootSolve非線性求根 reshape2數(shù)據(jù)預(yù)處理 plyr及dplyr數(shù)據(jù)預(yù)處理大殺器 最后剩下常用的就是讀入和寫出了: RODBC 連接ODBC數(shù)據(jù)庫接口 jsonlite 讀寫json文件 yaml 讀寫yaml文件 rmakdown寫文檔 knitr自動(dòng)文檔生成 一般業(yè)務(wù)中使用比較多的就是上面這些了,當(dāng)然R里面有很多冷門的包,也很好用滴~ |
|