乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      【R分享|實(shí)戰(zhàn)】LDA 線性判別分析

       科白君 2021-12-19



       No one konws everything, and you don't have to.”   --科白君


      "R數(shù)據(jù)分析"專題·第22篇
        編輯 |Linnaea borealis 
        4502字 | 14分鐘閱讀

      本期推送內(nèi)容
      之前我們分享了不少降維相關(guān)的分析方法,例如PCoA,NMDS,PCA分析,它們都是無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)指我們事先沒有任何訓(xùn)練樣本,直接對(duì)數(shù)據(jù)進(jìn)行建模。無監(jiān)督學(xué)習(xí)的主要算法是聚類,聚類目的在于把相似的東西聚在一起,主要通過計(jì)算樣本間和群體間距離得到。與之相對(duì)的便是有監(jiān)督學(xué)習(xí),它通過已有的訓(xùn)練樣本得到一個(gè)最優(yōu)模型,再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對(duì)輸出進(jìn)行簡(jiǎn)單的判斷從而實(shí)現(xiàn)預(yù)測(cè)和分類。在這一期我們將與大家分享有監(jiān)督學(xué)習(xí)中LDA分析的基本知識(shí),以及如何在R語(yǔ)言中實(shí)現(xiàn)LDA分析與預(yù)測(cè)。

      01

      線性判別分析(LDA)的基本介紹


      本期內(nèi)容提到的LDA分析全稱是Linear discriminant Analysis,即線性判別分析。最早由Fisher在1936年提出,多用于數(shù)據(jù)降維以及分類預(yù)測(cè),例如:①根據(jù)給出的性狀指標(biāo),區(qū)分物種類別。②判斷一個(gè)人信用標(biāo)準(zhǔn)的好壞,③判斷學(xué)生是否能被高校錄取。LDA與回歸分析類似,但它的解釋變量是分類的而不是連續(xù)的。LDA的中心思想可以用一句話概括:"投影后類內(nèi)方差最小,類間方差最大",換句話說就是我們將不同種類的高維數(shù)據(jù)投影到低維度上,希望投影結(jié)果中相同種類數(shù)據(jù)的投影點(diǎn)盡可能接近,而不同種類數(shù)據(jù)的中心點(diǎn)盡可能遠(yuǎn)離。

      如下圖所示的藍(lán)紅兩類數(shù)據(jù),我們?cè)噲D將他們投影到一維上,保證同類相近,不同類分離。仔細(xì)觀察兩種投影方案,我們可以發(fā)現(xiàn)第二種方案的投影效果要比第一種好,因?yàn)樗粌H將兩類數(shù)據(jù)完全分離開,且二者在自己的位置更為集中。以上就是LDA的主要思想了,在實(shí)際應(yīng)用中,我們的數(shù)據(jù)是多個(gè)類別的,我們的原始數(shù)據(jù)一般也是超過二維的,投影后的也一般不是直線,而是一個(gè)低維的超平面。

      相比于DA(判別分析),LDA突出的是“Linear(線性)”,它試圖按預(yù)先分類找到能夠分離總體樣本的最佳線性組合(函數(shù))。

      Z便是上文中提到最佳線性函數(shù)。

      02

      LDA與PCA的異同點(diǎn)


      作為常用的線性降維方法,LDA與PCA有很多異同點(diǎn)。LDA是有監(jiān)督的降維方法,在降維時(shí)它會(huì)考慮已知的分類關(guān)系,通過線性判別式區(qū)分出一系列類別間的差異,而PCA是無監(jiān)督的降維方法,它在降維時(shí)不關(guān)注數(shù)據(jù)的分組,目的是找到代表數(shù)據(jù)集方差最大化方向的一系列正交的主成分軸。可能有點(diǎn)抽象,我們可以根據(jù)以下圖像來評(píng)估在不同分布的數(shù)據(jù)中LDA與PCA的表現(xiàn)。

      LDA傾向于分類性能最好的投影方向,而PCA選擇樣本點(diǎn)投影具有最大方差的方向。當(dāng)兩組數(shù)據(jù)方差大小相近時(shí),LDA的分類性能優(yōu)于PCA。


      在某些方面,如每類數(shù)據(jù)中涉及的對(duì)象數(shù)量相對(duì)較少或是均值相近時(shí),PCA的性能反而優(yōu)于LDA。


      03

      LDA在R語(yǔ)言中的實(shí)現(xiàn)


      在使用LDA分析之前,我們得清楚它的幾點(diǎn)假設(shè):

      1) 樣本量容量:樣本量應(yīng)該超過自變量的數(shù)目。根據(jù)經(jīng)驗(yàn),對(duì)于少數(shù)(4或5)個(gè)自變量,樣本量應(yīng)該超過20。假如樣本容量為n,那自變量數(shù)目應(yīng)小于n-2。雖然這種低樣本量可能有效,但通常不鼓勵(lì)這樣做,最好有4~5倍的樣本量。

      2) 正態(tài)分布:測(cè)試數(shù)據(jù)最好符合多元正態(tài)分布。你可以用頻率分布的直方圖或者mshapiro.test()函數(shù)對(duì)測(cè)試數(shù)據(jù)進(jìn)行檢驗(yàn)。對(duì)于LDA來說,正態(tài)分布并不是必須的,如果非正態(tài)性并不是由異常值引起的,那么結(jié)果仍然是可靠的。

      3) 方差齊次:LDA對(duì)方差-協(xié)方差矩陣的異質(zhì)性非常敏感。在接受一項(xiàng)重要研究的最終結(jié)論之前,最好回顧一下組內(nèi)方差和相關(guān)性矩陣??梢杂蒙Ⅻc(diǎn)圖來檢驗(yàn)方差齊性,使用數(shù)據(jù)轉(zhuǎn)換方式來修正非其次。

      我將從機(jī)器學(xué)習(xí)的角度介紹LDA的功能,首先將數(shù)據(jù)集分為兩部分,一部分作為訓(xùn)練集構(gòu)建LDA分類預(yù)測(cè)模型,一部分作為測(cè)試集評(píng)估預(yù)測(cè)模型的精確性。我們使用R中自帶的iris數(shù)據(jù)集,數(shù)據(jù)集內(nèi)包含 3 類共 150 條記錄,每類各 50 個(gè)數(shù)據(jù),每條記錄都有 4 項(xiàng)特征:花萼(Sepal)長(zhǎng)度、花萼寬度、花瓣(Petal)長(zhǎng)度、花瓣寬度,可以通過這4個(gè)特征預(yù)測(cè)鳶尾花卉屬于(setosa, versicolour, virginica)中的哪一品種。而LDA可以通過預(yù)先提供的品種分類,對(duì)特征數(shù)據(jù)進(jìn)行降維投影。

      library(MASS)
      library(ggplot2)
      #iris <- scale(iris[,1:4]) #對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
      set.seed(1)#設(shè)置種子保證(包含隨機(jī)函數(shù)的)代碼結(jié)果可重復(fù)
      trainset<- sample(rownames(iris),nrow(iris)*0.7) #隨機(jī)抽取訓(xùn)練集
      traindata<- subset(iris, rownames(iris) %in% trainset) #區(qū)分訓(xùn)練級(jí)與測(cè)試集數(shù)據(jù)
      testdata<- subset(iris, !rownames(iris) %in% trainset)

      ldamodel<- lda(traindata, Species~.)
      ldamodel


      ①:Coefficents of linear discriminants 是每個(gè)分類變量的線性判別系數(shù),可以根據(jù)線性函數(shù)表達(dá)式Z=b1x1+b2x2+ b3x3+ b4x4生成得到用于LDA分類決策的線性回歸組合。例如LD1 = 0.828*Sepal.Length + 1.438*Sepal.Width - 2.179*Petal.Length - 2.656*Petal.Width,可在降維后預(yù)測(cè)訓(xùn)練集的分類

      ②:Proportion of trace,類似于PCA中的“方差解釋率”,可用于評(píng)估LDA各軸的重要性。

      graphset<- cbind(trainset, predict(ldamodel)$x)#通過predict函數(shù)獲得數(shù)據(jù)集通過LDA的投影點(diǎn)坐標(biāo)并構(gòu)建繪圖數(shù)據(jù)集
      ggplot(graphset, aes(LD1,LD2)+
      geom_point+
      theme_bw()+
      theme(panel.grid.major = element_blank(),
            panel.grid.minor = element_blank())+
      stat_ellipse(level = 0.95)+
      xlab("LDA1(99.2%)")+ ylab("LDA2(0.8%)")#Proportion of trace

      根據(jù)圖片可以看出,LDA投影的第一軸將訓(xùn)練數(shù)據(jù)集區(qū)分的效果最好,接下來讓我們來檢驗(yàn)?zāi)P蛯?duì)訓(xùn)練集和測(cè)試集分類的精確度。

      predictions <- predict(ldamodel, traindata)
      mean(predictions$class == traindata$Species)

      Predictions<- predict(ldamodel, testdata)
      mean(predictions$class == testdata$Species)

      在沒有對(duì)模型進(jìn)行優(yōu)化的情況下,訓(xùn)練集97%的對(duì)象能被分類到正確的類別中,而測(cè)試集中所有的對(duì)象都匹配到正確的類別中,說明LDA分類模型的精確度是相當(dāng)可靠的。我們證明了LDA分類的可信度,現(xiàn)在就可以試著用它來對(duì)數(shù)據(jù)集進(jìn)行降維分類了。

      library(tidyverse)
      lda<- lda(Species~.,iris) %>%
          predict()
      cbind(iris,lda$x) %>%
          ggplot(.,aes(LD1, LD2,color=Species)) +
          geom_point()+
          theme_bw()+
          theme(panel.grid.major = element_blank(),
                panel.grid.minor = element_blank())+
      stat_ellipse(level = 0.95)+
      xlab("LDA1(99.12%)")+ ylab("LDA2(0.88%)")

      04

      LDA進(jìn)行預(yù)測(cè)分類


      既然知道了LDA可以根據(jù)預(yù)先提供的分類信息準(zhǔn)確地對(duì)數(shù)據(jù)集進(jìn)行分類,那我們是否可以用a數(shù)據(jù)集中的分類特征訓(xùn)練機(jī)器學(xué)習(xí)模型,再使用模型去預(yù)測(cè)具有相同分類特征的b數(shù)據(jù)集呢?

      library(mlr)
      test<- makeClassifTask(data=iris, target = "Species") #訓(xùn)練lda機(jī)器學(xué)習(xí)模型
      lda <- makeLearner("classif.lda")
      ldaModel <- train(lda, test)
      LdaModelResult <- getLearnerModel(ldaModel)

      #LdaPreds <- predict(LdaModelResult)$x
      #head(LdaPreds) #正常的lda降維分
      kFold <- makeResampleDesc(method = "RepCV", folds = 10, reps = 50,
                                stratify = TRUE)
      ldaCV <- resample(learner = lda, task = test, resampling = kFold,
                        measures = list(mmce, acc))#10倍交叉檢驗(yàn),檢驗(yàn)?zāi)P途_度


      交叉驗(yàn)證的結(jié)果顯示模型的準(zhǔn)確度達(dá)到98%

      newcase<- tibble(Sepal.Length= runif(50,min=4,max=8),
                       Sepal.Width= runif(50,min=2,max=4.5),
                       Petal.Length= runif(50,min=1,max=7),
                       Petal.Width= runif(50,min=0,max=2.5))#創(chuàng)建新的待測(cè)數(shù)據(jù)集

      case<- predict(ldaModel,newdata = newcase)#預(yù)測(cè)數(shù)據(jù)集結(jié)果
      case$data

      參考鏈接:

      https://blog.sciencenet.cn/blog-661364-961033.html

      https://mp.weixin.qq.com/s/nhfF70wiJHBw0IvYevcrfQ

      https://mp.weixin.qq.com/s/Wsst2nLKu1xGNi0XN7iSBA

      https://www.cnblogs.com/pinard/p/6244265.html

      https://zhuanlan.zhihu.com/p/25595297

      如果有什么問題想要討論可以加群交流。

      方法如下:

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多