乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      ?? ggmice | 用這只可愛的小老鼠來填補(bǔ)你的缺失值吧!~

       昵稱69125444 2023-11-16 發(fā)布于廣西

      1寫在前面

      我們?cè)谔幚頂?shù)據(jù)的時(shí)候常常會(huì)遇到存在缺失值(NA)的情況,如何處理就仁者見仁,智者見智了。??
      簡(jiǎn)單粗暴的方法可能就是行刪除法(listwise)或者個(gè)案刪除法(case-wise)了,這種方法在缺失值比較少的情況下比較適用,但在NA較多的情況下可能就會(huì)丟失過多信息導(dǎo)致無法繼續(xù)分析。??
      本期我們介紹一下mice包ggmice包這兩只可愛的小老鼠,全名Multivariate Imputation by Chained Equations, mice,即鏈?zhǔn)椒匠潭嘀靥钛a(bǔ)。??

      一張圖總結(jié)基本原理,嘿嘿。??

      圖片

      2用到的包

      rm(list = ls())
      library(tidyverse)
      library(mice)
      library(ggmice)

      3示例數(shù)據(jù)

      這里我們使用一下示例數(shù)據(jù)airquality,再在其中添加一些缺失值。

      dat <- airquality
      dat[4:9,3] <- rep(NA,6)
      dat[1:4,4] <- NA
      圖片

      4數(shù)據(jù)概覽

      4.1 缺失值查看

      這里面我們一共有6個(gè)變量,其中4個(gè)存在缺失值。??

      summary(dat)
      圖片

      4.2 缺失值可視化

      Note! ggmice提供了一種NA值的可視化方法,一目了然,nice! ??

      plot_pattern(dat,
      square = F,
      rotate = F)
      圖片

      4.3 influx-outflux plot

      這里和大家簡(jiǎn)單介紹一下這個(gè)influx-outflux plot,總的來說評(píng)估了缺失數(shù)據(jù)其他變量聯(lián)系程度。??
      一般來說,在建模時(shí),influx以及outflux越大越好。??

      plot_flux(dat,
      label = F,
      caption = F)
      圖片

      5可視化一下吧

      5.1 連續(xù)變量

      這里我們對(duì)連續(xù)變量缺失值進(jìn)行一下可視化,可以看到紅色的為缺失值。??

      ggmice(dat, aes(Ozone, Solar.R)) 
      geom_point()
      圖片

      5.2 分類變量

      接著我們對(duì)分類變量缺失值進(jìn)行一下可視化,紅色的為缺失值。??

      ggmice(dat, aes(Month, Solar.R))
      geom_point()
      圖片

      5.3 分面展示

      ggmice(dat, aes(Month, Solar.R))  
      geom_point()
      facet_wrap(~ Month == 5,
      # labeller = label_both
      )
      圖片

      6mice包填補(bǔ)缺失值

      6.1 填補(bǔ)缺失值

      在這里我們生成幾個(gè)填補(bǔ)缺失值后的數(shù)據(jù),m默認(rèn)是5,為了減小計(jì)算量,這里我設(shè)置成3。??
      Note! 可選method包括:??

      ? pmm,
      ? logreg,
      ? polyreg,
      ? polr

      imp <- mice(dat, m = 3, method = 'pmm')
      圖片

      6.2 連續(xù)變量缺失值填補(bǔ)后可視化

      我們?cè)倏匆幌绿钛a(bǔ)缺失值后的散點(diǎn)圖吧,紅色的為缺失值填補(bǔ)后。??

      ggmice(imp, aes(Ozone, Solar.R)) 
      geom_point()
      圖片

      6.3 分類變量缺失值填補(bǔ)后可視化

      ggmice(imp, aes(Month, Solar.R))
      geom_point()
      圖片

      6.4 分面展示

      ggmice(dat, aes(Month, Solar.R))  
      geom_point()
      facet_wrap(~ Month == 5,
      # labeller = label_both
      )
      圖片

      7填補(bǔ)數(shù)據(jù)集的可視化

      7.1 dotplot

      我們之前設(shè)置了m = 3,這里我們看一下3個(gè)數(shù)據(jù)集的NA填補(bǔ)情況。??

      ggmice(imp, aes(x = .imp, y = Temp))
      geom_jitter(height = 0, width = 0.25)
      labs(x = 'Imputation number')
      圖片

      7.2 boxplot

      ggmice(imp, aes(x = .imp, y = Temp))   
      geom_jitter(height = 0, width = 0.25)
      geom_boxplot(width = 0.5, size = 1, alpha = 0.75, outlier.shape = NA)
      labs(x = 'Imputation number')
      圖片

      8算法收斂

      看來default = 5是有原因的,哈哈哈哈哈哈!??

      plot_trace(imp,
      # 'Temp'
      )
      圖片

      圖片
      最后祝大家早日不卷!~

      點(diǎn)個(gè)在看吧各位~ ?.???? ??? ?

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多