乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      小數(shù)據(jù)| 描述性統(tǒng)計(jì)(Python/R 實(shí)現(xiàn))

       生信補(bǔ)給站 2019-07-25

      描述性統(tǒng)計(jì)

          描述性統(tǒng)計(jì)是借助圖表或者總結(jié)性的數(shù)值來描述數(shù)據(jù)的統(tǒng)計(jì)手段。數(shù)據(jù)挖掘工作的數(shù)據(jù)分析階段,可以借助描述性統(tǒng)計(jì)來描述或總結(jié)數(shù)據(jù)的基本情況。

      理論部分

      一 數(shù)據(jù)的集中趨勢(shì)描述:

          數(shù)據(jù)的集中趨勢(shì)描述是尋找反映事物特征的數(shù)據(jù)集合的代表值或中心值, 這個(gè)代表值或中心值可以很好地反映事物目前所處的位置和發(fā)展水平, 通過對(duì)事物集中趨勢(shì)指標(biāo)的多次測(cè)量和比較, 還能夠說明事物的發(fā)展和變化趨勢(shì)。

      1.1算術(shù)平均值

          簡單算術(shù)平均值是最典型、 最常用、 最具代表性的集中趨勢(shì)指標(biāo)。將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值個(gè)數(shù)就得到簡單算術(shù)平均值。假設(shè)有一組包含n個(gè)數(shù)值的數(shù)據(jù)集合, 它們的數(shù)值分別為x1 , x2 ,…, xn , 該數(shù)據(jù)集合的簡單算術(shù)平均值的計(jì)算公式為:

          注意當(dāng)數(shù)據(jù)集合中有極大值或極小值存在時(shí), 會(huì)對(duì)算術(shù)平均值產(chǎn)生很大的影響, 其計(jì)算結(jié)果會(huì)掩蓋數(shù)據(jù)集合的真實(shí)特征, 這時(shí)算術(shù)平均值就失去了代表性。人均收入?拖沒拖后腿

      1.2 眾數(shù)

          數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值被稱為眾數(shù)。如果在一個(gè)數(shù)據(jù)集合中, 只有一個(gè)數(shù)值出現(xiàn)的次數(shù)最多, 那么這個(gè)數(shù)值就是該數(shù)據(jù)集合的眾數(shù);如果有兩個(gè)或多個(gè)數(shù)值的出現(xiàn)次數(shù)并列最多, 那么這兩個(gè)或多個(gè)數(shù)值都是該數(shù)據(jù)集合的眾數(shù)。

      1.3 中位數(shù)

      對(duì)于數(shù)據(jù)集合(x1, x2, …, xn) , 將所有的數(shù)值按照它們的大小, 從高到低或從低到高進(jìn)行排序, 如果數(shù)據(jù)集合包含的數(shù)值個(gè)數(shù)是基數(shù), 那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù);如果數(shù)據(jù)集合的數(shù)值個(gè)數(shù)是偶數(shù), 那么取最中間兩個(gè)數(shù)值的算術(shù)平均值作為中位數(shù)。

      二 數(shù)據(jù)的離散程度

          集中趨勢(shì)指標(biāo)在表示數(shù)據(jù)集合的特征時(shí)會(huì)有不同的缺陷, 例如算術(shù)平均數(shù)會(huì)受到極端值的影響, 不能完全展現(xiàn)數(shù)據(jù)集合的特征, 離散程度指標(biāo)可以在一定程度上彌補(bǔ)集中趨勢(shì)指標(biāo)的這個(gè)缺陷, 展示出數(shù)據(jù)集合的離散情況。

          在同類離散指標(biāo)的比較中, 離散指標(biāo)的數(shù)值越小, 說明數(shù)據(jù)集合的波動(dòng)(變異) 程度越??;離散指標(biāo)的數(shù)值越大, 說明數(shù)據(jù)集合的波動(dòng)(變異) 程度越大。

      2.1 極差

          極差是指數(shù)據(jù)集合中最大值與最小值的差值, 表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離?,F(xiàn)有數(shù)據(jù)集合(xmin, x2, …,xmax) , 計(jì)算公式為:

      2.2 方差和標(biāo)準(zhǔn)差

      1)總體的方差和標(biāo)準(zhǔn)差

          如果數(shù)據(jù)集合(x1, x2, …, xn) 就是數(shù)據(jù)總體, 并且數(shù)據(jù)集合有N個(gè)數(shù)值(個(gè)案) , 假設(shè)數(shù)據(jù)總體的均值為μ,那么 

          總體方差σ2的計(jì)算公式為:


          總體標(biāo)準(zhǔn)差是方差的正值平方根, 其計(jì)算公式為:

      2)樣本的方差和標(biāo)準(zhǔn)差

          從數(shù)據(jù)總體中隨機(jī)抽取一定數(shù)量的樣本數(shù)值, 然后用樣本數(shù)值的方差和標(biāo)準(zhǔn)差來估計(jì)總體的方差和標(biāo)準(zhǔn)差。為了區(qū)分, 樣本的均值用x-表示, 樣本方差用s2表示, 樣本標(biāo)準(zhǔn)差用s表示。假設(shè)樣本容量為n, 那么樣本方差的計(jì)算公式為:

      2.3 變異系數(shù)

          變異系數(shù)實(shí)質(zhì)上是標(biāo)準(zhǔn)差相對(duì)于算術(shù)平均值的大小 .

      總體的變異系數(shù)計(jì)算公式為:


      樣本的變異系數(shù)計(jì)算公式為 :

          因此, 如果比較算術(shù)平均值不同的兩個(gè)數(shù)據(jù)集合的相對(duì)離散程度時(shí), 使用變異系數(shù)要比使用標(biāo)準(zhǔn)差更具有說服力。此外, 變異系數(shù)是無單位指標(biāo), 這是它與其他離散程度指標(biāo)最大的區(qū)別。

      2.4 四分位極差

          排在四分之一位置的數(shù)值即為第一四分位數(shù)Q1;排在四分之二位置的數(shù)值為第二四分位數(shù)Q2 , 也就是中位數(shù);排在四分之三位置的數(shù)值為第三四分位數(shù)Q3。這三個(gè)四分位數(shù)將整個(gè)數(shù)據(jù)集合分成四等分。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1) , 這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合50%的數(shù)據(jù)值。

      實(shí)現(xiàn)部分

      介紹完了基本概念,下面使用Python 和 R 分別實(shí)現(xiàn)上述計(jì)算過程:

      Python實(shí)現(xiàn)

      from numpy import mean,median,ptp,var,stdimport numpy as npimport pandas as pd#算術(shù)平均值data = [1,2,3,4,5,5,5,6,7,8,8,9]data_mean = mean(data)print("算術(shù)平均數(shù) = ")print(data_mean)#中位數(shù)data_median = median(data)print("中位數(shù) = ")print (data_median)#眾數(shù)data_mode = mode(data)print("眾數(shù) = ")print (data_mode)#極差data_range = max(data)-min(data)print("極差 = ")print (data_range)#方差和標(biāo)準(zhǔn)差data_var = var (data)print ("方差 = ")print (data_var)#標(biāo)準(zhǔn)差data_sd = std(data)print ("標(biāo)準(zhǔn)差 = " )print (data_sd)#變異系數(shù)data_cv = mean(data) / std(data)print ("變異系數(shù) = " )print (data_cv)#四分衛(wèi)極差dt = pd.Series(np.array([1,2,3,4,5,5,5,6,7,8,8,9]))print('Q1:', dt.quantile(.25))print('Q3:', dt.quantile(.75))print('Q3 - Q1 :', dt.quantile(.75) - dt.quantile(.25) )

      R實(shí)現(xiàn)

      #整理成描述性統(tǒng)計(jì)的函數(shù)my_describe <- function(x){  options(digits = 3)  N = length(x);  Min = min(x, na.rm = TRUE);  Q1 = quantile(x, probs = 0.25, na.rm = TRUE);  Median = median(x, na.rm = TRUE);  Q3 = quantile(x, probs = 0.75, na.rm = TRUE);  Max = max(x, na.rm = TRUE);  Mean = mean(x, na.rm = TRUE);  Var = var(x, na.rm = TRUE);  Sd = sd(x, na.rm = TRUE);  Range = abs(diff(range(x)));  #返回結(jié)果  return(data.frame(N = N, Min = Min, Q1 = Q1, Median = Median, Q3 = Q3, Max = Max, Mean = Mean, Var = Var, Sd = Sd, Range = Range))}#可對(duì)data數(shù)據(jù)集批量使用sapply(data, my_describe)

      參考資料:

      人人都會(huì)數(shù)據(jù)分析

      數(shù)據(jù)分析|R-描述性統(tǒng)計(jì)

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多