描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是借助圖表或者總結(jié)性的數(shù)值來描述數(shù)據(jù)的統(tǒng)計(jì)手段。數(shù)據(jù)挖掘工作的數(shù)據(jù)分析階段,可以借助描述性統(tǒng)計(jì)來描述或總結(jié)數(shù)據(jù)的基本情況。 理論部分 一 數(shù)據(jù)的集中趨勢(shì)描述: 數(shù)據(jù)的集中趨勢(shì)描述是尋找反映事物特征的數(shù)據(jù)集合的代表值或中心值, 這個(gè)代表值或中心值可以很好地反映事物目前所處的位置和發(fā)展水平, 通過對(duì)事物集中趨勢(shì)指標(biāo)的多次測(cè)量和比較, 還能夠說明事物的發(fā)展和變化趨勢(shì)。 1.1算術(shù)平均值 簡單算術(shù)平均值是最典型、 最常用、 最具代表性的集中趨勢(shì)指標(biāo)。將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值個(gè)數(shù)就得到簡單算術(shù)平均值。假設(shè)有一組包含n個(gè)數(shù)值的數(shù)據(jù)集合, 它們的數(shù)值分別為x1 , x2 ,…, xn , 該數(shù)據(jù)集合的簡單算術(shù)平均值的計(jì)算公式為: 注意當(dāng)數(shù)據(jù)集合中有極大值或極小值存在時(shí), 會(huì)對(duì)算術(shù)平均值產(chǎn)生很大的影響, 其計(jì)算結(jié)果會(huì)掩蓋數(shù)據(jù)集合的真實(shí)特征, 這時(shí)算術(shù)平均值就失去了代表性。人均收入?拖沒拖后腿 1.2 眾數(shù) 數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值被稱為眾數(shù)。如果在一個(gè)數(shù)據(jù)集合中, 只有一個(gè)數(shù)值出現(xiàn)的次數(shù)最多, 那么這個(gè)數(shù)值就是該數(shù)據(jù)集合的眾數(shù);如果有兩個(gè)或多個(gè)數(shù)值的出現(xiàn)次數(shù)并列最多, 那么這兩個(gè)或多個(gè)數(shù)值都是該數(shù)據(jù)集合的眾數(shù)。 1.3 中位數(shù) 對(duì)于數(shù)據(jù)集合(x1, x2, …, xn) , 將所有的數(shù)值按照它們的大小, 從高到低或從低到高進(jìn)行排序, 如果數(shù)據(jù)集合包含的數(shù)值個(gè)數(shù)是基數(shù), 那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù);如果數(shù)據(jù)集合的數(shù)值個(gè)數(shù)是偶數(shù), 那么取最中間兩個(gè)數(shù)值的算術(shù)平均值作為中位數(shù)。 二 數(shù)據(jù)的離散程度 集中趨勢(shì)指標(biāo)在表示數(shù)據(jù)集合的特征時(shí)會(huì)有不同的缺陷, 例如算術(shù)平均數(shù)會(huì)受到極端值的影響, 不能完全展現(xiàn)數(shù)據(jù)集合的特征, 離散程度指標(biāo)可以在一定程度上彌補(bǔ)集中趨勢(shì)指標(biāo)的這個(gè)缺陷, 展示出數(shù)據(jù)集合的離散情況。 在同類離散指標(biāo)的比較中, 離散指標(biāo)的數(shù)值越小, 說明數(shù)據(jù)集合的波動(dòng)(變異) 程度越??;離散指標(biāo)的數(shù)值越大, 說明數(shù)據(jù)集合的波動(dòng)(變異) 程度越大。 2.1 極差 極差是指數(shù)據(jù)集合中最大值與最小值的差值, 表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離?,F(xiàn)有數(shù)據(jù)集合(xmin, x2, …,xmax) , 計(jì)算公式為: 2.2 方差和標(biāo)準(zhǔn)差 1)總體的方差和標(biāo)準(zhǔn)差 如果數(shù)據(jù)集合(x1, x2, …, xn) 就是數(shù)據(jù)總體, 并且數(shù)據(jù)集合有N個(gè)數(shù)值(個(gè)案) , 假設(shè)數(shù)據(jù)總體的均值為μ,那么 總體方差σ2的計(jì)算公式為:
2)樣本的方差和標(biāo)準(zhǔn)差 從數(shù)據(jù)總體中隨機(jī)抽取一定數(shù)量的樣本數(shù)值, 然后用樣本數(shù)值的方差和標(biāo)準(zhǔn)差來估計(jì)總體的方差和標(biāo)準(zhǔn)差。為了區(qū)分, 樣本的均值用x-表示, 樣本方差用s2表示, 樣本標(biāo)準(zhǔn)差用s表示。假設(shè)樣本容量為n, 那么樣本方差的計(jì)算公式為: 2.3 變異系數(shù) 變異系數(shù)實(shí)質(zhì)上是標(biāo)準(zhǔn)差相對(duì)于算術(shù)平均值的大小 . 總體的變異系數(shù)計(jì)算公式為:
因此, 如果比較算術(shù)平均值不同的兩個(gè)數(shù)據(jù)集合的相對(duì)離散程度時(shí), 使用變異系數(shù)要比使用標(biāo)準(zhǔn)差更具有說服力。此外, 變異系數(shù)是無單位指標(biāo), 這是它與其他離散程度指標(biāo)最大的區(qū)別。 2.4 四分位極差 排在四分之一位置的數(shù)值即為第一四分位數(shù)Q1;排在四分之二位置的數(shù)值為第二四分位數(shù)Q2 , 也就是中位數(shù);排在四分之三位置的數(shù)值為第三四分位數(shù)Q3。這三個(gè)四分位數(shù)將整個(gè)數(shù)據(jù)集合分成四等分。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1) , 這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合50%的數(shù)據(jù)值。 實(shí)現(xiàn)部分 介紹完了基本概念,下面使用Python 和 R 分別實(shí)現(xiàn)上述計(jì)算過程: Python實(shí)現(xiàn) R實(shí)現(xiàn) 參考資料: 人人都會(huì)數(shù)據(jù)分析 |
|