乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      數(shù)據(jù)挖掘?qū)W習

       rating123 2019-05-23

      1.2、數(shù)據(jù)質(zhì)量分析

      (1.數(shù)據(jù)質(zhì)量分析的目的:

      保證數(shù)據(jù)的正確性、保證數(shù)據(jù)的有效性

      例如:國際漫游通話客戶只有0.01%,因此對國際漫游通話時長該變量統(tǒng)計正確性毫無問題,也認為該變量缺少有效的信息而有數(shù)據(jù)質(zhì)量問題,因為該變量提供好的信息只能對最多0.01%的客戶產(chǎn)生影響,對未來預測模型的貢獻實在是微乎其微。

      (2.數(shù)據(jù)質(zhì)量分析的內(nèi)容

      在數(shù)據(jù)的正確性分析方面:

      1、缺失值:缺失數(shù)據(jù)包括空值或編碼為無意義的指(null)

      2、數(shù)據(jù)錯誤:通常是在輸入數(shù)據(jù)時,造成的排字錯誤

      3、度量標準錯誤:正確輸入但因為不正確的度量標準而導致的錯誤數(shù)據(jù)

      4、編碼不一致:通常包括非標準度量單位或不一致的值。例如,同時使用M和male表示性別;

      在數(shù)據(jù)的有效性方面:

      關(guān)注數(shù)據(jù)統(tǒng)計方面的信息;

      例如:占比、方差、均值、分位數(shù)等,以此來了解這些數(shù)據(jù)包含的信息度程度。

      (3.數(shù)據(jù)質(zhì)量分析的方法:

      1、值分析

      例如:

      通過本圖,X37 和 X38 的非零百分比超過80%,其他變量多數(shù)為0,這些為0的變量包含的信息少,以此他們對數(shù)據(jù)進行挖掘意義不大。

      如果為了保證數(shù)據(jù)的有效性,取閥值為80%,則這15個變量,又有X37 和 X38 會納入下一輪數(shù)據(jù)樣本的變量體系中。

      1).唯一值分析:

      它的最簡單情況:是變量只有一個取值,這樣的變量對于數(shù)據(jù)挖掘建模無法提供任何有效的信息。

      例如,對于一定系統(tǒng)的變量:國籍———中國

      另一種情況:對于變量業(yè)務含義有一定的了解,還能分析變量唯一值數(shù)比預期是多還是少。

      例如:性別:男、女、不確定;如果出現(xiàn)4,5中取值就要查看是否存在數(shù)據(jù)的質(zhì)量問題

      2).無效值分析:

      空值,空字符串,null,0(無意義)都是無效值,對于無效值較多的變量(例如:該變量無效值比例超過90%等),首先懷疑數(shù)據(jù)處理過程是否存在錯誤;

      如無錯誤,對于極差或無效的變量,在建模時將慎用甚至棄用。

      3).異常值分析:

      在多數(shù)情況下,變量不允許出現(xiàn)負值、空值。異常值分析主要是分析變量是否存在異常值得情況,再結(jié)合一定的業(yè)務背景知識,確認是否存在錯誤的數(shù)據(jù)。

      2、統(tǒng)計分析

      統(tǒng)計的基本統(tǒng)計概念:總體和樣本。從總體中隨機產(chǎn)生若干個個體的集合成為樣本。

      從統(tǒng)計學的角度,統(tǒng)計的任務是由樣本推斷總體。

      從數(shù)據(jù)探索角度,關(guān)注的通常由樣本推斷總體的數(shù)據(jù)特征。

      1).基本統(tǒng)計量

      (1)、表示位置的統(tǒng)計量:

      1 眾數(shù):變量中發(fā)生頻率最大的值。例如:用戶狀態(tài)(正常,欠費停機,申請停機,拆機、消號),該變量的眾數(shù)是 “正?!?則是正常的。

      2 中位數(shù):中位數(shù)可避免極端數(shù)據(jù),代表這數(shù)據(jù)總體的中等情況。例如:從小到大排序,總數(shù)是奇數(shù),取中間的數(shù),總數(shù)是偶數(shù),取中間兩個數(shù)的平均數(shù)。

      3 算數(shù)平均數(shù):又稱均值,描述數(shù)據(jù)去指導額平均位置,數(shù)學表達式:~x (均值)=  ∑x  /  n;

      (2)、表示數(shù)據(jù)散度的統(tǒng)計量:

      1 標準差:它是各個數(shù)據(jù)與均值偏離程度的度量,這種偏離也成異變。數(shù)學表達式:S = ([ ∑(x  - ~x)2 ] / n)?   ;這里可將n改為n-1,是無偏估計。

      2 方差:標準差的平方。

      3 極差:最大值和最小值之差。

      (3)、表示分布形狀的統(tǒng)計量:

      1 偏度:正態(tài)分布的偏度為0,偏度<0稱分布具有負偏離(左偏態(tài)),此時數(shù)據(jù)位于均值左邊的位于右邊的多,有個尾巴拖到左邊,說明左邊有極端值,偏度>0稱分布具有正偏離(右偏態(tài))。偏度接近如于0 ,可認為分布對稱。例如:知道分布有可能在偏度上偏離正態(tài)分布,則可用偏度來檢驗分布的正態(tài)性。偏度的絕對值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

      偏度計算公式:(n:總數(shù);    ~x:均值;   SD:標準差)

      2 峰度:描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計量(與正態(tài)分布比較,,就是正態(tài)分布的峰頂)。例如:正態(tài)分布為3,若峰度 > 3 ,這表示分布有沉重的尾巴,說明樣本中含有較多遠離均值的數(shù)據(jù)。峰度的絕對值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大。

      峰度計算公式:(n:總數(shù);    ~x:均值;   SD:標準差)

      統(tǒng)計量中最重要的是均值和標準差。樣本是隨機變量,所以用他們?nèi)ネ茢嗫傮w時,可靠性和統(tǒng)計量的概率分布更準確。不過在數(shù)據(jù)挖掘的不同階段,要用不同的統(tǒng)計量去認識和評估數(shù)據(jù)。

      (4)、表示分布描述性統(tǒng)計量

      1 分位數(shù):將數(shù)據(jù)從小到大排序,小于某個值得數(shù)據(jù)占總數(shù)的百分比。例如:通常所說的中位數(shù)就是50%分位數(shù),即小于中位數(shù)所占總數(shù)的50%。

      隨機變量的特征完全由它的概率分布函數(shù)或概率密度函數(shù)來描述。

      設有隨機變量 X ,其分布函數(shù)定義為 X <= x  的概率,即 F(x) = P { X <= x  }是連續(xù)型隨機變量。

      則 其密度函數(shù) P(x) 與 F(x)的關(guān)系為:

       

      分位數(shù),就可以用上面這樣定義:對于 0 < α < 1 ,使某分布函數(shù) F(x) = α  的  x ,為這個分布的  α  分位數(shù),記作  Xα 。

      對于下面要講的直方圖頻數(shù)分布圖,當  n  充分大時,頻率就是頻數(shù)的近似,因此直方圖可以看作密度函數(shù)圖形的(離散化)近似。

      2).統(tǒng)計信息方法分析


      如圖所示:均值,最大值,最小值,中位數(shù)描述的是數(shù)據(jù)的基本特征,從數(shù)據(jù)的質(zhì)量分析的角度來講,極差、方差、標準差更有用,因為這幾個統(tǒng)計量更關(guān)注這個變量所有數(shù)據(jù)的特征。

      例1:如果發(fā)現(xiàn)某些數(shù)據(jù)的極差變化很大,則說明這些數(shù)據(jù)的數(shù)據(jù)量級差別很大,很可能需要對數(shù)據(jù)進行歸一化處理。

      例2:如果發(fā)現(xiàn)一些變量的標準差很小,則說明數(shù)據(jù)的變化很大,有可能說明這個變量所包含的信息比較少,在數(shù)據(jù)挖掘中就可以考慮是否需要刪除這些變量。

      認識統(tǒng)計變量的本身不同的特征,需要注意一下幾點:

      (1,)、查看數(shù)據(jù)與正態(tài)分布的接近程度(即分析數(shù)據(jù)的的分布情況,這是核心),可以選取有代表性的統(tǒng)計量表示整體情況。例如:在數(shù)據(jù)分布為正態(tài)時,可以用均值來代替數(shù)據(jù)的整體情況,在數(shù)據(jù)分布較為偏斜時,眾數(shù)與中數(shù)就能代替數(shù)據(jù)的整體情況。

      (2)、用均值和極值評判時,要有一定的業(yè)務常識,或與歷史進行對比。例如:查看最小值是否符合業(yè)務邏輯,最高值是否準確,真實。均值是否合理。單純均值和極值評判時需要借助一定的業(yè)務經(jīng)驗。具有局限性。

      (3)、標準差反映數(shù)據(jù)的分散程度。

      如圖:深灰,淺灰,淡灰區(qū)域分別對應1,2,3倍標準差,對應的概率為68.3%,95.5%,99.7%。

      例如:變量是以正態(tài)分布的,則當最大值(或最小值)與均值的差超過3倍標準差時,很可能這些極值存在問題。

      現(xiàn)實中,一方面數(shù)據(jù)量巨大,因此,極值超過3倍標準差也是正常的,另一方面,許多變量分布并不滿足正態(tài)分布,使用時要注意。

      3、頻次圖與直方圖分析

      通過頻次圖與直方圖分析能對數(shù)據(jù)進行更深入、更直觀的分析。同時,可以有效地觀測出數(shù)據(jù)分布的兩個重要特征:集中趨勢和離散趨勢。

      1).直方圖分析

      直方圖適用于對大量連續(xù)性數(shù)據(jù)進行整理加工,找出其統(tǒng)計規(guī)律,以便對其總體分布特征進行推斷。

      直方圖(數(shù)值等寬)分析步驟如下:

      (1)、找出最大,小值

      (2)、先排序,然后分組(6~20組為宜)

      (3)、組數(shù)/(最大值-最小值),求出組距寬度

      (4)、計算各組  界限位(上、下界限位)。

      (5)、統(tǒng)計各組數(shù)據(jù)出現(xiàn)的頻數(shù),作頻數(shù)分布表

      (6)、以組距為底長,以頻數(shù)為高,作各組的矩形圖。

      其中各組的界限位可以從第一組一次計算,第一組的   下界=最小值-(組距/2),上界=下界值+組距;  第二組的下界=第一組的上界 ,上界=第二組下界+組距

      例子1:

      這是一個比較正常的直方圖

      例子2:

      該圖變量的數(shù)據(jù)過于集中,這對數(shù)據(jù)挖掘來說意義不大,所以就可以刪除該變量。

      2).頻次圖分析

      頻次圖是為了計算離散型數(shù)據(jù)各值分布情況的統(tǒng)計方法,它有助于理解某些特殊數(shù)值的意義,同時它也可以支持多個維度組合分布情況。

      對分類變量進行頻次圖分析步驟:

      (1)、集中和記錄數(shù)據(jù),計算總的分類數(shù)N

      (2)、將數(shù)據(jù)按序排列,分為N組

      (3)、統(tǒng)計各組數(shù)據(jù)出現(xiàn)的頻數(shù),作頻數(shù)分布表

      (4)、作頻次圖

      例子:

       

      這是2000-2014年的全球7級以上的地震頻次圖,分類是按年份。

      4、衍生變量

      它是由其他既有變量通過不同形式的組合而衍生的變量,衍生變量與原始變量有一定的相關(guān)性,但是不是所有的衍生變量都有意義,要適度,看情況。

      例子:密度 = 質(zhì)量 / 體積  ; 線密度 = 質(zhì)量 /長度  ;要研究那個物體可以漂浮在水面上,只要根據(jù)密度這一衍生變量就可以判斷出。

      衍生變量是數(shù)據(jù)挖掘探索最重要的環(huán),但是對于一個項目來說,有無數(shù)個衍生變量。

      幾個基本的衍生變量的方法:

      (1)、對多個列變量進行組合

      例如:身高的平方 / 體重 (肥胖指數(shù)) ; 負債 / 收益 ; 總通話時間 / 總呼叫次數(shù)  ; 網(wǎng)頁訪問量 / 購買總量  等;

      (2)、按照維度(也叫變量)分類

      例如:在分析無線通信酷虎六十現(xiàn)象時發(fā)現(xiàn),按照手機型號分類匯總的流失率比單純用手機型號分類的數(shù)據(jù)更有用。

      (3)、對某個變量進一步分解

      例如:對于日期變量,可進一步分解為季度、節(jié)假日、工作日、周末    等變量。

      (4)、對具有時間序列特征的變量可以進一步提取時序特征。

      例如:一段時間的總開銷量、平均增長率、初始值與終值的比率、兩個相鄰值之間的比率、顧客在暑假購物占年度比重、周末電話平均長度與每周電話平均長度。

      例子:證劵市場上的各種技術(shù)指標基本都是衍生變量。

      (1)、環(huán)境準備與讀取原始數(shù)據(jù)

      (2)、計算衍生變量

      (3)、收集并保持數(shù)據(jù)

      (4)、數(shù)據(jù)可視化

      比如:

      (5)、評價型衍生變量

      在衍生變量中有一類重要的衍生變量,這類變量作用是用于評價被挖掘事物和好壞,就是評價型衍生變量(目標,比如:好壞等),而其他的叫指標型衍生變量。

      因為數(shù)據(jù)挖掘中很多算法是機器學習算法,這類算法的典型特點是需要有輸入和輸出的樣本訓練機器。

      比如:評價股票的好壞,針對上面的可視化結(jié)果,在根據(jù)一定規(guī)則進行衍生得到它的好壞。

      重復一到四步,生成可視化圖:


      (6)、衍生變量的收集與集成

      當產(chǎn)生衍生變量后,為了便于后學的數(shù)據(jù)處理,通常需要將數(shù)據(jù)收集在一起,如果在不同的文件或表中,也常常合并在一種表中。

      5、數(shù)據(jù)可視化

      對數(shù)據(jù)可視化,經(jīng)過分析,篩選出我們需要的好數(shù)據(jù)。

      1)、數(shù)據(jù)分布形狀可視化

      例如:柱狀分布圖

      通過圖可以看到dv3過于集中,相當于固定值,這種最好刪除。可見對數(shù)據(jù)進行可視化分析意義很大。

      2)、數(shù)據(jù)關(guān)聯(lián)情況可視化

      在進行變量篩選前,可先利用關(guān)聯(lián)可視化了解各變量的關(guān)聯(lián)關(guān)系。

      例如:


      通過該圖可以看出任意兩個變量的關(guān)聯(lián)趨向。


      通過該圖,從宏觀上表現(xiàn)出變量間的關(guān)聯(lián)強度,實踐中往往用于篩選變量。

      3)、數(shù)據(jù)分組可視化

      它是按照不同的分位數(shù)將數(shù)據(jù)進行分組,典型的圖形就是箱體圖。根據(jù)香體乳可以看出數(shù)據(jù)的分布特征和異常值的數(shù)量,這對于確定是否需要進行異常值處理很有利。

      例如:




        本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多