乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      數(shù)據(jù)質(zhì)量管理

       rating123 2019-05-23

      web數(shù)據(jù)集成技術(shù)可以從web上自動(dòng)獲取數(shù)據(jù),但是獲取的信息存在著大量的臟數(shù)據(jù),比如濫用縮寫(xiě)詞,慣用語(yǔ),數(shù)據(jù)輸入錯(cuò)誤,重復(fù)記錄,丟失值,拼寫(xiě)變化,不同的計(jì)量單位。這些數(shù)據(jù)是沒(méi)有意義的,根本就不可能為以后的數(shù)據(jù)挖掘決策分析提供任何支持。

      數(shù)據(jù)清洗主要是提高數(shù)據(jù)的可用性,目前,數(shù)據(jù)清洗主要應(yīng)用于三個(gè)領(lǐng)域:
      1 數(shù)據(jù)倉(cāng)庫(kù)(DW)
      2數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)
      3數(shù)據(jù)質(zhì)量管理(TDQM)
      我在公司里的第一個(gè)項(xiàng)目就是數(shù)據(jù)質(zhì)量管理,在這里在說(shuō)下數(shù)據(jù)質(zhì)量管理:
      通過(guò)制定、實(shí)施數(shù)據(jù)質(zhì)量檢核,暴露各系統(tǒng)數(shù)據(jù)質(zhì)量問(wèn)題。持續(xù)監(jiān)控各系統(tǒng)數(shù)據(jù)質(zhì)量波動(dòng)情況及數(shù)據(jù)質(zhì)量規(guī)則占比分析,定期生成各系統(tǒng)關(guān)鍵數(shù)據(jù)質(zhì)量報(bào)告,掌握系統(tǒng)數(shù)據(jù)質(zhì)量狀況。結(jié)合系統(tǒng)提供的清洗組件以及數(shù)據(jù)質(zhì)量問(wèn)題處理流程為各系統(tǒng)數(shù)據(jù)質(zhì)量提升提供有效支撐。

      數(shù)據(jù)質(zhì)量(DataQuality)管理是貫穿數(shù)據(jù)生命周期的全過(guò)程,覆蓋質(zhì)量評(píng)估,數(shù)據(jù)去噪,數(shù)據(jù)監(jiān)控,數(shù)據(jù)探查,數(shù)據(jù)清洗,數(shù)據(jù)診斷等方面。數(shù)據(jù)度量和變化頻度提供了衡量數(shù)據(jù)質(zhì)量好壞的手段。數(shù)據(jù)度量主要包括完整性、唯一性、一致性、準(zhǔn)確性、合法性。變化頻度主要包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)的變化周期和實(shí)體數(shù)據(jù)的刷新周期。數(shù)據(jù)質(zhì)量管理準(zhǔn)則包括測(cè)量、提高組織數(shù)據(jù)的質(zhì)量和整合性的方法。數(shù)據(jù)質(zhì)量處理包括數(shù)據(jù)標(biāo)準(zhǔn)化、匹配、生存和質(zhì)量監(jiān)測(cè)。數(shù)據(jù)必須具備適當(dāng)?shù)馁|(zhì)量,以解決業(yè)務(wù)要求問(wèn)題。
      結(jié)合大數(shù)據(jù)的參考框架及數(shù)據(jù)處理實(shí)際需求情況,數(shù)據(jù)質(zhì)量管理系統(tǒng)主要功能定位為:數(shù)據(jù)發(fā)現(xiàn)、質(zhì)量管理、元數(shù)據(jù)、主數(shù)據(jù)管理和信息政策管理。

      在數(shù)據(jù)生命周期中,數(shù)據(jù)的獲取和使用周期包括系列活動(dòng):評(píng)估,分析,調(diào)整,丟棄數(shù)據(jù),

      目前數(shù)據(jù)清洗的模型:
      基于粗糙集理論數(shù)據(jù)清洗
      基于聚式模式數(shù)據(jù)清洗
      基于模糊匹配數(shù)據(jù)清洗模型
      基于遺傳神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)清洗
      基于專(zhuān)家系統(tǒng)體系結(jié)構(gòu)等

      數(shù)據(jù)校驗(yàn)及轉(zhuǎn)換
      數(shù)據(jù)校驗(yàn)的目的是確保抽取數(shù)據(jù)本身的正確性和完整性,
      數(shù)據(jù)轉(zhuǎn)換的目的是保證數(shù)據(jù)的一致性

      數(shù)據(jù)清洗流程

      1數(shù)據(jù)預(yù)處理: 包括數(shù)據(jù)元素化,保準(zhǔn)化
      2確定清洗方法:
      3校驗(yàn)清洗方法:先驗(yàn)證所用的清洗方法是否合適,抽取小樣本進(jìn)行驗(yàn)證,判斷其召回率和準(zhǔn)確率
      4執(zhí)行清洗工具:
      5數(shù)據(jù)歸檔:將新舊數(shù)據(jù)源進(jìn)行歸檔處理,方便以后的清洗

      一般情況下,模式中反應(yīng)的元數(shù)據(jù)對(duì)應(yīng)判斷一個(gè)數(shù)據(jù)源的質(zhì)量遠(yuǎn)遠(yuǎn)不夠,因此通過(guò)具體實(shí)例來(lái)獲得有關(guān)數(shù)據(jù)熟悉和不尋常模式的元數(shù)據(jù)很重要。這些元數(shù)據(jù)可以幫助發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,也有助于發(fā)現(xiàn)屬性間的依賴(lài)關(guān)系,

      1數(shù)據(jù)分析
      數(shù)據(jù)分析的兩種方法;
      數(shù)據(jù)派生:主要對(duì)單獨(dú)的某個(gè)屬性進(jìn)行實(shí)例分析。數(shù)據(jù)派生可以得到關(guān)于屬性的很多信息,比如數(shù)據(jù)類(lèi)型,長(zhǎng)度,取值空間,離散值,他們的出現(xiàn)頻率和不同值的個(gè)數(shù)等,通過(guò)應(yīng)用統(tǒng)計(jì)技術(shù),可以得到屬性間的平均值,中間值標(biāo)準(zhǔn)差等
      數(shù)據(jù)挖掘:幫助在大型數(shù)據(jù)集中發(fā)現(xiàn)特定的數(shù)據(jù)模式,可以通過(guò)數(shù)據(jù)挖掘來(lái)發(fā)現(xiàn)屬性間的一些完整性約束如函數(shù)依賴(lài)和商業(yè)規(guī)則。

      2定義清洗轉(zhuǎn)換規(guī)則與工作流
      根據(jù)數(shù)據(jù)源中不一致數(shù)據(jù)和“臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量的數(shù)據(jù)轉(zhuǎn)換和清洗步驟
      3驗(yàn)證
      定義的清洗規(guī)則和工作流的正確性和效率應(yīng)該進(jìn)行驗(yàn)證和評(píng)估,真正的數(shù)據(jù)清洗過(guò)程需多次迭代的進(jìn)行分析設(shè)計(jì)和驗(yàn)證

      4清洗數(shù)據(jù)中的錯(cuò)誤
      注意先備份源數(shù)據(jù),
      5干凈數(shù)據(jù)回流
      干凈的數(shù)據(jù)替換數(shù)據(jù)源中原來(lái)的“臟數(shù)據(jù)”

      數(shù)據(jù)清洗框架
      A與領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清洗框架
      元數(shù)據(jù)是指”關(guān)于數(shù)據(jù)的數(shù)據(jù)“,指在數(shù)據(jù)清洗過(guò)程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),元數(shù)據(jù)在數(shù)據(jù)清洗過(guò)程中包含以下幾個(gè)組件:
      1基本組件:主要是對(duì)元數(shù)據(jù)的特征進(jìn)行描述,包括:可以提供元數(shù)據(jù)的數(shù)據(jù)庫(kù)名,數(shù)據(jù)庫(kù)編號(hào),數(shù)據(jù)庫(kù)表及表的編號(hào),表中的屬性及屬性的編號(hào)。

      2清洗規(guī)則組件:數(shù)據(jù)質(zhì)量規(guī)則定義了元數(shù)據(jù)中質(zhì)量問(wèn)題和數(shù)據(jù)清洗規(guī)則,包括錯(cuò)誤數(shù)據(jù)表

      3數(shù)據(jù)加載組件:用于確定異構(gòu)的元數(shù)據(jù)什么時(shí)候、將什么數(shù)據(jù)加載到目的數(shù)據(jù)庫(kù)中
      另外的三個(gè)工作流:
      (1)數(shù)據(jù)分析流(2)數(shù)據(jù)清洗工作流(3)清理結(jié)果檢驗(yàn)工作流

      B.基于領(lǐng)域知識(shí)相關(guān)的數(shù)據(jù)清洗框架
      基于知識(shí)的數(shù)據(jù)清洗框架,在領(lǐng)域知識(shí)的指導(dǎo)下從樣本數(shù)據(jù)中抽取,驗(yàn)證知識(shí),然后通過(guò)專(zhuān)家系統(tǒng)引擎對(duì)整體數(shù)據(jù)進(jìn)行清洗
      1規(guī)則生成階段:首先生成一個(gè)樣本數(shù)據(jù)集,樣本數(shù)據(jù)集是從整個(gè)數(shù)據(jù)庫(kù)中抽出的小部分樣本,在此基礎(chǔ)上通過(guò)專(zhuān)家的參與產(chǎn)生規(guī)則庫(kù),在得到初步的規(guī)則后,把他們應(yīng)用到數(shù)據(jù)集上,觀察中間結(jié)果,進(jìn)一步修改規(guī)則,在這個(gè)過(guò)程中,可以基于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù)來(lái)幫助解決。

      2預(yù)處理階段:根據(jù)生成的預(yù)處理規(guī)則糾正我們能檢測(cè)到的所有異常,基本的預(yù)處理包括:數(shù)據(jù)類(lèi)型檢測(cè),數(shù)據(jù)格式標(biāo)準(zhǔn)化,解決數(shù)據(jù)不一致

      3處理階段:數(shù)據(jù)會(huì)接著流入 專(zhuān)家引擎系統(tǒng),典型的規(guī)則包括臟數(shù)據(jù)檢測(cè)規(guī)則,重復(fù)數(shù)據(jù)檢測(cè),錯(cuò)誤數(shù)據(jù)更正規(guī)則

      4數(shù)據(jù)加載階段:通過(guò)數(shù)據(jù)加載規(guī)則,把清洗后的數(shù)據(jù)加載到目的數(shù)據(jù)庫(kù)中

      數(shù)據(jù)框架清洗設(shè)計(jì)

      下面是nosql的一點(diǎn)筆記
      Hypertable的目標(biāo)就是為了解決大并發(fā),大數(shù)據(jù)量的數(shù)據(jù)庫(kù)需求,可以處理大量并發(fā)請(qǐng)求,管理大量數(shù)據(jù),可擴(kuò)縮性好。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多