SQL Server 2012 數(shù)據(jù)質(zhì)量服務(wù)實(shí)戰(zhàn)簡(jiǎn)介(Data Quality Services)http://blog.csdn.net/niyi0318/article/details/8099493 數(shù)據(jù)質(zhì)量服務(wù)是包含在SQL Server 2012中的一個(gè)組件。我們需要安裝數(shù)據(jù)質(zhì)量服務(wù)端和客戶端,這些在sqlserver 2012的安裝文件中都可以找到。安裝服務(wù)端以后,在我們sqlserver數(shù)據(jù)庫中會(huì)出現(xiàn)3個(gè)新的以DQS開頭的數(shù)據(jù)庫 這三個(gè)數(shù)據(jù)庫分別用來存儲(chǔ)數(shù)據(jù)質(zhì)量服務(wù)的知識(shí)庫,總體和臨時(shí)數(shù)據(jù)。 安裝完成以后,我們可以用客戶端來打開數(shù)據(jù)質(zhì)量服務(wù)的管理界面 總體分三個(gè)大類, 知識(shí)庫的管理(Knowledge Base Management) 數(shù)據(jù)質(zhì)量項(xiàng)目(Data Quality Projects) 管理(Administration) 上圖為創(chuàng)建知識(shí)庫的界面,所有的數(shù)據(jù)質(zhì)量項(xiàng)目都是基于知識(shí)庫的,知識(shí)庫里面包含具體的“域”(Domain),針對(duì)域來設(shè)定數(shù)據(jù)清理的規(guī)則。知識(shí)庫我們可以看成是個(gè)表結(jié)構(gòu),域相當(dāng)于字段。對(duì)域的規(guī)則可以是單獨(dú)字段的也可以是組合字段的。 上圖為域的管理,我們可以添加域,設(shè)置域的格式,數(shù)據(jù)類型,規(guī)則,引用等等。 當(dāng)知識(shí)庫建立以后,我們需要對(duì)知識(shí)庫進(jìn)行訓(xùn)練(Knowledge Base Discovery),一般情況下,我們可以取小部分真實(shí)數(shù)據(jù)來對(duì)知識(shí)庫來進(jìn)行訓(xùn)練,訓(xùn)練的次數(shù)越多,涵蓋的情況越多,知識(shí)庫也就越豐富越具體。 上圖為知識(shí)庫訓(xùn)練的界面,數(shù)據(jù)源可以是excel或者SQL Server數(shù)據(jù)庫,下方設(shè)置相應(yīng)的字段映射之后,就可以開始進(jìn)行訓(xùn)練了。訓(xùn)練完之后,我們可以根據(jù)訓(xùn)練的結(jié)果可以進(jìn)行設(shè)置,添加域的規(guī)則,修改域的引用等操作。 當(dāng)一個(gè)知識(shí)庫完成以后,我們就可以正式的使用數(shù)據(jù)質(zhì)量項(xiàng)目來進(jìn)行數(shù)據(jù)的清理。 而且在SSIS 2012中也添加了相對(duì)應(yīng)的數(shù)據(jù)質(zhì)量服務(wù)的組件,這樣我們就可以很方便在SSIS 包中使用數(shù)據(jù)質(zhì)量服務(wù)來完成數(shù)據(jù)的清洗。 當(dāng)前世面上有很多行業(yè)的標(biāo)準(zhǔn)的第三方的知識(shí)庫,我們也可以直接導(dǎo)入這些已經(jīng)很成熟的知識(shí)庫來對(duì)我們的數(shù)據(jù)直接進(jìn)行清洗,大大的方便了我們操作一致性和準(zhǔn)確性。
注意:當(dāng)前版本下,DQS服務(wù)端不支持卸載,需要卸載的時(shí)候,需要手動(dòng)刪除那三個(gè)數(shù)據(jù)庫,兩個(gè)相對(duì)應(yīng)的instance的login,master database中的一個(gè)存儲(chǔ)過程。
|
|