乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      一定重點關(guān)注!人工智能技術(shù)將加速企業(yè)數(shù)據(jù)的智能化治理

       數(shù)據(jù)治理精英館 2021-12-24

            數(shù)據(jù)治理最新理念:

            ★數(shù)據(jù)治理的目的不是只為了管好數(shù)據(jù),而是讓要用數(shù)據(jù)的人(如:數(shù)據(jù)科學(xué)家)隨時能找到他要的數(shù)據(jù)。

            ★數(shù)據(jù)治理不是只做元數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量管理,更關(guān)鍵的是要建立數(shù)據(jù)資產(chǎn)目錄。

            ★沒有AI和Machine Learning的技術(shù)是無法建立真正的數(shù)據(jù)資產(chǎn)目錄的。

            ★靠開源是無法開發(fā)出具有AI和機器學(xué)習(xí)能力的數(shù)據(jù)目錄平臺的。

            一、概述

            當(dāng)前,數(shù)據(jù)治理主要傾向于“組織”:包括成立數(shù)據(jù)治理委員會,設(shè)置數(shù)據(jù)所有者和數(shù)據(jù)管理的角色,同時制定用于定義和批準數(shù)據(jù)策略的流程和制度。眾多情況下,靠的是“人海戰(zhàn)術(shù)”,例如手動采集和存儲元數(shù)據(jù)。通常這些活動的重點就所謂的“數(shù)據(jù)生命周期”管理,即從數(shù)據(jù)采集、存儲到交付到數(shù)據(jù)倉庫或決策支持系統(tǒng)的過程。在數(shù)字化時代,數(shù)據(jù)類型越來越多,數(shù)據(jù)體量越來越大,將數(shù)據(jù)治理活動限制在固定的組織機構(gòu)內(nèi)或無需思考的手工任務(wù)上,很難實現(xiàn)數(shù)據(jù)治理關(guān)鍵目標(biāo),例如:

            ■擴大數(shù)據(jù)可用性和提高數(shù)據(jù)訪問便利性,使更多數(shù)據(jù)消費者能夠查找和訪問共享數(shù)據(jù)資產(chǎn);

            ■標(biāo)準化數(shù)據(jù)語義,為數(shù)據(jù)使用者如何使用共享數(shù)據(jù)資產(chǎn)提供共同的理解;

            ■供應(yīng)可測量的高質(zhì)量數(shù)據(jù),用戶高度信任數(shù)據(jù)的可靠性。

            數(shù)據(jù)治理目標(biāo)有一個共同的驅(qū)動因素:數(shù)據(jù)消費或數(shù)據(jù)使用。然而,無法實現(xiàn)這些基本目標(biāo)會降低企業(yè)數(shù)據(jù)有效共享和利用數(shù)據(jù)的能力,更不能解決來自企業(yè)內(nèi)部業(yè)務(wù)策略變化、外部法律法規(guī)或符合行業(yè)標(biāo)準性要求的數(shù)據(jù)遵從性和可審計性。

            行業(yè)趨勢表明:企業(yè)對定義數(shù)據(jù)戰(zhàn)略以及對數(shù)據(jù)資產(chǎn)獲取、轉(zhuǎn)換、資產(chǎn)化、共享和隱私保護實施更加關(guān)注。數(shù)據(jù)治理越來越多地包含將傳統(tǒng)的理解數(shù)據(jù)資產(chǎn)的使用和統(tǒng)一業(yè)務(wù)術(shù)語與新出現(xiàn)的數(shù)據(jù)前景的關(guān)鍵需求包括盤點、分類和記錄整個企業(yè)的數(shù)據(jù)資產(chǎn)相結(jié)合的解決方案,以指導(dǎo)數(shù)據(jù)的可知、可信和可用。這意味著確保數(shù)據(jù)資產(chǎn)的效能——保證數(shù)據(jù)資產(chǎn)的一致性,對共享數(shù)據(jù)資產(chǎn)的訪問是透明的,以及向數(shù)據(jù)消費者提供他們在選擇和使用數(shù)據(jù)資產(chǎn)時所需要的所有信息。

            機器學(xué)習(xí)能力的提升提高了數(shù)據(jù)目錄可用于發(fā)展綜合數(shù)據(jù)治理策略的方式。智能數(shù)據(jù)資產(chǎn)目錄有助于數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者協(xié)同工作,減少數(shù)據(jù)管理者在描述數(shù)據(jù)方面的負擔(dān)。擴大數(shù)據(jù)的可用性和可訪問性是提高企業(yè)數(shù)據(jù)資產(chǎn)意識的重要因素。大多數(shù)企業(yè)都有各種各樣的數(shù)據(jù),但是,當(dāng)沒有數(shù)據(jù)資產(chǎn)清單時,這些資產(chǎn)實際上是隱藏的。這意味著需要一個數(shù)據(jù)盤點過程來遍尋整個企業(yè),識別并分類公司數(shù)據(jù)資產(chǎn)?;跈C器學(xué)習(xí)的的元數(shù)據(jù)系統(tǒng)可以掃描每個數(shù)據(jù)資產(chǎn)的內(nèi)容,無論是結(jié)構(gòu)化的、半結(jié)構(gòu)化的還是非結(jié)構(gòu)化的,都能夠推斷數(shù)據(jù)資產(chǎn)的元數(shù)據(jù),甚至根據(jù)嵌入內(nèi)容的敏感性對數(shù)據(jù)資產(chǎn)進行分類。從掃描推斷的元數(shù)據(jù)可以根據(jù)已知的參考領(lǐng)域和元數(shù)據(jù)進行分類和標(biāo)簽,并與定義的業(yè)務(wù)術(shù)語保持一致,這有助于標(biāo)準化語義和提供對共享數(shù)據(jù)的共同理解。

            在智能數(shù)據(jù)資產(chǎn)目錄中收集的可搜索的公司數(shù)據(jù)資產(chǎn)清單增強了數(shù)據(jù)的可訪問性和可用性。使數(shù)據(jù)使用者能夠通過目錄或標(biāo)簽搜索數(shù)據(jù)資產(chǎn),使廣大數(shù)據(jù)使用者能夠找到最能滿足其需求的數(shù)據(jù)集。智能數(shù)據(jù)資產(chǎn)目錄可用于共享不同類型的元數(shù)據(jù),包括:

            ■描述源系統(tǒng)結(jié)構(gòu)的物理元數(shù)據(jù),如表和字段。

            ■描述語義信息的邏輯元數(shù)據(jù),如數(shù)據(jù)庫描述、數(shù)據(jù)質(zhì)量評估和相關(guān)的數(shù)據(jù)管理策略。

            ■描述如何在各種業(yè)務(wù)場景中使用數(shù)據(jù)資產(chǎn)的行為元數(shù)據(jù)。行為元數(shù)據(jù)可能是最重要的,因為它可以自動洞察系統(tǒng)中的每個對象,比如模型、表和超級用戶的使用頻度。

            通過簡化數(shù)據(jù)發(fā)現(xiàn)、自動推斷元數(shù)據(jù)、提高這些推斷的準確性,以及提供業(yè)務(wù)術(shù)語表、數(shù)據(jù)元素定義、數(shù)據(jù)血緣和數(shù)據(jù)資產(chǎn)、數(shù)據(jù)義務(wù)(例如隱私保護)的可見性,有助于提供正確的數(shù)據(jù)資產(chǎn),并簡化數(shù)據(jù)使用者查找和使用公司數(shù)據(jù)資產(chǎn)的能力。更大程度發(fā)揮數(shù)據(jù)資產(chǎn)的價值。

            二、AI或機器學(xué)習(xí)與數(shù)據(jù)治理的關(guān)系

            隨著大數(shù)據(jù)在各個行業(yè)領(lǐng)域應(yīng)用的不斷深入,數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源的地位日益凸顯,如何構(gòu)建大數(shù)據(jù)環(huán)境下的數(shù)據(jù)資產(chǎn),以最大程度發(fā)揮數(shù)據(jù)要素資產(chǎn)價值成為企業(yè)關(guān)注的焦點,數(shù)據(jù)治理也隨之成為數(shù)字經(jīng)濟和大數(shù)據(jù)生態(tài)中的新熱點。與此同時,在政策、技術(shù)、需求等多重因素的推動下,以自動駕駛、智能客服、語音識別為代表的人工智能應(yīng)用快速興起,AI已經(jīng)成為全球科技巨頭的布局重點。那么,當(dāng)數(shù)據(jù)治理遇上AI(人工智能),將碰撞出怎樣的火花,又如何相互促進和發(fā)展呢?

            1、數(shù)據(jù)治理是AI應(yīng)用和發(fā)展的前提

            當(dāng)前,企業(yè)對全面數(shù)據(jù)治理的需求從未如此強烈。監(jiān)管機構(gòu)希望企業(yè)能更加清晰地了解數(shù)據(jù),對它進行有效的管控;企業(yè)管理層希望理清數(shù)據(jù)資產(chǎn),降低數(shù)據(jù)應(yīng)用的復(fù)雜性,對企業(yè)進行更高效的管理;企業(yè)員工也開始認識到數(shù)據(jù)的重要性,更多地采用數(shù)據(jù)驅(qū)動的方式來開展工作。數(shù)據(jù)治理正迅速發(fā)展成一種企業(yè)核心策略,只有做好數(shù)據(jù)治理,讓數(shù)據(jù)更加準確完整,并且安全合規(guī),才能釋放出數(shù)據(jù)的無限潛能,挖掘出更多有價值的數(shù)據(jù)應(yīng)用。

            人工智能技術(shù)在應(yīng)用和實踐中,確保數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全是最基礎(chǔ)的底層保障。由于人工智能的落地應(yīng)用效果會受到數(shù)據(jù)質(zhì)量和安全的影響,更多的企業(yè)開始反思并轉(zhuǎn)而去推動數(shù)據(jù)質(zhì)量和安全的提升,建立好的數(shù)據(jù)環(huán)境,再進行人工智能應(yīng)用的同步研發(fā)。大數(shù)據(jù)是人工智能技術(shù)研發(fā)、訓(xùn)練的關(guān)鍵,是人工智能長期發(fā)展的重要保障。只有當(dāng)人工智能系統(tǒng)能夠獲取更為準確、及時、一致的高質(zhì)量數(shù)據(jù),才能提供更有效、有用、精準性高的智能化服務(wù)。

            人工智能發(fā)展的另一個重點保障就是數(shù)據(jù)安全,人工智能系統(tǒng)的基礎(chǔ)是大數(shù)據(jù),要對外提供服務(wù),就會涉及數(shù)據(jù)的安全保護,在這個過程中,一系列的數(shù)據(jù)安全防護手段是必不可少的,如數(shù)據(jù)脫敏管理,對敏感信息的風(fēng)險評估、使用監(jiān)控,對數(shù)據(jù)的泄露檢測,數(shù)據(jù)庫保密檢查等。人工智能需要海量的數(shù)據(jù),人工智能技術(shù)的進步取決于各種來源數(shù)據(jù)的可用性,如何確保這些數(shù)據(jù)的安全性與保證用戶數(shù)據(jù)的隱私性是數(shù)據(jù)治理的重要領(lǐng)域。同時,通過對業(yè)務(wù)數(shù)據(jù)應(yīng)用語義計算、數(shù)據(jù)挖掘、機器學(xué)習(xí)、知識圖譜、認知計算等人工智能技術(shù),也可以促進企業(yè)數(shù)據(jù)安全保障體系完善。

            2、AI是智能化數(shù)據(jù)治理的有效保障

            經(jīng)過多年的理論更新、技術(shù)演進和應(yīng)用實踐,數(shù)據(jù)治理從概念到技術(shù)已經(jīng)發(fā)生了很多變化。特別是隨著人工智能的興起,數(shù)據(jù)治理技術(shù)和人工智能技術(shù)有效的融合在一起,使智能化數(shù)據(jù)治理成為可能。數(shù)據(jù)治理工作中,通過對大數(shù)據(jù)應(yīng)用機器學(xué)習(xí)技術(shù),作數(shù)據(jù)挖掘和分析,從而識別哪些是用戶隱私性數(shù)據(jù)、哪些數(shù)據(jù)可能有異常,一旦數(shù)據(jù)特征被確認,打上標(biāo)簽,未來再做數(shù)據(jù)管理時,就可以使用元數(shù)據(jù)管理的方法機制,對外提供服務(wù)。比如當(dāng)碰到涉及的某特殊標(biāo)記數(shù)據(jù),就會有相應(yīng)的流程啟動,或在相關(guān)的數(shù)據(jù)對外服務(wù)提供過程中,自動識別數(shù)據(jù)涉及的個人隱私,避免引起政策方面的風(fēng)險。通過AI技術(shù)的應(yīng)用,可以增強數(shù)據(jù)安全管理和元數(shù)據(jù)管理的能力。

            在開展數(shù)據(jù)質(zhì)量核查過程中,機器識別技術(shù)配合預(yù)置的質(zhì)量核查規(guī)則進行核查,僅針對少量核心核查規(guī)則,從大數(shù)據(jù)中選取訓(xùn)練數(shù)據(jù)樣本,經(jīng)過預(yù)處理,利用機器學(xué)習(xí)算法進行深度分析,提取公共特征和模型,可以定位數(shù)據(jù)質(zhì)量原因,做數(shù)據(jù)質(zhì)量問題的預(yù)測,并進一步形成知識庫。這樣就可以更進一步增強大數(shù)據(jù)生態(tài)下數(shù)據(jù)質(zhì)量管理的能力。

            對于數(shù)據(jù)模型的管理,機器學(xué)習(xí)技術(shù)可用來分析數(shù)據(jù)庫中數(shù)據(jù)實體的引用熱度,通過聚類算法自動識別數(shù)據(jù)模型間的內(nèi)在關(guān)系,還可以用于數(shù)據(jù)模型質(zhì)量的檢測和評估。對于非結(jié)構(gòu)化數(shù)據(jù)的管理,像文檔內(nèi)容,圖像,音頻,視頻,可以充分利用人工智能中的自然語言處理、圖像識別、語音識別、視頻處理等技術(shù)進行實現(xiàn)。

            3、AI在數(shù)據(jù)治理中的應(yīng)用

            當(dāng)前,企業(yè)數(shù)據(jù)治理將逐步發(fā)展為基于大數(shù)據(jù)的數(shù)據(jù)治理。大數(shù)據(jù)包括社交數(shù)據(jù),機器數(shù)據(jù)等,大數(shù)據(jù)對傳統(tǒng)數(shù)據(jù)治理工作帶來很多的擴展。在政策和流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲、安全等環(huán)節(jié);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲、保留、歸檔、處置時,要考慮大數(shù)據(jù)保存時間與存儲空間的平衡;大數(shù)據(jù)量大,因此應(yīng)識別對業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量;大數(shù)據(jù)還需要定義與其內(nèi)容相關(guān)的元數(shù)據(jù),需與傳統(tǒng)數(shù)據(jù)定義標(biāo)準保持一致,術(shù)語字典應(yīng)包含大數(shù)據(jù)的術(shù)語,需要為非結(jié)構(gòu)化數(shù)據(jù)提供分類、語義支持,Hadoop、NoSQL數(shù)據(jù)庫的技術(shù)元數(shù)據(jù)也同樣需要納入元數(shù)據(jù)存儲庫管理;此外,在隱私方面,應(yīng)考慮社交數(shù)據(jù)的隱私保護需求,制定相應(yīng)政策,還要將大數(shù)據(jù)治理與企業(yè)內(nèi)外部風(fēng)險管控需求建立聯(lián)系。

      數(shù)字化時代,大數(shù)據(jù)治理和人工智能技術(shù)的深度結(jié)合,將在數(shù)據(jù)治理領(lǐng)域發(fā)揮重要的作用:

            ■自動化數(shù)據(jù)發(fā)現(xiàn)和分類

            機器學(xué)習(xí)數(shù)據(jù)目錄可以為自動化數(shù)據(jù)發(fā)現(xiàn)過程提供種子, 提供數(shù)據(jù)結(jié)構(gòu)、類型和敏感性的分類。發(fā)現(xiàn)過程的早期迭代的結(jié)果可以提交給數(shù)據(jù)管理員和主題域業(yè)務(wù)專家,他們將審查推論,在必要時進行更正,并提供額外的信息類別和標(biāo)簽。

            機器學(xué)習(xí)算法將從這些人類互動中學(xué)習(xí),以完善發(fā)現(xiàn)分類過程,提高推理逼真度,同時減少人類交互的需要。

            ■提供數(shù)據(jù)消費者建議

            不同的數(shù)據(jù)使用者可以使用智能數(shù)據(jù)資產(chǎn)目錄搜索滿足需求的數(shù)據(jù)資產(chǎn)。機器學(xué)習(xí)算法利用主動學(xué)習(xí)通過結(jié)合用戶選擇和動作來迭代精煉預(yù)測模型,以改善搜索結(jié)果和推薦,將搜索結(jié)果顯示給不同類型的數(shù)據(jù)消費者。

            可以利用機器學(xué)習(xí)技術(shù)確認現(xiàn)有的業(yè)務(wù)術(shù)語定義,預(yù)測哪些有關(guān)數(shù)據(jù)資產(chǎn)可能滿足數(shù)據(jù)消費者的需求,以便更快地將正確的數(shù)據(jù)資產(chǎn)提供給正確的用戶,以滿足他們的報告和分析需求。

            ■評估數(shù)據(jù)的敏感性和遵從性

            不同的法律對個人隱私數(shù)據(jù)有不同的定義,個人信息被認為是“個人”或“私人”的,通過與人類的交互,智能數(shù)據(jù)發(fā)現(xiàn)可以學(xué)會自動將數(shù)據(jù)屬性分類為個人/私人數(shù)據(jù),并確定哪些數(shù)據(jù)資產(chǎn)包含敏感數(shù)據(jù),這些數(shù)據(jù)必須遵守規(guī)范。

            ■識別高價值的元數(shù)據(jù)

            企業(yè)使用機器學(xué)習(xí),分析員工使用過哪些數(shù)據(jù),為員工生成畫像,打上特定的標(biāo)簽,來做數(shù)據(jù)的推薦和優(yōu)化員工對數(shù)據(jù)應(yīng)用的搜索結(jié)果。

            這些描述員工數(shù)據(jù)消費形為、偏好特征的元數(shù)據(jù)信息,將成為企業(yè)的核心數(shù)據(jù)資產(chǎn),并發(fā)揮更大的洞察價值。

            ■智能化數(shù)據(jù)質(zhì)量管理

            機器學(xué)習(xí)可以識別信息系統(tǒng)中的異常數(shù)據(jù),那它也可以檢測工業(yè)制成品中的異常情況。

            企業(yè)可以通過將實體物品生產(chǎn)過程數(shù)字化,然后使用經(jīng)過訓(xùn)練的機器學(xué)習(xí)系統(tǒng)來識別不符合標(biāo)準或規(guī)格的產(chǎn)品數(shù)據(jù),挑出異常數(shù)據(jù),從而部分替代人類檢測員的工作。

            ■數(shù)據(jù)共享和數(shù)據(jù)服務(wù)

            企業(yè)可以充分利用人工智能技術(shù),以信息化、自動化方式,共享和開放一部分數(shù)據(jù)或數(shù)據(jù)加工結(jié)果,對外提供服務(wù),提升企業(yè)競爭力。

            最典型的就是現(xiàn)在各種客戶服務(wù)機器人,可以使用自然語言處理技術(shù)處理回答客戶提出的常見問題,并隨著時間的推移提高答案的質(zhì)量。

            三、人工智能在大數(shù)據(jù)治理系統(tǒng)的應(yīng)用

            基于人機交互的智能大數(shù)據(jù)治理系統(tǒng)的目的是建立人機結(jié)合的數(shù)據(jù)治理流程,同時結(jié)合基礎(chǔ)知識庫可以實現(xiàn)針對不同類型數(shù)據(jù)的智能處理,包括數(shù)據(jù)的自動感知、智能推薦轉(zhuǎn)換、數(shù)據(jù)豐富以及團隊協(xié)作等功能。

            基于人機交互的智能大數(shù)據(jù)治理系統(tǒng),利用統(tǒng)一的門戶系統(tǒng)進行數(shù)據(jù)治理項目和數(shù)據(jù)源的管理,其中數(shù)據(jù)源包括,結(jié)構(gòu)化數(shù)據(jù)源和非結(jié)構(gòu)化數(shù)據(jù)源。同樣數(shù)據(jù)的治理過程也分為結(jié)構(gòu)化數(shù)據(jù)治理和非結(jié)構(gòu)化數(shù)據(jù)治理。結(jié)構(gòu)化數(shù)據(jù)治理主要是基于機器學(xué)習(xí)算法,智能感知每一列數(shù)據(jù)的數(shù)據(jù)類型,并根據(jù)數(shù)據(jù)類型進行智能的數(shù)據(jù)治理操作推薦。完成對數(shù)據(jù)規(guī)范化和清洗后,基于數(shù)據(jù)豐富知識庫智能的進行語義層面的數(shù)據(jù)豐富操作。非結(jié)構(gòu)化數(shù)據(jù)治理主要基于自然語言處理算法,自動的對非結(jié)構(gòu)化數(shù)據(jù)進行命名實體的提取,以及各實體之間關(guān)系的提取,并可根據(jù)提取的數(shù)據(jù)類型,自動完成規(guī)范化的數(shù)據(jù)變換,人工可修正機器提取的實體和關(guān)系。同時,對非結(jié)構(gòu)化數(shù)據(jù)也會基于數(shù)據(jù)豐富知識庫智能的進行語義層面的數(shù)據(jù)豐富關(guān)聯(lián)。治理后的數(shù)據(jù),經(jīng)過數(shù)據(jù)發(fā)布流程,可對數(shù)據(jù)融合系統(tǒng)或其他數(shù)據(jù)分析系統(tǒng)提供,可直接使用的數(shù)據(jù)。

            基于人機交互的智能大數(shù)據(jù)治理系統(tǒng)的核心功能包括統(tǒng)一門戶、項目管理、結(jié)構(gòu)化數(shù)據(jù)治理、非結(jié)構(gòu)化數(shù)據(jù)治理、算法庫、知識庫、數(shù)據(jù)發(fā)布和運維管理七大功能。

            統(tǒng)一門戶是基于人機交互的智能大數(shù)據(jù)治理系統(tǒng)的人機交互接口,主要實現(xiàn)數(shù)據(jù)治理項目管理和數(shù)據(jù)源管理。

            項目管理實現(xiàn)數(shù)據(jù)治理任務(wù)的拆解、進度跟蹤和人員分配,具體包括項目的和任務(wù)的增刪改查。在創(chuàng)建任務(wù)時,可選擇參與本次任務(wù)的人員進行治理任務(wù)的分工與協(xié)作。

            數(shù)據(jù)源管理實現(xiàn)數(shù)據(jù)源的導(dǎo)入和存儲,可將待整理的原始數(shù)據(jù)進行備份,具體包括數(shù)據(jù)源的導(dǎo)入、列表、維護和詳情。在數(shù)據(jù)源導(dǎo)入時,可設(shè)定數(shù)據(jù)源的密級、權(quán)限、置信度、標(biāo)簽、來源等屬性信息。數(shù)據(jù)源的標(biāo)簽,可根據(jù)機器學(xué)習(xí)算法自動生成,也支持業(yè)務(wù)人員手動添加。

            結(jié)構(gòu)化數(shù)據(jù)治理是基于機器學(xué)習(xí)算法,對結(jié)構(gòu)化類型的數(shù)據(jù)源進行數(shù)據(jù)識別、數(shù)據(jù)重組、數(shù)據(jù)清洗、數(shù)據(jù)修復(fù)、數(shù)據(jù)豐富、數(shù)據(jù)校驗等數(shù)據(jù)治理操作。數(shù)據(jù)采樣是基于數(shù)據(jù)采樣算法,按行對數(shù)據(jù)進行智能的異常點采樣,可得到相互獨立、完全窮盡的異常點。數(shù)據(jù)識別是自動對數(shù)據(jù)進行類型的識別,不僅可以識別基礎(chǔ)類型,如字符串、整數(shù)、小數(shù),還可以智能的識別數(shù)據(jù)的業(yè)務(wù)類型,如住址、身份證、手機號、銀行卡等。基于人機交互的智能大數(shù)據(jù)治理系統(tǒng)具有自主學(xué)習(xí)的能力,可以自動的記憶用戶業(yè)務(wù)的專用數(shù)據(jù)類型,如交易號等。隨著人員的使用,系統(tǒng)可自動識別的數(shù)據(jù)類型會越來越多,識別準確率會越來越高。

            智能推薦是指對不同的數(shù)據(jù)對象和數(shù)據(jù)類型,系統(tǒng)可理解數(shù)據(jù)的語義推薦最合適的數(shù)據(jù)轉(zhuǎn)換操作。如針對列數(shù)據(jù)、行數(shù)據(jù)和值數(shù)據(jù)(單元格數(shù)據(jù))會提供不同的建議命令,針對每種模式下不同的數(shù)據(jù)類型,如日期型數(shù)據(jù)、電話數(shù)據(jù),系統(tǒng)同樣會推薦最合適的變換操作。命令集是針對某一具體變換要求的數(shù)據(jù)處理指令,通常需要調(diào)用機器學(xué)習(xí)算法。

            非結(jié)構(gòu)化數(shù)據(jù)治理是基于NLP算法,從非結(jié)構(gòu)化數(shù)據(jù)源提取實體和關(guān)系的數(shù)據(jù)治理流程。文檔解析是將原始文檔,解析為可在線標(biāo)注的模式,該模式下,可人工修正或提取文檔中的實體和關(guān)系。實體識別是在文檔解析后,可根據(jù)NLP算法和參數(shù),識別文檔中的實體數(shù)據(jù),實體識別后,通常需要對其進行規(guī)范化處理。關(guān)系提取與實體識別的原理類似,主要是調(diào)用的算法和參數(shù)不同,同時,輸出的結(jié)果是實體間的關(guān)系(事件信息)。人工修正是對系統(tǒng)識別結(jié)果的校驗與確認。

            算法庫是系統(tǒng)的算法平臺,是系統(tǒng)最為核心的部件。算法讓數(shù)據(jù)治理從豐富數(shù)據(jù)層面上升到語義層面,為數(shù)據(jù)治理過程服務(wù),讓數(shù)據(jù)治理過程更高效、更智能。包括NLP算法、推薦算法和豐富算法等算法模型。

            數(shù)據(jù)知識庫是輔助算法對數(shù)據(jù)進行語義層面的擴展和豐富。包括位置庫、標(biāo)準規(guī)范庫和各類標(biāo)注語料庫。位置庫包括網(wǎng)絡(luò)空間的所有可與地理位置進行關(guān)聯(lián)的知識庫,如IP地址、MAC地址、基站、WIFI、手機等網(wǎng)絡(luò)實體所對應(yīng)的物理位置。標(biāo)準規(guī)范是各類數(shù)據(jù)的清洗與規(guī)劃,如全球手機地域編碼等。標(biāo)準的語料庫,如中、英、維、阿拉伯語等機器翻譯所需語料。

            數(shù)據(jù)發(fā)布是指對治理后的數(shù)據(jù)進行輸出的過程。包括數(shù)據(jù)的共享交換與數(shù)據(jù)下載輸出,也包括與數(shù)據(jù)融合或數(shù)據(jù)分析系統(tǒng)進行在線數(shù)據(jù)傳輸?shù)目偩€接口。

            運維管理是系統(tǒng)的輔助功能模塊,實現(xiàn)系統(tǒng)的用戶管理、系統(tǒng)監(jiān)控和日志管理。用戶管理包括用戶的維護以及用戶的認證與授權(quán)。系統(tǒng)監(jiān)控包括業(yè)務(wù)的狀態(tài)監(jiān)控與管理。日志管理包括系統(tǒng)日志和用戶操作日志,日志一方面用于安全審計,一方面用于算法分析學(xué)習(xí),讓系統(tǒng)更智能。

            用戶通過統(tǒng)一門戶訪問和使用基于人機交互的智能大數(shù)據(jù)治理系統(tǒng),在登錄過程中需要從認證授權(quán)服務(wù)器獲得訪問令牌和權(quán)限,整個訪問使用過程中的操作,均被運維管理服務(wù)器進行記錄。

            用戶登錄后,可選擇進行整理的數(shù)據(jù)源,系統(tǒng)根據(jù)數(shù)據(jù)源的類型自動啟動結(jié)構(gòu)化數(shù)據(jù)治理任務(wù)或非結(jié)構(gòu)化數(shù)據(jù)治理任務(wù)。數(shù)據(jù)治理的過程中,按需調(diào)用算法庫和數(shù)據(jù)豐富知識庫。治理完成后進行數(shù)據(jù)的發(fā)布操作,為下游系統(tǒng)提供治理后的數(shù)據(jù)。

            四、基于人工智能的數(shù)據(jù)治理展望

            隨著數(shù)字時代的到來,數(shù)據(jù)治理和人工智能研究研發(fā)的關(guān)系日漸緊密。近年來,一些互聯(lián)網(wǎng)企業(yè)在享受人工智能技術(shù)紅利的同時,存在數(shù)據(jù)認知不清、數(shù)據(jù)治理不當(dāng)、客戶隱私數(shù)據(jù)使用不合規(guī)等現(xiàn)象,出現(xiàn)了不少負面事件。要防止大數(shù)據(jù)和人工智能的濫用和失控,應(yīng)該從人工智能的源頭——大數(shù)據(jù)上開始建立科學(xué)的數(shù)據(jù)治理體系,包括數(shù)據(jù)的質(zhì)量規(guī)范、制度政策、管理流程、職責(zé)定位和技術(shù)管控工具。數(shù)據(jù)治理體系是對商業(yè)價值和用戶隱私,以及企業(yè)長期利益和短期利益選擇的基礎(chǔ),建立數(shù)據(jù)治理體系是一個長期的過程,對于大型企業(yè),都應(yīng)當(dāng)在數(shù)據(jù)治理的規(guī)范和約束下應(yīng)用大數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價值,提供人工智能服務(wù)。

            數(shù)據(jù)治理是人工智能的基礎(chǔ),數(shù)據(jù)治理的目的是在業(yè)務(wù)價值驅(qū)動下提供高質(zhì)量的大數(shù)據(jù),而人工智能本身是大數(shù)據(jù)應(yīng)用的一種商業(yè)模式,數(shù)據(jù)治理和人工智能就好比一枚硬幣的正反面一樣密不可分,兩者的有機結(jié)合助力將加速開啟智能化數(shù)據(jù)治理的新時代。

            本文參考IBM《以機器學(xué)習(xí)為驅(qū)動的數(shù)據(jù)治理》、《 德塔大數(shù)據(jù)研究院數(shù)據(jù)治理》相關(guān)內(nèi)容

        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多