乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      切記:不要讓您的數(shù)據(jù)湖變成數(shù)據(jù)沼澤

       數(shù)據(jù)治理精英館 2021-12-24

      一、回顧幾個(gè)定義

      • 數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)倉(cāng)庫(kù)是一種存儲(chǔ)體系結(jié)構(gòu),用于保存從多個(gè)數(shù)據(jù)源中提取的數(shù)據(jù),包括企業(yè)內(nèi)的操作和事務(wù)數(shù)據(jù)存儲(chǔ)以及部門數(shù)據(jù)集市。數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)組合成一個(gè)聚合的摘要形式,適合企業(yè)范圍的數(shù)據(jù)分析和根據(jù)業(yè)務(wù)需要定制的報(bào)告。

      • 數(shù)據(jù)湖:數(shù)據(jù)湖是一個(gè)存儲(chǔ)庫(kù),它以本地格式保存大量原始或精煉的數(shù)據(jù),以便按需訪問(wèn)。這個(gè)術(shù)語(yǔ)有時(shí)與Apache Hadoop對(duì)象存儲(chǔ)相關(guān)聯(lián),但數(shù)據(jù)科學(xué)家越來(lái)越多地使用Data Lake這個(gè)術(shù)語(yǔ)來(lái)描述具有未定義的模式和數(shù)據(jù)需求的任何大型數(shù)據(jù)湖。分析人員僅在查詢數(shù)據(jù)時(shí)定義這些參數(shù)。

      • 數(shù)據(jù)沼澤:數(shù)據(jù)沼澤是一個(gè)設(shè)計(jì)糟糕、文檔不充分或維護(hù)不善的數(shù)據(jù)湖。這些缺陷損害了檢索數(shù)據(jù)的能力,用戶無(wú)法有效地分析和利用數(shù)據(jù)。即使數(shù)據(jù)存在,如果沒(méi)有上下文元數(shù)據(jù),數(shù)據(jù)沼澤也無(wú)法檢索它。

      數(shù)據(jù)湖的概念已經(jīng)存在了幾年了。它最初引起了一些爭(zhēng)議,并被貼上了營(yíng)銷炒作的標(biāo)簽。數(shù)據(jù)湖這個(gè)術(shù)語(yǔ)并不是任何傳統(tǒng)數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu)的一部分,因此供應(yīng)商可以自由地使用它來(lái)表示許多不同的東西。

      數(shù)據(jù)存儲(chǔ)術(shù)語(yǔ),如流、池、庫(kù)和云,在數(shù)據(jù)科學(xué)中廣泛使用。不可避免地,人們開(kāi)始繪制與自然水生態(tài)系統(tǒng)相似的圖形,所以現(xiàn)在我們也有了數(shù)據(jù)湖和數(shù)據(jù)沼澤。

      類比對(duì)于解釋概念是很好的,但是總是有把類比進(jìn)行得太遠(yuǎn)直到失敗的危險(xiǎn)。如果你是一個(gè)新進(jìn)入這個(gè)領(lǐng)域的人,并且不知道這一切的真正含義,類比也會(huì)使術(shù)語(yǔ)變得混亂。然而,隨著數(shù)據(jù)湖概念逐漸被接受,有人試圖定義一個(gè)體系結(jié)構(gòu)來(lái)形式化這些概念。

      二、看看一個(gè)有趣的類比

      Super Market有過(guò)道和架子,員工們可以在上面分類整齊地存放食品。你可以很容易地選擇和購(gòu)買你想要的商品。Super Market類似于一個(gè)數(shù)據(jù)庫(kù),它將數(shù)據(jù)資產(chǎn)存儲(chǔ)在表的行和列中,以便于檢索。

      Super Market庫(kù)存來(lái)自多個(gè)來(lái)源和供應(yīng)商,到達(dá)時(shí)間不同,按日期銷售也不同。類似地,數(shù)據(jù)可以在不同時(shí)間來(lái)自多個(gè)數(shù)據(jù)源。數(shù)據(jù)也可能變得陳舊,就像商品一樣。就像許多從Super Market買來(lái)的材料放在三明治里一樣,信息是特定環(huán)境中編目數(shù)據(jù)的集合。換句話說(shuō),三明治類似于信息。

      整個(gè)蔬菜類似于非結(jié)構(gòu)化數(shù)據(jù);切塊蔬菜類似于結(jié)構(gòu)化數(shù)據(jù)。(為了使這個(gè)類比有效,我假設(shè)所有的蔬菜都是非結(jié)構(gòu)化的。)

      現(xiàn)在,假設(shè)您當(dāng)?shù)氐娜髦蔚陱倪@家Super Market挑選和購(gòu)買食材,清潔和清洗食材,將它們切割成三明治使用,然后將它們分開(kāi)放置——就像在使用數(shù)據(jù)進(jìn)行分析之前對(duì)數(shù)據(jù)進(jìn)行清理、結(jié)構(gòu)化和規(guī)范化一樣。

      當(dāng)你想吃三明治時(shí),你就去三明治店。三明治店也可以有不同的柜臺(tái),在那里你可以得到三明治,包裝或沙拉-類似于數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)。就像柜臺(tái)是三明治店的一個(gè)子集一樣,數(shù)據(jù)集市也是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集。數(shù)據(jù)集市對(duì)應(yīng)于單個(gè)部門,而數(shù)據(jù)倉(cāng)庫(kù)對(duì)應(yīng)于整個(gè)企業(yè)。

      在三明治店,你看菜單,決定你想要什么樣的三明治,然后,你點(diǎn)了它。三明治制造商使用相同的重復(fù)過(guò)程來(lái)制作每一個(gè)三明治;事實(shí)上,你可以找到一些已經(jīng)制作好并包裝好的三明治,以便立即食用。三明治店類似于商業(yè)智能(BI)工具與數(shù)據(jù)倉(cāng)庫(kù)集成的菜單。分析還使用重復(fù)的過(guò)程來(lái)生成報(bào)告,并為用戶提供一些可立即使用的罐裝報(bào)告。

      大多數(shù)人喜歡定制三明治,要求改變配料的數(shù)量,改變裝飾,或者省略一些配料。同樣,使用BI工具,您可以通過(guò)選擇特定數(shù)據(jù)自定義報(bào)表。就像您可以通過(guò)指定三明治制造商的成分來(lái)創(chuàng)建自己的三明治一樣,您也可以通過(guò)在BI菜單中指定數(shù)據(jù)和算法來(lái)創(chuàng)建自定義分析報(bào)告。

      現(xiàn)在,假設(shè)你是一名食品檢查員,想確保用來(lái)準(zhǔn)備三明治的食品沒(méi)有被污染。此外,您還需要確保用于食品制備(包括清洗、清潔和切割)的過(guò)程是一致的,并且是在衛(wèi)生條件下完成的。在這種情況下,您需要審核用于食品制備的流程,并定期檢查食品制備區(qū)域。

      類似地,審計(jì)人員需要訪問(wèn)原始數(shù)據(jù),以驗(yàn)證在數(shù)據(jù)準(zhǔn)備過(guò)程中沒(méi)有由于轉(zhuǎn)錄、清理、格式化和規(guī)范化而對(duì)數(shù)據(jù)造成污染。與三明治店的Super Market不同,您可以復(fù)制和克隆數(shù)據(jù)。因此,對(duì)于法規(guī)遵從性和審核,存儲(chǔ)原始數(shù)據(jù)是可能的。

      最初,Data Lake是指存儲(chǔ)原始數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、音頻和視頻)的數(shù)據(jù)庫(kù)。然而,如前所述,供應(yīng)商對(duì)數(shù)據(jù)湖有其他定義。

      繼續(xù)這個(gè)類比,想象一下一個(gè)挑剔的消費(fèi)者對(duì)三明治柜臺(tái)上容器里的配料的來(lái)源和新鮮度表示懷疑。消費(fèi)者可能還想把三明治店里沒(méi)有的蔬菜或肉類放進(jìn)他們的三明治里。三明治店肯定不會(huì)允許消費(fèi)者在柜臺(tái)后面自己準(zhǔn)備三明治,所以消費(fèi)者別無(wú)選擇,只能去Super Market購(gòu)買食材,在自己的廚房里做三明治。通常,專業(yè)分析師和數(shù)據(jù)科學(xué)家希望訪問(wèn)原始數(shù)據(jù),而不是存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的已準(zhǔn)備好的匯總數(shù)據(jù):他們希望從源獲取最新數(shù)據(jù),以確保其有效性和相關(guān)性。他們還可能希望看到數(shù)據(jù)的到達(dá)速度,這可能會(huì)在準(zhǔn)備過(guò)程中受到掩蔽。如果分析人員希望看到數(shù)據(jù)倉(cāng)庫(kù)中未考慮的其他數(shù)據(jù),他們將希望直接訪問(wèn)原始數(shù)據(jù)庫(kù)。數(shù)據(jù)湖不直接訪問(wèn)源數(shù)據(jù),而是保留原始數(shù)據(jù)庫(kù)的克隆以滿足此類訪問(wèn)需要,并對(duì)新的分析進(jìn)行沙箱處理。

      有時(shí),一個(gè)美食三明治制造商可能會(huì)堅(jiān)持從農(nóng)場(chǎng)主那里而不是從Super Market買新鮮的配料。在這種情況下,美食三明治制造商必須復(fù)制Super Market農(nóng)產(chǎn)品購(gòu)買者的功能,這類似于來(lái)自物聯(lián)網(wǎng)(IoT)設(shè)備的實(shí)時(shí)數(shù)據(jù)。在這種情況下,數(shù)據(jù)湖必須對(duì)此類實(shí)時(shí)數(shù)據(jù)流執(zhí)行提取、轉(zhuǎn)換、加載(ETL)功能。

      最后,想象一下一家破舊的三明治店。柜臺(tái)上的集裝箱沒(méi)有標(biāo)簽。蔬菜和肉類隨意地相互溢出,甚至連三明治制造商也不確定最后一個(gè)容器里到底是什么類型的肉。顧客可能會(huì)走出去,因?yàn)樗麄儾淮_定他們要吃什么樣的三明治。這類似于數(shù)據(jù)沼澤,它是一個(gè)維護(hù)不善的數(shù)據(jù)湖。這些數(shù)據(jù)就像一塊神秘的肉,沒(méi)有人能證實(shí)其中一些數(shù)據(jù)的來(lái)歷。好的數(shù)據(jù)是不可訪問(wèn)的,因?yàn)閿?shù)據(jù)沼澤沒(méi)有適當(dāng)?shù)赜涗洠ɑ蛘吒愕氖?,錯(cuò)誤地記錄)元數(shù)據(jù)標(biāo)簽,或者某些數(shù)據(jù)的格式是集成工具無(wú)法讀取或無(wú)法通過(guò)查詢檢索的。

      三、為什么我們真的需要數(shù)據(jù)湖

      您現(xiàn)在知道,我們需要數(shù)據(jù)湖有以下幾個(gè)原因:

      • 作為用于法規(guī)遵從性和審核目的的原始數(shù)據(jù)存儲(chǔ)庫(kù)(例如,音頻和視頻錄制、文檔掃描以及文本和日志文件)

      • 作為數(shù)據(jù)科學(xué)家和分析人員訪問(wèn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行驗(yàn)證和沙箱新分析模型的平臺(tái)

      • 作為一個(gè)平臺(tái),集成來(lái)自運(yùn)營(yíng)或交易系統(tǒng)的實(shí)時(shí)數(shù)據(jù),以及越來(lái)越多來(lái)自物聯(lián)網(wǎng)設(shè)備的傳感器數(shù)據(jù)

      數(shù)據(jù)倉(cāng)庫(kù)提供的聚合和摘要數(shù)據(jù)足夠大多數(shù)BI用戶使用。數(shù)據(jù)湖的用戶可以是審計(jì)人員、專業(yè)分析師和數(shù)據(jù)科學(xué)家。企業(yè)選擇創(chuàng)建數(shù)據(jù)湖還有什么其他令人信服的原因?因此,值得研究數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別。

      數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖有什么區(qū)別?

      數(shù)據(jù)倉(cāng)庫(kù)是一種成熟而安全的技術(shù),具有正式的體系結(jié)構(gòu)。它們存儲(chǔ)完全處理和結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)受數(shù)據(jù)治理過(guò)程的約束。數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)合并成一個(gè)聚合的摘要表單,以便在執(zhí)行數(shù)據(jù)寫入操作時(shí)使用企業(yè)范圍的數(shù)據(jù)并寫入元數(shù)據(jù)和架構(gòu)定義。數(shù)據(jù)倉(cāng)庫(kù)通常有固定的配置;它們是高度結(jié)構(gòu)化的,因此靈活性和敏捷性較差。在存儲(chǔ)之前處理所有數(shù)據(jù)會(huì)產(chǎn)生成本,而大容量存儲(chǔ)相對(duì)來(lái)說(shuō)成本更高。

      相比之下,數(shù)據(jù)湖是一種較新的技術(shù),具有不斷發(fā)展的體系結(jié)構(gòu)。數(shù)據(jù)湖以任何形式存儲(chǔ)原始數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以及任何格式的數(shù)據(jù),包括文本、音頻、視頻和圖像。按照定義,數(shù)據(jù)湖不受數(shù)據(jù)治理的約束,但專家們一致認(rèn)為,良好的數(shù)據(jù)管理對(duì)于防止數(shù)據(jù)湖變成數(shù)據(jù)沼澤至關(guān)重要。數(shù)據(jù)湖在數(shù)據(jù)讀取操作期間創(chuàng)建模式。數(shù)據(jù)湖的結(jié)構(gòu)較少,而且更靈活;它們比數(shù)據(jù)倉(cāng)庫(kù)提供更好的靈活性。在數(shù)據(jù)檢索之前,不需要進(jìn)行任何處理,數(shù)據(jù)湖通過(guò)設(shè)計(jì)使用廉價(jià)的存儲(chǔ)。

      盡管數(shù)據(jù)湖有其優(yōu)勢(shì),但在安全性、治理和管理方面仍有一些需要改進(jìn)的地方。但是,房間里有一頭大象是一個(gè)引人注目的焦點(diǎn)。

      機(jī)器學(xué)習(xí)與深度學(xué)習(xí)

      數(shù)據(jù)湖越來(lái)越多的應(yīng)用于機(jī)器學(xué)習(xí)和深入學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘和分析。對(duì)于傳統(tǒng)的搜索和分析來(lái)說(shuō),軟件審計(jì)是一個(gè)成熟的領(lǐng)域,但對(duì)于用于數(shù)據(jù)挖掘和分析的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)來(lái)說(shuō),它還處于初級(jí)階段。

      語(yǔ)音抄寫、光學(xué)字符識(shí)別、圖像和視頻識(shí)別等,目前普遍采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)。數(shù)據(jù)科學(xué)家需要訪問(wèn)原始的、非結(jié)構(gòu)化的數(shù)據(jù),以訓(xùn)練這些系統(tǒng)執(zhí)行系統(tǒng)驗(yàn)證并確保審計(jì)跟蹤。類似地,深度學(xué)習(xí)執(zhí)行數(shù)據(jù)挖掘等任務(wù),以查找維度和時(shí)間序列數(shù)據(jù)之間的模式和關(guān)系。

      另一個(gè)深度學(xué)習(xí)應(yīng)用程序是提取查詢無(wú)法檢索的以前無(wú)法訪問(wèn)的數(shù)據(jù)。這類數(shù)據(jù)稱為暗數(shù)據(jù),在數(shù)據(jù)挖掘和分析應(yīng)用中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的出現(xiàn)是轉(zhuǎn)向數(shù)據(jù)湖架構(gòu)的一個(gè)非常有說(shuō)服力的原因。

      四、數(shù)據(jù)湖的幾個(gè)好處

      • 簡(jiǎn)單的數(shù)據(jù)收集和接收:企業(yè)中的所有數(shù)據(jù)源都會(huì)進(jìn)入數(shù)據(jù)湖。因此,數(shù)據(jù)湖成為存儲(chǔ)在本地服務(wù)器或云服務(wù)器中的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的無(wú)縫訪問(wèn)點(diǎn)。因此,整個(gè)無(wú)固定格式存儲(chǔ)的數(shù)據(jù)收集很容易被數(shù)據(jù)分析工具接收。此外,數(shù)據(jù)湖可以以多種文件格式存儲(chǔ)多種格式的數(shù)據(jù),如文本、音頻、視頻和圖像。這種靈活性簡(jiǎn)化了遺留數(shù)據(jù)存儲(chǔ)的集成。

      • 對(duì)實(shí)時(shí)數(shù)據(jù)源的支持:數(shù)據(jù)湖支持實(shí)時(shí)和高速數(shù)據(jù)流的ETL功能,這允許來(lái)自物聯(lián)網(wǎng)設(shè)備的傳感器數(shù)據(jù)與數(shù)據(jù)湖內(nèi)的其他數(shù)據(jù)源聚合。

      • 更快的數(shù)據(jù)準(zhǔn)備:分析師和數(shù)據(jù)科學(xué)家不必花費(fèi)時(shí)間直接訪問(wèn)多個(gè)數(shù)據(jù)源,而且可以更輕松地搜索、查找和訪問(wèn)數(shù)據(jù),從而加快數(shù)據(jù)準(zhǔn)備和重用過(guò)程。數(shù)據(jù)庫(kù)還跟蹤和確認(rèn)數(shù)據(jù)路徑,這有助于確保數(shù)據(jù)是可信的,并為數(shù)據(jù)驅(qū)動(dòng)的決策生成及時(shí)的BI。

      • 更好的可伸縮性和靈活性:數(shù)據(jù)湖可以利用分布式文件系統(tǒng)進(jìn)行存儲(chǔ),因此具有高度的可伸縮性。使用開(kāi)源技術(shù)也降低了存儲(chǔ)成本。數(shù)據(jù)湖的結(jié)構(gòu)不那么嚴(yán)格,因此具有更好的靈活性,從而帶來(lái)更好的靈活性。數(shù)據(jù)科學(xué)家可以在數(shù)據(jù)湖內(nèi)創(chuàng)建沙盒,以開(kāi)發(fā)和測(cè)試新的分析模型。

      • 人工智能高級(jí)分析:獲取原始數(shù)據(jù)、創(chuàng)建沙盒的能力以及重新配置的靈活性,使數(shù)據(jù)湖成為快速開(kāi)發(fā)和使用高級(jí)分析模型的強(qiáng)大平臺(tái)。數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)執(zhí)行數(shù)據(jù)挖掘和數(shù)據(jù)分析等任務(wù)以及提取非結(jié)構(gòu)化數(shù)據(jù)。

      數(shù)據(jù)湖的發(fā)展更多的是技術(shù)的融合而不是演化而來(lái)。數(shù)據(jù)倉(cāng)庫(kù)是從它們的前身關(guān)系數(shù)據(jù)庫(kù)進(jìn)化而來(lái)的,但我們不能說(shuō)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)也是如此。

      數(shù)據(jù)湖匯集了多種技術(shù),包括數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)和高速數(shù)據(jù)流技術(shù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲(chǔ)和其他技術(shù)。然而,有一種感覺(jué)是,在專業(yè)數(shù)據(jù)科學(xué)家或分析師中,數(shù)據(jù)湖的用戶群體有限。另一個(gè)常見(jiàn)的誤解是將數(shù)據(jù)湖概念與特定的支持技術(shù)(如Hadoop)聯(lián)系起來(lái)。

      不過(guò),數(shù)據(jù)湖概念比任何一種底層技術(shù)都有更大的潛力,而且隨著供應(yīng)商添加特性和功能,它正在不斷發(fā)展。潛在增長(zhǎng)領(lǐng)域包括:

      • 架構(gòu)標(biāo)準(zhǔn)化和互操作性

      • 數(shù)據(jù)湖的治理和管理

      • 整體數(shù)據(jù)安全

      與大多數(shù)不斷發(fā)展的技術(shù)一樣,供應(yīng)商和業(yè)務(wù)驅(qū)動(dòng)者之間的競(jìng)爭(zhēng)也在推動(dòng)這一障礙。數(shù)據(jù)湖在數(shù)據(jù)存儲(chǔ)技術(shù)中獲得廣泛接受只是時(shí)間問(wèn)題。

      六、數(shù)據(jù)湖的典型應(yīng)用

      數(shù)據(jù)湖的一些特性使它們非常適合醫(yī)療、銀行等行業(yè)應(yīng)用。

      1、醫(yī)療保健與生命科學(xué)

      數(shù)據(jù)湖可以幫助解決電子病歷(EMR)的互操作性問(wèn)題。授權(quán)使用電子病歷的目的是讓醫(yī)生能夠跨多個(gè)系統(tǒng)訪問(wèn)患者醫(yī)療記錄,并在提供者之間方便地轉(zhuǎn)換患者護(hù)理。實(shí)際上,這些記錄中的許多——包括保險(xiǎn)索賠和臨床數(shù)據(jù)——要么不可互操作,要么不以機(jī)器可讀數(shù)據(jù)的形式存在。數(shù)據(jù)湖在檢索之前以任何格式存儲(chǔ)記錄。所以,病人的病歷可能還包括手寫的醫(yī)生筆記、醫(yī)學(xué)影像等。數(shù)據(jù)湖還具有從實(shí)時(shí)數(shù)據(jù)流中提取和存儲(chǔ)數(shù)據(jù)的能力,這是由于醫(yī)療設(shè)備遙測(cè)和物聯(lián)網(wǎng)在醫(yī)療保健中的應(yīng)用日益廣泛。

      2、銀行和金融

      銀行和金融業(yè)通常處理多個(gè)數(shù)據(jù)源。它還處理高速交易數(shù)據(jù),從股市到信用卡,以及其他銀行交易。銀行和金融機(jī)構(gòu)定期存儲(chǔ)法律和其他文件,以滿足法規(guī)遵從性和審計(jì)要求。數(shù)據(jù)湖非常適合存儲(chǔ)這些混合數(shù)據(jù)格式,并以數(shù)字方式存儲(chǔ)遺留數(shù)據(jù)以便于檢索。數(shù)據(jù)湖作為一個(gè)靈活的平臺(tái),可以吸收多個(gè)數(shù)據(jù)流,以便在這個(gè)垂直行業(yè)中大量使用分析。

      七、總結(jié)

         如果設(shè)計(jì)和實(shí)現(xiàn)得當(dāng),數(shù)據(jù)湖是存儲(chǔ)大量多格式數(shù)據(jù)而不是數(shù)據(jù)豎井的強(qiáng)大方法。它們減少了數(shù)據(jù)接收和轉(zhuǎn)換的時(shí)間和成本,從而使數(shù)據(jù)能夠及時(shí)地提供給用戶。它們還允許使用成本較低的分布式存儲(chǔ)。數(shù)據(jù)湖在架構(gòu)上尚未成熟,目前供應(yīng)商產(chǎn)品之間缺乏標(biāo)準(zhǔn)化。數(shù)據(jù)湖仍在不斷發(fā)展和添加新功能,以改進(jìn)訪問(wèn)控制、安全、數(shù)據(jù)管理、治理等功能。用于數(shù)據(jù)挖掘和分析的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的出現(xiàn),帶來(lái)了對(duì)一個(gè)平臺(tái)的需求,該平臺(tái)提供對(duì)原始數(shù)據(jù)的簡(jiǎn)單訪問(wèn),以培訓(xùn)這些系統(tǒng),進(jìn)行系統(tǒng)驗(yàn)證,并確保審計(jì)跟蹤。數(shù)據(jù)湖很好的滿足了這一需求。深度學(xué)習(xí)還允許訪問(wèn)數(shù)據(jù)湖中以前攝取的遺留數(shù)據(jù),這些數(shù)據(jù)湖通過(guò)標(biāo)準(zhǔn)的查詢機(jī)制才能訪問(wèn)。

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多