一、回顧幾個(gè)定義
數(shù)據(jù)湖的概念已經(jīng)存在了幾年了。它最初引起了一些爭(zhēng)議,并被貼上了營(yíng)銷炒作的標(biāo)簽。數(shù)據(jù)湖這個(gè)術(shù)語(yǔ)并不是任何傳統(tǒng)數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu)的一部分,因此供應(yīng)商可以自由地使用它來(lái)表示許多不同的東西。 數(shù)據(jù)存儲(chǔ)術(shù)語(yǔ),如流、池、庫(kù)和云,在數(shù)據(jù)科學(xué)中廣泛使用。不可避免地,人們開(kāi)始繪制與自然水生態(tài)系統(tǒng)相似的圖形,所以現(xiàn)在我們也有了數(shù)據(jù)湖和數(shù)據(jù)沼澤。 類比對(duì)于解釋概念是很好的,但是總是有把類比進(jìn)行得太遠(yuǎn)直到失敗的危險(xiǎn)。如果你是一個(gè)新進(jìn)入這個(gè)領(lǐng)域的人,并且不知道這一切的真正含義,類比也會(huì)使術(shù)語(yǔ)變得混亂。然而,隨著數(shù)據(jù)湖概念逐漸被接受,有人試圖定義一個(gè)體系結(jié)構(gòu)來(lái)形式化這些概念。 二、看看一個(gè)有趣的類比 Super Market有過(guò)道和架子,員工們可以在上面分類整齊地存放食品。你可以很容易地選擇和購(gòu)買你想要的商品。Super Market類似于一個(gè)數(shù)據(jù)庫(kù),它將數(shù)據(jù)資產(chǎn)存儲(chǔ)在表的行和列中,以便于檢索。 Super Market庫(kù)存來(lái)自多個(gè)來(lái)源和供應(yīng)商,到達(dá)時(shí)間不同,按日期銷售也不同。類似地,數(shù)據(jù)可以在不同時(shí)間來(lái)自多個(gè)數(shù)據(jù)源。數(shù)據(jù)也可能變得陳舊,就像商品一樣。就像許多從Super Market買來(lái)的材料放在三明治里一樣,信息是特定環(huán)境中編目數(shù)據(jù)的集合。換句話說(shuō),三明治類似于信息。 整個(gè)蔬菜類似于非結(jié)構(gòu)化數(shù)據(jù);切塊蔬菜類似于結(jié)構(gòu)化數(shù)據(jù)。(為了使這個(gè)類比有效,我假設(shè)所有的蔬菜都是非結(jié)構(gòu)化的。) 現(xiàn)在,假設(shè)您當(dāng)?shù)氐娜髦蔚陱倪@家Super Market挑選和購(gòu)買食材,清潔和清洗食材,將它們切割成三明治使用,然后將它們分開(kāi)放置——就像在使用數(shù)據(jù)進(jìn)行分析之前對(duì)數(shù)據(jù)進(jìn)行清理、結(jié)構(gòu)化和規(guī)范化一樣。 當(dāng)你想吃三明治時(shí),你就去三明治店。三明治店也可以有不同的柜臺(tái),在那里你可以得到三明治,包裝或沙拉-類似于數(shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)。就像柜臺(tái)是三明治店的一個(gè)子集一樣,數(shù)據(jù)集市也是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集。數(shù)據(jù)集市對(duì)應(yīng)于單個(gè)部門,而數(shù)據(jù)倉(cāng)庫(kù)對(duì)應(yīng)于整個(gè)企業(yè)。 在三明治店,你看菜單,決定你想要什么樣的三明治,然后,你點(diǎn)了它。三明治制造商使用相同的重復(fù)過(guò)程來(lái)制作每一個(gè)三明治;事實(shí)上,你可以找到一些已經(jīng)制作好并包裝好的三明治,以便立即食用。三明治店類似于商業(yè)智能(BI)工具與數(shù)據(jù)倉(cāng)庫(kù)集成的菜單。分析還使用重復(fù)的過(guò)程來(lái)生成報(bào)告,并為用戶提供一些可立即使用的罐裝報(bào)告。 大多數(shù)人喜歡定制三明治,要求改變配料的數(shù)量,改變裝飾,或者省略一些配料。同樣,使用BI工具,您可以通過(guò)選擇特定數(shù)據(jù)自定義報(bào)表。就像您可以通過(guò)指定三明治制造商的成分來(lái)創(chuàng)建自己的三明治一樣,您也可以通過(guò)在BI菜單中指定數(shù)據(jù)和算法來(lái)創(chuàng)建自定義分析報(bào)告。 現(xiàn)在,假設(shè)你是一名食品檢查員,想確保用來(lái)準(zhǔn)備三明治的食品沒(méi)有被污染。此外,您還需要確保用于食品制備(包括清洗、清潔和切割)的過(guò)程是一致的,并且是在衛(wèi)生條件下完成的。在這種情況下,您需要審核用于食品制備的流程,并定期檢查食品制備區(qū)域。 類似地,審計(jì)人員需要訪問(wèn)原始數(shù)據(jù),以驗(yàn)證在數(shù)據(jù)準(zhǔn)備過(guò)程中沒(méi)有由于轉(zhuǎn)錄、清理、格式化和規(guī)范化而對(duì)數(shù)據(jù)造成污染。與三明治店的Super Market不同,您可以復(fù)制和克隆數(shù)據(jù)。因此,對(duì)于法規(guī)遵從性和審核,存儲(chǔ)原始數(shù)據(jù)是可能的。 最初,Data Lake是指存儲(chǔ)原始數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、音頻和視頻)的數(shù)據(jù)庫(kù)。然而,如前所述,供應(yīng)商對(duì)數(shù)據(jù)湖有其他定義。 繼續(xù)這個(gè)類比,想象一下一個(gè)挑剔的消費(fèi)者對(duì)三明治柜臺(tái)上容器里的配料的來(lái)源和新鮮度表示懷疑。消費(fèi)者可能還想把三明治店里沒(méi)有的蔬菜或肉類放進(jìn)他們的三明治里。三明治店肯定不會(huì)允許消費(fèi)者在柜臺(tái)后面自己準(zhǔn)備三明治,所以消費(fèi)者別無(wú)選擇,只能去Super Market購(gòu)買食材,在自己的廚房里做三明治。通常,專業(yè)分析師和數(shù)據(jù)科學(xué)家希望訪問(wèn)原始數(shù)據(jù),而不是存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的已準(zhǔn)備好的匯總數(shù)據(jù):他們希望從源獲取最新數(shù)據(jù),以確保其有效性和相關(guān)性。他們還可能希望看到數(shù)據(jù)的到達(dá)速度,這可能會(huì)在準(zhǔn)備過(guò)程中受到掩蔽。如果分析人員希望看到數(shù)據(jù)倉(cāng)庫(kù)中未考慮的其他數(shù)據(jù),他們將希望直接訪問(wèn)原始數(shù)據(jù)庫(kù)。數(shù)據(jù)湖不直接訪問(wèn)源數(shù)據(jù),而是保留原始數(shù)據(jù)庫(kù)的克隆以滿足此類訪問(wèn)需要,并對(duì)新的分析進(jìn)行沙箱處理。 有時(shí),一個(gè)美食三明治制造商可能會(huì)堅(jiān)持從農(nóng)場(chǎng)主那里而不是從Super Market買新鮮的配料。在這種情況下,美食三明治制造商必須復(fù)制Super Market農(nóng)產(chǎn)品購(gòu)買者的功能,這類似于來(lái)自物聯(lián)網(wǎng)(IoT)設(shè)備的實(shí)時(shí)數(shù)據(jù)。在這種情況下,數(shù)據(jù)湖必須對(duì)此類實(shí)時(shí)數(shù)據(jù)流執(zhí)行提取、轉(zhuǎn)換、加載(ETL)功能。 最后,想象一下一家破舊的三明治店。柜臺(tái)上的集裝箱沒(méi)有標(biāo)簽。蔬菜和肉類隨意地相互溢出,甚至連三明治制造商也不確定最后一個(gè)容器里到底是什么類型的肉。顧客可能會(huì)走出去,因?yàn)樗麄儾淮_定他們要吃什么樣的三明治。這類似于數(shù)據(jù)沼澤,它是一個(gè)維護(hù)不善的數(shù)據(jù)湖。這些數(shù)據(jù)就像一塊神秘的肉,沒(méi)有人能證實(shí)其中一些數(shù)據(jù)的來(lái)歷。好的數(shù)據(jù)是不可訪問(wèn)的,因?yàn)閿?shù)據(jù)沼澤沒(méi)有適當(dāng)?shù)赜涗洠ɑ蛘吒愕氖?,錯(cuò)誤地記錄)元數(shù)據(jù)標(biāo)簽,或者某些數(shù)據(jù)的格式是集成工具無(wú)法讀取或無(wú)法通過(guò)查詢檢索的。 三、為什么我們真的需要數(shù)據(jù)湖 您現(xiàn)在知道,我們需要數(shù)據(jù)湖有以下幾個(gè)原因:
數(shù)據(jù)倉(cāng)庫(kù)提供的聚合和摘要數(shù)據(jù)足夠大多數(shù)BI用戶使用。數(shù)據(jù)湖的用戶可以是審計(jì)人員、專業(yè)分析師和數(shù)據(jù)科學(xué)家。企業(yè)選擇創(chuàng)建數(shù)據(jù)湖還有什么其他令人信服的原因?因此,值得研究數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別。 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖有什么區(qū)別? 數(shù)據(jù)倉(cāng)庫(kù)是一種成熟而安全的技術(shù),具有正式的體系結(jié)構(gòu)。它們存儲(chǔ)完全處理和結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)受數(shù)據(jù)治理過(guò)程的約束。數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)合并成一個(gè)聚合的摘要表單,以便在執(zhí)行數(shù)據(jù)寫入操作時(shí)使用企業(yè)范圍的數(shù)據(jù)并寫入元數(shù)據(jù)和架構(gòu)定義。數(shù)據(jù)倉(cāng)庫(kù)通常有固定的配置;它們是高度結(jié)構(gòu)化的,因此靈活性和敏捷性較差。在存儲(chǔ)之前處理所有數(shù)據(jù)會(huì)產(chǎn)生成本,而大容量存儲(chǔ)相對(duì)來(lái)說(shuō)成本更高。 相比之下,數(shù)據(jù)湖是一種較新的技術(shù),具有不斷發(fā)展的體系結(jié)構(gòu)。數(shù)據(jù)湖以任何形式存儲(chǔ)原始數(shù)據(jù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),以及任何格式的數(shù)據(jù),包括文本、音頻、視頻和圖像。按照定義,數(shù)據(jù)湖不受數(shù)據(jù)治理的約束,但專家們一致認(rèn)為,良好的數(shù)據(jù)管理對(duì)于防止數(shù)據(jù)湖變成數(shù)據(jù)沼澤至關(guān)重要。數(shù)據(jù)湖在數(shù)據(jù)讀取操作期間創(chuàng)建模式。數(shù)據(jù)湖的結(jié)構(gòu)較少,而且更靈活;它們比數(shù)據(jù)倉(cāng)庫(kù)提供更好的靈活性。在數(shù)據(jù)檢索之前,不需要進(jìn)行任何處理,數(shù)據(jù)湖通過(guò)設(shè)計(jì)使用廉價(jià)的存儲(chǔ)。 盡管數(shù)據(jù)湖有其優(yōu)勢(shì),但在安全性、治理和管理方面仍有一些需要改進(jìn)的地方。但是,房間里有一頭大象是一個(gè)引人注目的焦點(diǎn)。 機(jī)器學(xué)習(xí)與深度學(xué)習(xí) 數(shù)據(jù)湖越來(lái)越多的應(yīng)用于機(jī)器學(xué)習(xí)和深入學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘和分析。對(duì)于傳統(tǒng)的搜索和分析來(lái)說(shuō),軟件審計(jì)是一個(gè)成熟的領(lǐng)域,但對(duì)于用于數(shù)據(jù)挖掘和分析的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)來(lái)說(shuō),它還處于初級(jí)階段。 語(yǔ)音抄寫、光學(xué)字符識(shí)別、圖像和視頻識(shí)別等,目前普遍采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)。數(shù)據(jù)科學(xué)家需要訪問(wèn)原始的、非結(jié)構(gòu)化的數(shù)據(jù),以訓(xùn)練這些系統(tǒng)執(zhí)行系統(tǒng)驗(yàn)證并確保審計(jì)跟蹤。類似地,深度學(xué)習(xí)執(zhí)行數(shù)據(jù)挖掘等任務(wù),以查找維度和時(shí)間序列數(shù)據(jù)之間的模式和關(guān)系。 另一個(gè)深度學(xué)習(xí)應(yīng)用程序是提取查詢無(wú)法檢索的以前無(wú)法訪問(wèn)的數(shù)據(jù)。這類數(shù)據(jù)稱為暗數(shù)據(jù),在數(shù)據(jù)挖掘和分析應(yīng)用中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的出現(xiàn)是轉(zhuǎn)向數(shù)據(jù)湖架構(gòu)的一個(gè)非常有說(shuō)服力的原因。 四、數(shù)據(jù)湖的幾個(gè)好處
數(shù)據(jù)湖的發(fā)展更多的是技術(shù)的融合而不是演化而來(lái)。數(shù)據(jù)倉(cāng)庫(kù)是從它們的前身關(guān)系數(shù)據(jù)庫(kù)進(jìn)化而來(lái)的,但我們不能說(shuō)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)也是如此。 數(shù)據(jù)湖匯集了多種技術(shù),包括數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)和高速數(shù)據(jù)流技術(shù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲(chǔ)和其他技術(shù)。然而,有一種感覺(jué)是,在專業(yè)數(shù)據(jù)科學(xué)家或分析師中,數(shù)據(jù)湖的用戶群體有限。另一個(gè)常見(jiàn)的誤解是將數(shù)據(jù)湖概念與特定的支持技術(shù)(如Hadoop)聯(lián)系起來(lái)。 不過(guò),數(shù)據(jù)湖概念比任何一種底層技術(shù)都有更大的潛力,而且隨著供應(yīng)商添加特性和功能,它正在不斷發(fā)展。潛在增長(zhǎng)領(lǐng)域包括:
與大多數(shù)不斷發(fā)展的技術(shù)一樣,供應(yīng)商和業(yè)務(wù)驅(qū)動(dòng)者之間的競(jìng)爭(zhēng)也在推動(dòng)這一障礙。數(shù)據(jù)湖在數(shù)據(jù)存儲(chǔ)技術(shù)中獲得廣泛接受只是時(shí)間問(wèn)題。 六、數(shù)據(jù)湖的典型應(yīng)用 數(shù)據(jù)湖的一些特性使它們非常適合醫(yī)療、銀行等行業(yè)應(yīng)用。 1、醫(yī)療保健與生命科學(xué) 數(shù)據(jù)湖可以幫助解決電子病歷(EMR)的互操作性問(wèn)題。授權(quán)使用電子病歷的目的是讓醫(yī)生能夠跨多個(gè)系統(tǒng)訪問(wèn)患者醫(yī)療記錄,并在提供者之間方便地轉(zhuǎn)換患者護(hù)理。實(shí)際上,這些記錄中的許多——包括保險(xiǎn)索賠和臨床數(shù)據(jù)——要么不可互操作,要么不以機(jī)器可讀數(shù)據(jù)的形式存在。數(shù)據(jù)湖在檢索之前以任何格式存儲(chǔ)記錄。所以,病人的病歷可能還包括手寫的醫(yī)生筆記、醫(yī)學(xué)影像等。數(shù)據(jù)湖還具有從實(shí)時(shí)數(shù)據(jù)流中提取和存儲(chǔ)數(shù)據(jù)的能力,這是由于醫(yī)療設(shè)備遙測(cè)和物聯(lián)網(wǎng)在醫(yī)療保健中的應(yīng)用日益廣泛。 2、銀行和金融 銀行和金融業(yè)通常處理多個(gè)數(shù)據(jù)源。它還處理高速交易數(shù)據(jù),從股市到信用卡,以及其他銀行交易。銀行和金融機(jī)構(gòu)定期存儲(chǔ)法律和其他文件,以滿足法規(guī)遵從性和審計(jì)要求。數(shù)據(jù)湖非常適合存儲(chǔ)這些混合數(shù)據(jù)格式,并以數(shù)字方式存儲(chǔ)遺留數(shù)據(jù)以便于檢索。數(shù)據(jù)湖作為一個(gè)靈活的平臺(tái),可以吸收多個(gè)數(shù)據(jù)流,以便在這個(gè)垂直行業(yè)中大量使用分析。 七、總結(jié) 如果設(shè)計(jì)和實(shí)現(xiàn)得當(dāng),數(shù)據(jù)湖是存儲(chǔ)大量多格式數(shù)據(jù)而不是數(shù)據(jù)豎井的強(qiáng)大方法。它們減少了數(shù)據(jù)接收和轉(zhuǎn)換的時(shí)間和成本,從而使數(shù)據(jù)能夠及時(shí)地提供給用戶。它們還允許使用成本較低的分布式存儲(chǔ)。數(shù)據(jù)湖在架構(gòu)上尚未成熟,目前供應(yīng)商產(chǎn)品之間缺乏標(biāo)準(zhǔn)化。數(shù)據(jù)湖仍在不斷發(fā)展和添加新功能,以改進(jìn)訪問(wèn)控制、安全、數(shù)據(jù)管理、治理等功能。用于數(shù)據(jù)挖掘和分析的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的出現(xiàn),帶來(lái)了對(duì)一個(gè)平臺(tái)的需求,該平臺(tái)提供對(duì)原始數(shù)據(jù)的簡(jiǎn)單訪問(wèn),以培訓(xùn)這些系統(tǒng),進(jìn)行系統(tǒng)驗(yàn)證,并確保審計(jì)跟蹤。數(shù)據(jù)湖很好的滿足了這一需求。深度學(xué)習(xí)還允許訪問(wèn)數(shù)據(jù)湖中以前攝取的遺留數(shù)據(jù),這些數(shù)據(jù)湖通過(guò)標(biāo)準(zhǔn)的查詢機(jī)制才能訪問(wèn)。 |
|
來(lái)自: 數(shù)據(jù)治理精英館 > 《待分類》