導(dǎo)讀:經(jīng)常看到有人問這個(gè)問題,我也看過很多解釋,感覺都不夠直觀,這里,我嘗試用一個(gè)大家都理解的例子來說明。 01 什么是數(shù)據(jù)倉庫? 大家都去宜家買過東西吧,還記得一樓的大倉庫不,你如果看中了某個(gè)家具,想要自己去倉庫提貨,一般都會記下商品上的編碼: 這個(gè)編碼對于顧客來說,肯定是沒有任何含義的,看到這個(gè)編碼,不可能知道他是一個(gè)什么商品。 但是這個(gè)編碼,對于倉庫管理員來說是有含義的,他們可以清楚的知道,是哪一個(gè)貨架,哪一個(gè)位置。 當(dāng)然,顧客到倉庫里順著貨架和位置也可以找到商品,但是總歸不太直觀,挑選的過程還是得在樓上進(jìn)行。 因此數(shù)據(jù)倉庫就相當(dāng)于宜家的一樓倉庫,在這里,數(shù)據(jù)(家具)按照特定的模型,如FS-LDM等(貨架-位置)組織起來,這種模型,對于顧客(業(yè)務(wù)人員,數(shù)據(jù)最終用戶)是不友好的,但是對于科技人員(倉庫管理員,宜家員工)來說相對友好,因?yàn)樗凑找环N更加集約化的規(guī)則將數(shù)據(jù)(家具)管理起來了,存放集中、規(guī)整,提取數(shù)據(jù)(提貨)不用跨庫(貨倉)尋找,查找的效率更加高。 02 那什么是數(shù)據(jù)集市呢? 還是用這個(gè)例子,上文提到,數(shù)據(jù)倉庫對業(yè)務(wù)人員不是很友好,同樣,你總不能讓顧客直接逛倉庫吧?顧客的需求,是按照家具的種類分門別類,按照家庭的不同房間,組合在一起展示的,正如宜家樓上的展廳: ▲圖片來自:https:// 雖然也被吐槽像迷宮一樣,但是總的來說,購物體驗(yàn)肯定比逛倉庫來得好多了。 所以,數(shù)據(jù)集市就像宜家樓上的展廳,正如其名字“集市”一樣,是一個(gè)面向最終用戶(顧客)的數(shù)據(jù)市場,在這里,數(shù)據(jù)(家具)以一種更加容易被業(yè)務(wù)人員(顧客)接受的方式組合在一起,這些組合方式可能是多變的,因?yàn)闃I(yè)務(wù)人員(顧客)的需求是多變的,因此我們需要定期調(diào)整集市的計(jì)算口徑(展廳的陳列方式),經(jīng)常會創(chuàng)建新的數(shù)據(jù)集市(裝修新的展廳)。 數(shù)據(jù)倉庫和集市的概念理解了,其他一些相關(guān)問題也就迎刃而解,比如為什么有了數(shù)據(jù)倉庫還要建數(shù)據(jù)集市?等等。 03 那什么是數(shù)據(jù)湖呢? 數(shù)據(jù)湖至今仍然沒有一個(gè)特別標(biāo)準(zhǔn)的概念,各種概念中,比較統(tǒng)一的一點(diǎn)是數(shù)據(jù)湖存儲的是未經(jīng)加工的原始數(shù)據(jù),包含結(jié)構(gòu)化和非結(jié)構(gòu)化的各類數(shù)據(jù)。筆者仍然嘗試用上面的例子來解釋。 大家都知道,宜家的家具是需要自己組裝的,所以宜家的顧客們都有一些動手能力,他們突發(fā)奇想,所有的家具能不能全部拆散成零部件存放,由顧客們根據(jù)實(shí)際需要挑選零部件自行拼裝? 所以,數(shù)據(jù)湖就是一個(gè)存儲了所有企業(yè)內(nèi)原始數(shù)據(jù)(家具零部件)的存儲,這就帶來一系列問題,加工后數(shù)據(jù)的存儲已經(jīng)非常復(fù)雜,原始數(shù)據(jù)則依賴更多的管理功能,不然數(shù)據(jù)又多又雜難以管理,數(shù)據(jù)湖會退化為數(shù)據(jù)沼澤。 此外,原始數(shù)據(jù)如果缺少統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),就像不同的家具零部件之間的接口不同,那就無法組裝在一起了。 因此,數(shù)據(jù)湖必須有完善的數(shù)據(jù)管理功能,也依賴于統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和良好的數(shù)據(jù)質(zhì)量管理。 04 那什么又是數(shù)據(jù)中臺呢? 數(shù)據(jù)中臺也沒有一個(gè)特別明確的定義,這里很難套用宜家的例子強(qiáng)行解釋了,我們來看下各類數(shù)據(jù)平臺: 在我們傳統(tǒng)的數(shù)據(jù)應(yīng)用中,隨著數(shù)據(jù)對于業(yè)務(wù)友好度的增加,其時(shí)效性也在減弱。而我們的目標(biāo),顯然是數(shù)據(jù)又快又好。既然各部門的需求都不一樣,為何不讓業(yè)務(wù)自助分析數(shù)據(jù)呢?于是我們有了右上角的目標(biāo)狀態(tài)。但是這個(gè)理想狀態(tài)和我們現(xiàn)在的數(shù)據(jù)應(yīng)用中間有巨大的空隙,靠什么來填補(bǔ)?答案就是數(shù)據(jù)中臺。 我們可以將其分為狹義的數(shù)據(jù)中臺和廣義的數(shù)據(jù)中臺。狹義的數(shù)據(jù)中臺,指的是一套數(shù)據(jù)應(yīng)用和工具,包括分布式ETL、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)標(biāo)簽管理、數(shù)據(jù)沙箱、自助分析平臺、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等等,底層則以現(xiàn)有的數(shù)倉、大數(shù)據(jù)平臺等為數(shù)據(jù)源,為企業(yè)提供數(shù)據(jù)資產(chǎn)管理的能力,并持續(xù)挖掘數(shù)據(jù)價(jià)值,持續(xù)提供數(shù)據(jù)智能服務(wù)。 廣義的數(shù)據(jù)中臺,則在狹義的數(shù)據(jù)中臺基礎(chǔ)之上,包含了頂層數(shù)據(jù)戰(zhàn)略,數(shù)據(jù)治理體系以及數(shù)據(jù)管理及運(yùn)營、數(shù)據(jù)文化培養(yǎng)和組織架構(gòu)支撐,是一套持續(xù)管理和運(yùn)營的體系。 可以這么說,狹義的數(shù)據(jù)中臺,是專為達(dá)成數(shù)據(jù)中臺的使命而打造,一類是讓數(shù)據(jù)更快的處理、整合、加工,比如分布式ETL工具。隨著傳統(tǒng)數(shù)據(jù)被大數(shù)據(jù)平臺逐步替代,ETL工具對于大數(shù)據(jù)平臺的適配也需要與時(shí)俱進(jìn),支持分布式計(jì)算、彈性計(jì)算,并且減少開發(fā)量。 另一類是讓數(shù)據(jù)更好的產(chǎn)生業(yè)務(wù)價(jià)值,比如數(shù)據(jù)標(biāo)簽管理,自助分析平臺等。數(shù)據(jù)標(biāo)簽大家都在用,但是真正深度使用的企業(yè)都會感覺:建好容易用好難,如果沒有一套標(biāo)簽管理系統(tǒng),標(biāo)簽是否重復(fù)加工,標(biāo)簽的使用率、準(zhǔn)確性等都無從掌控,業(yè)務(wù)部門想要針對近期營銷活動新建一個(gè)標(biāo)簽,還得走開發(fā)流程,時(shí)效性也難以保證。 數(shù)據(jù)標(biāo)簽管理系統(tǒng)就是為了解決數(shù)據(jù)標(biāo)簽的使用問題而建立。自助分析平臺則是方便業(yè)務(wù)人員自助進(jìn)行數(shù)據(jù)分析、加工、探索的平臺,它與數(shù)據(jù)沙箱結(jié)合,直接將去隱私化的生產(chǎn)數(shù)據(jù)提供業(yè)務(wù)人員分析,使數(shù)據(jù)更快的產(chǎn)生價(jià)值,支撐關(guān)鍵決策。 廣義的數(shù)據(jù)中臺,則是輔助狹義數(shù)據(jù)中臺達(dá)成使命的機(jī)制,雖然看起來都很“虛”,但是卻是數(shù)據(jù)中臺成功落地的必要保障。 05 那所有這些都必須做嗎? 這個(gè)問題要看具體的企業(yè)情況,總的來說,一個(gè)大原則是以滿足業(yè)務(wù)發(fā)展為第一優(yōu)先,不要為了做基礎(chǔ)設(shè)施而做基礎(chǔ)設(shè)施,一定要以能解決業(yè)務(wù)訴求為最終目的。 《人月神話》里早就宣告了銀彈不存在,自然,數(shù)據(jù)倉庫、數(shù)據(jù)集市、數(shù)據(jù)湖、數(shù)據(jù)中臺都不是銀彈,千萬不能以為做了他們就水到渠成,數(shù)字化轉(zhuǎn)型就自動完成了。 簡言之,用了一系列時(shí)髦的新技術(shù)不見得就是數(shù)字化領(lǐng)軍企業(yè),不用也不見得就是古典互聯(lián)網(wǎng)時(shí)代的落后作坊。關(guān)鍵是認(rèn)清自身的數(shù)字化現(xiàn)狀,擬定數(shù)字化目標(biāo),制定數(shù)字化路徑,優(yōu)選場景,實(shí)現(xiàn)價(jià)值。 新技術(shù)、各類數(shù)據(jù)基礎(chǔ)設(shè)施只是這條道路上,一套套切實(shí)可行的行動方案,是把過去銀行的種種數(shù)字化的嘗試,重新以體系化、結(jié)構(gòu)化的方法論梳理,并且賦予當(dāng)下最新的技術(shù)架構(gòu)予以實(shí)施。 |
|