![]() ![]() 作者:a16z 編譯:kefei,穆奕,Ting 排版:海外獨角獸團隊 ![]() 數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時還享受了云計算浪潮的勢頭。如今,每一個人都是數(shù)據(jù)的生產(chǎn)者和消費者,需求的激增使數(shù)據(jù)成為企業(yè)基礎(chǔ)設(shè)施服務(wù)領(lǐng)域中增長最快的賽道之一。 2022 年 3 月 23 日,a16z 發(fā)布 Data 50 榜單,介紹了全球 50 家代表下一代行業(yè)標準的數(shù)據(jù)初創(chuàng)企業(yè),覆蓋 7 個子領(lǐng)域:
從融資金額上看,數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金。而從公司數(shù)量上看,AI/ML 領(lǐng)域的公司最多,AI/ML 的發(fā)展推動新興數(shù)據(jù)公司數(shù)量的增長。盡管每個領(lǐng)域發(fā)展驅(qū)動力不盡相同,但每個領(lǐng)域都吸引了投資者的興趣。 除了分享這份 Data 50 的榜單,在本文的后半部分,我們還將和大家分享a16z 在最近更新的一份數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)報告:為了探討數(shù)據(jù)賽道巨大趨勢背后的架構(gòu)演變和驅(qū)動力,a16z 于 年2020末發(fā)布了這套架構(gòu)體系,并于2022年進行了更新,以幫助人們追蹤數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)變化。報告展示了跨越分析和運營系統(tǒng)的最佳技術(shù)以及每個架構(gòu)自上一版本以來的變化,還試圖解釋了為什么會發(fā)生這些變化。 a16z 表示,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對穩(wěn)定,而支持類工具和應(yīng)用則迅速激增。文章探討的假設(shè)是,數(shù)據(jù)平臺開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn),這一假設(shè)有助于解釋數(shù)據(jù)棧演變中出現(xiàn)的特殊模式。 未來 10 年將是數(shù)據(jù)的 10 年,無論是基礎(chǔ)層、應(yīng)用層、還是介于兩者之間的一切。 ![]() 如果你想要第一時間跟蹤「海外獨角獸」更多活動和內(nèi)容動態(tài),歡迎添加「小象」的微信~ 01. The Data 50 List 在 "大數(shù)據(jù) "概念誕生的十多年后,數(shù)據(jù)仍然是大型企業(yè)和新興初創(chuàng)企業(yè)快速成長最重要的創(chuàng)新動力之一。不管是對業(yè)務(wù)基礎(chǔ)運營進行診斷,還是通過機器學(xué)習(xí)使日常業(yè)務(wù)智能化、自動化,數(shù)據(jù)已經(jīng)成為各組織進行決策的中樞神經(jīng)系統(tǒng)。此外,數(shù)據(jù)使用者的范圍遠遠超出了數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師,如今每個人都是數(shù)據(jù)的生產(chǎn)者和消費者。 市場對數(shù)據(jù)關(guān)注度日益提升,帶來的結(jié)果是:數(shù)據(jù)管理已經(jīng)成為企業(yè)基礎(chǔ)設(shè)施中增長最快的領(lǐng)域之一,價值預(yù)計超過 700 億美元,21 年20數(shù)據(jù)管理支出占企業(yè)所有基礎(chǔ)設(shè)施支出的五分之一以上。 過去幾年,數(shù)據(jù)產(chǎn)業(yè)的發(fā)展也催生了一些很令人興奮、很有影響力的軟件公司。比如已經(jīng)上市的 Snowflake(市值 734 億美元)和 Confluent (市值 121 億美元),已經(jīng)改變了上千家企業(yè)的運作方式和上百萬產(chǎn)品的構(gòu)建形式。然而,大多數(shù)人仍不太了解其他有影響力的企業(yè)——下一代定義行業(yè)標準的企業(yè)。 21 年20,數(shù)據(jù)公司獲得了數(shù)百億美元風(fēng)險投資,2022 年已經(jīng)到來,我們制作了首個 Data 50 榜單。這些公司都是數(shù)據(jù)領(lǐng)域的細分賽道龍頭??傮w來看,這 50 家公司的估值超過千億美元,總?cè)谫Y額約 145 億美元,其中 20 家在 21 年20晉級獨角獸行列。其中的 Databricks、Fivetran 和 Scale 海外獨角獸曾經(jīng)發(fā)布過深度分析內(nèi)容。 以下是 2022 年 Data 50 榜單: ![]() ![]() ![]() ![]() ![]() 榜單制作標準 Data 50 的上榜公司都在2008年后成立,過去兩年內(nèi)都進行過新一輪融資,員工人數(shù)每年至少增長 30%。他們的產(chǎn)品具有普適性,能為各行業(yè)數(shù)據(jù)或數(shù)據(jù)應(yīng)用團隊提供技術(shù)服務(wù)。 排名是基于公司最新的估值、規(guī)模、過去兩年員工增長情況、運營年限以及當前收入等因素綜合考慮。員工數(shù)據(jù)基于 LinkedIn 的公開數(shù)據(jù),融資數(shù)據(jù)基于 Pitchbook 和 Crunchbase 的公開數(shù)據(jù),日期截至 2022 年 3 月 22 日。 請注意,這份榜單主要關(guān)注分析型數(shù)據(jù)庫,因此不包括交易型數(shù)據(jù)庫公司,如 CockroachDB、PlanetScale 和 Yugabyte。 02. Data 50 覆蓋 7 個子領(lǐng)域 ![]() 1. 查詢與處理(Query & Processing) 查詢和處理技術(shù)是訪問、匯總和計算數(shù)據(jù)的核心引擎。它涉及兩個主要類別:批量處理(如Databricks 和 Starburst)和實時處理(如 ClickHouse 和 Imply)。過去幾年,由于對實時應(yīng)用的需求不斷增加,后者得到了更多關(guān)注。 2. 人工智能與機器學(xué)習(xí)(AI / ML) AI/ML(人工智能和機器學(xué)習(xí))包括應(yīng)用算法建模和應(yīng)用機器學(xué)習(xí)處理大數(shù)據(jù)的軟件。從上榜公司的數(shù)量就能看出,這一領(lǐng)域正在逐漸成熟和蓬勃發(fā)展。其中一些公司專注于特定類型的數(shù)據(jù)(如 Rasa 和 Hugging Face 專注于自然語言),其他公司則專注于不同的領(lǐng)域,如人工智能的產(chǎn)品化(如 Scale 、Tecton 和 Weights and Biases)或運行人工智能工作負載的 "計算層"(如 Anyscale)。 3. ELT 與編排(ELT & Orchestration) ELT 與編排賦予了數(shù)據(jù)移動的能力。這一類別里,產(chǎn)品是一個運輸層,保證數(shù)據(jù)準確和及時地到達目的地。這一類別是從傳統(tǒng)的基于“拖拉拽”操作界面的 ETL 供應(yīng)商基礎(chǔ)上演變而來的。另一方面,這一領(lǐng)域的新廠商大多是云原生的(如 Fivetran 和 dbt)、開發(fā)者友好的(如 Astronomer 和 Prefect),并且能處理不同數(shù)據(jù)環(huán)境中更復(fù)雜的依賴關(guān)系。 注: ETL(Extract-Transform-Load),用來描述將數(shù)據(jù)從來源端經(jīng)過提取、轉(zhuǎn)換、加載至目的端的過程;ELT(Extract-Load-Transform)功能上與 ETL 無差異,僅順序不同,ELT 是一個較新潮的概念,用于數(shù)據(jù)湖或數(shù)據(jù)中臺。 編排,對單獨組件和應(yīng)用層的工作進行組織的流程。 4. 數(shù)據(jù)治理與安全(Data governance & Security) 隨著數(shù)據(jù)棧變得越來越復(fù)雜,越來越多的利益相關(guān)者參與進來,數(shù)據(jù)治理和安全正成為關(guān)鍵問題。數(shù)據(jù)治理工具對于企業(yè)而言是必需的,尤其是強監(jiān)管行業(yè)的企業(yè),它可以確保企業(yè)的數(shù)據(jù)安全,確保企業(yè)在整個數(shù)據(jù)生命周期內(nèi)保持合規(guī)性(如 OneTrust 和 Collibra)。這個賽道相對較新,通常服務(wù)于受監(jiān)管的大型企業(yè)。 5. 客戶數(shù)據(jù)分析(Customer data analytics) 客戶數(shù)據(jù)分析傳統(tǒng)上由營銷團隊所有。然而,由于其重要性增加,數(shù)據(jù)團隊現(xiàn)在也更多地參與到將客戶數(shù)據(jù)與中央數(shù)據(jù)平臺整合的工作中。這個賽道主要捕捉客戶數(shù)據(jù)(如 Rudderstack 和 ActionIQ)或將數(shù)據(jù)變得可操作,以服務(wù)一線業(yè)務(wù)案例(如 Census 和 Hightouch)。 6. 商業(yè)智能與演算本(BI & Notebooks) 商業(yè)智能與演算本(用于記錄算法操作步驟)覆蓋了數(shù)據(jù)的消費層。盡管這是一個成熟領(lǐng)域,但新參與者如 Preset 或 Metabase,正在采取一種開源優(yōu)先的方式,吸引技術(shù)數(shù)據(jù)工程師以及 BI 團隊。數(shù)據(jù)需求的快速變化也為迭代和交互式演算本(如 Hex)和自動生成的洞察(如 Sisu)創(chuàng)造了更多需求。 7. 數(shù)據(jù)可觀測性(Data Observability) 數(shù)據(jù)可觀測性從軟件工程棧的最佳實踐中獲得靈感。隨著數(shù)據(jù)棧與上下游工具的相互依賴性越來越強,數(shù)據(jù)的準確性也有了更廣泛的影響,數(shù)據(jù)可觀測性作為最新的賽道出現(xiàn),為整個數(shù)據(jù)流提供監(jiān)控和診斷能力。 數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金 數(shù)據(jù)查詢和數(shù)據(jù)處理領(lǐng)域公司數(shù)量只占 Data 50 的五分之一,但投資于該領(lǐng)域的資金幾乎占所有資金的 50% —— 這是驚人的。即使這一數(shù)據(jù)受到 Databricks 最新的 16 億美元融資的影響,但如果沒有它,該領(lǐng)域仍占所有融資金額的 37%,是排名第二的領(lǐng)域兩倍還多。 ![]() 若從公司數(shù)量看,各領(lǐng)域分布則相對平衡。AI/ML 是公司數(shù)量最多的領(lǐng)域,主要因為該領(lǐng)域仍在不斷發(fā)展,需要一套新的獨立工具來訓(xùn)練、測量和產(chǎn)出模型。 ![]() Data 50 聚集在灣區(qū) 在這 50 家公司中,47 家(94%)位于美國,3 家位于美國以外的地區(qū)。大多數(shù)公司(33 家)位于舊金山灣區(qū),9 家位于華盛頓特區(qū)、費城、紐約和波士頓的 I-95 走廊沿線,2 家位于西雅圖,1 家位于辛辛那提,1 家位于亞特蘭大。 這樣的分布在很大程度受歷史上大規(guī)模數(shù)據(jù)生態(tài)系統(tǒng)所在地的影響(例如,Oracle 和 Teradata 都是在灣區(qū)成立的)。然而,我們看到更多的數(shù)據(jù)公司在全球范圍內(nèi)出現(xiàn)(如 Firebolt 和 Matillion),因為數(shù)據(jù)工程人才以及對數(shù)據(jù)工具的需求幾乎遍布每個大陸。 ![]() AI/ML 推動 2019 年新興數(shù)據(jù)公司的激增 在 AI/ML 工具爆發(fā)的推動下,大部分 Data 50 公司都是在 2014 年之后成立的,在 2019 年左右達到高峰。事實上,還有很多數(shù)據(jù)公司在 2019 年之后成立,但由于我們關(guān)注的是已經(jīng)達到一定規(guī)模的公司,所以大多數(shù)新公司還沒有出現(xiàn)在這個名單上。 ![]() 每個領(lǐng)域的投資金額都在增長 從每個領(lǐng)域的投資來看,最明顯的趨勢是,AI/ML 公司正在收獲比以往更多的投資者興趣,主要集中在早期階段。ELT 和編排也是如此,主要由 Fivetran 和 dbt 的巨額融資推動。數(shù)據(jù)查詢和數(shù)據(jù)處理公司繼續(xù)吸引大筆資金,盡管這些公司往往處于后期階段。 ![]() 數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時享受了云計算浪潮的勢頭。盡管市場采納的主要推動力是數(shù)據(jù)量和使用量的增加,但每個細分領(lǐng)域的根本驅(qū)動力不同。例如,查詢和處理領(lǐng)域主要由計算和存儲的分離、向云計算的遷移以及更便宜的算力所驅(qū)動。數(shù)據(jù)治理和數(shù)據(jù)可觀測性領(lǐng)域主要由不斷增長的實操案例以及數(shù)據(jù)工作流程的復(fù)雜性所驅(qū)動。 為了說明這一巨大趨勢背后的架構(gòu)演變和驅(qū)動力,我們于 年2020底發(fā)布了一套結(jié)構(gòu)體系。我們看到圍繞數(shù)據(jù)構(gòu)建的復(fù)雜系統(tǒng)的興起,系統(tǒng)價值主要來自數(shù)據(jù),而不是直接來自軟件,這一趨勢對行業(yè)產(chǎn)生巨大影響。 然而,我們發(fā)現(xiàn),在這一趨勢的前端,哪些技術(shù)是領(lǐng)先的,它們在實踐中如何使用,大家仍然存在巨大困惑。因此,在過去幾年中,我們與數(shù)百名創(chuàng)始人、企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者及其他專家進行交流,了解他們當前的數(shù)據(jù)堆棧與最佳實踐,形成一個參考架構(gòu)與體系。 自第一版架構(gòu)體系發(fā)布以來,數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)持續(xù)保持增長,幾乎所有的關(guān)鍵行業(yè)指標都創(chuàng)下了歷史新高,新產(chǎn)品類別的出現(xiàn)速度超過了大多數(shù)數(shù)據(jù)團隊可以合理追蹤的速度。為了幫助數(shù)據(jù)團隊緊跟行業(yè)內(nèi)發(fā)生的變化,我們最近又發(fā)布了一套最新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)。它們展示了我們過去一年中從眾多企業(yè)那里收集到的、跨越分析和運營系統(tǒng)的最佳技術(shù)。每個架構(gòu)藍圖都包括自上一版本以來的變化摘要。 我們還試圖解釋為什么會發(fā)生這些變化。我們認為,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對穩(wěn)定,而支持類的工具和應(yīng)用則迅速激增。我們探討的假設(shè)是,平臺開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn)。這一假設(shè)有助于解釋我們在數(shù)據(jù)棧的演變中看到的特殊模式。 為了更新參考架構(gòu),我們再次請教了幾十位數(shù)據(jù)專家的意見。以下為更新后的架構(gòu),以及架構(gòu)變化背后的原因。 03. 數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu) 在我們深入了解細節(jié)之前,先看看最新的架構(gòu)圖。這些是在領(lǐng)先的數(shù)據(jù)從業(yè)者的幫助下,根據(jù)他們內(nèi)部運行的情況和他們對新部署的建議而編制的。 第一張架構(gòu)圖展示的是與所有數(shù)據(jù)基礎(chǔ)設(shè)施用例相關(guān)的統(tǒng)一概述。 ![]() 注:不包括 OLTP(On-Line Transaction Processing,聯(lián)機事務(wù)處理過程)、日志分析和 SaaS 分析應(yīng)用。 ![]() 第二張架構(gòu)圖強調(diào)了機器學(xué)習(xí),它是一個復(fù)雜的、越來越獨立的工具鏈。 ![]() ![]() 04. 數(shù)據(jù)基礎(chǔ)設(shè)施藍圖 在此背景下,我們將對每個主要的數(shù)據(jù)基礎(chǔ)設(shè)施藍圖進行詳細介紹。下面的每一節(jié)都顯示了一個更新的圖表(與第一版架構(gòu)進行比較)和對關(guān)鍵變化的分析。這部分主要為實施堆棧的數(shù)據(jù)團隊提供參考。 藍圖 1:現(xiàn)代商業(yè)智能 為各種規(guī)模的公司提供云原生商業(yè)智能。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框為基本保持不變;灰色方框被認為與此藍圖不太相關(guān)。 什么沒變 有什么新變化
注: 反向 ETL,指將數(shù)據(jù)流程反轉(zhuǎn),傳統(tǒng)流程為“業(yè)務(wù)系統(tǒng)-ETL-數(shù)據(jù)中心存儲”,反向 ETL 流程則是“數(shù)據(jù)中心存儲-ETL-業(yè)務(wù)系統(tǒng)”。通過反向 ETL,可以將處理后的用戶或產(chǎn)品數(shù)據(jù)從中心存儲(如數(shù)據(jù)倉庫或數(shù)據(jù)庫中)同步到業(yè)務(wù)所在的工具和平臺上。
藍圖 2:多模態(tài)數(shù)據(jù)處理 進化的數(shù)據(jù)湖支持分析和運營案例,這也被稱為 Hadoop 難民的現(xiàn)代基礎(chǔ)設(shè)施。 注:Hadoop 是一個由 Apache 基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。Hadoop 作為一項技術(shù)正在衰退。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框為基本保持不變;灰色方框被認為與本藍圖不太相關(guān)。 什么沒變
有什么新變化
藍圖 3:人工智能和機器學(xué)習(xí) 用于機器學(xué)習(xí)模型的強大開發(fā)、測試和操作的堆棧。 ![]() 注:深黑色方框是新的或自 年2020架構(gòu)的 V1 以來有意義的變化;淺黑色方框為基本保持不變;灰色方框被認為與本藍圖不太相關(guān)。 什么沒變
有什么新變化
注:特征存儲,是一個用于管理機器學(xué)習(xí)特征的數(shù)據(jù)管理系統(tǒng),包括特征工程代碼和特征數(shù)據(jù),目標是使數(shù)據(jù)科學(xué)家能夠縮短從數(shù)據(jù)攝取到ML模型訓(xùn)練和推理的時間。
05. 數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察 數(shù)據(jù)棧 數(shù)據(jù)棧內(nèi)核穩(wěn)定 盡管在過去的一年中,數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域的活動非??駸?,但某些方面變化之小令人驚訝,例如數(shù)據(jù)棧內(nèi)核的穩(wěn)定。 在我們的第一版架構(gòu)中,我們區(qū)分了支持數(shù)據(jù)驅(qū)動決策的分析系統(tǒng),和支持數(shù)據(jù)驅(qū)動產(chǎn)品的運營系統(tǒng)。然后,我們將這些類別映射到三種模式或藍圖中,這些通常由領(lǐng)先的數(shù)據(jù)團隊實施。 ![]() 其中一個關(guān)鍵問題是這些架構(gòu)模式是否會融合。一年后,這似乎并沒有發(fā)生。 尤其是分析和運營的生態(tài)系統(tǒng)都在持續(xù)蓬勃發(fā)展。像 Snowflake 這樣的云數(shù)據(jù)倉庫已經(jīng)迅速增長,主要集中在 SQL 用戶和商業(yè)智能用例。但其他技術(shù)的采用也在加速發(fā)展,例如,像 Databricks 這樣的數(shù)據(jù)湖倉一體,客戶量正在以比以往更快的速度增加。我們采訪的許多數(shù)據(jù)團隊證實,異質(zhì)性很可能在數(shù)據(jù)棧中繼續(xù)存在。 其他核心數(shù)據(jù)系統(tǒng),即獲取和轉(zhuǎn)換,已被證明具有類似的持久性。這在現(xiàn)代商業(yè)智能模式中尤其明顯,其中 Fivetran 和 dbt(或類似技術(shù))的結(jié)合已經(jīng)變得幾乎無處不在。這在某種程度上也適用于運營系統(tǒng),那里已經(jīng)出現(xiàn)了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事實標準。 數(shù)據(jù)棧新變化 圍繞著穩(wěn)定的內(nèi)核,數(shù)據(jù)棧在過去的一年里迅速發(fā)展,變化主要發(fā)生在以下兩個領(lǐng)域:
我們還看到一些旨在加強核心數(shù)據(jù)處理系統(tǒng)的新技術(shù)的引入。值得注意的是,我們圍繞著分析生態(tài)系統(tǒng)中的指標層以及運營系統(tǒng)的湖倉一體化模式展開了積極的討論,這兩者都在向有益的定義和架構(gòu)靠攏。 數(shù)據(jù)平臺 什么是平臺 在數(shù)據(jù)生態(tài)系統(tǒng)中,"平臺 "這個詞已經(jīng)被過度使用了,經(jīng)常被內(nèi)部團隊用來描述他們的整個技術(shù)堆棧,或者被供應(yīng)商用來銷售松散連接的產(chǎn)品套件。 在更廣泛的軟件領(lǐng)域,平臺是其他開發(fā)者可以在上面“搭建”的東西。平臺本身提供的價值通常是有限的。例如,大多數(shù)用戶對訪問 Windows 或 iOS 的內(nèi)部結(jié)構(gòu)沒有興趣。但它們提供了一系列好處,如通用的編程接口和龐大的安裝基礎(chǔ),使開發(fā)者能夠建立和發(fā)布用戶最終關(guān)心的應(yīng)用程序。 從行業(yè)的角度來看,平臺的決定性特征是“相互依賴”,即有影響力的平臺供應(yīng)商和大量第三方開發(fā)者之間在技術(shù)上和經(jīng)濟上的相互依賴。 ![]() 什么是數(shù)據(jù)平臺 從歷史上看,數(shù)據(jù)棧并不適合平臺的定義。例如,ETL、數(shù)據(jù)倉庫和報告供應(yīng)商之間存在著相互依賴,但整合模式往往是一對一的,而不是一對多的,且由專業(yè)服務(wù)來大量補充。 根據(jù)我們采訪的一些數(shù)據(jù)專家的說法來看,這種情況可能會開始改變。 數(shù)據(jù)平臺假說認為,數(shù)據(jù)堆棧的 "后端",大致定義為數(shù)據(jù)獲取、存儲、處理和轉(zhuǎn)換?!昂蠖恕币呀?jīng)開始圍繞一組相對較小的基于云的供應(yīng)商進行整合。因此,客戶數(shù)據(jù)被收集在一套標準的系統(tǒng)中,而且供應(yīng)商正在大力投資,以使這些數(shù)據(jù)更易于被其他開發(fā)者訪問。客戶數(shù)據(jù)也是 Databricks 等系統(tǒng)的基本設(shè)計原則,并且是通過 SQL 標準,以及 Snowflake 等系統(tǒng)的定制計算 API 的。 反過來,"前端 "開發(fā)人員已經(jīng)利用這種單一的集成點,建立了一系列新的應(yīng)用程序。他們依靠數(shù)據(jù)倉庫/湖倉的干凈、連接的數(shù)據(jù),無需擔心它如何實現(xiàn)基本細節(jié)。一個客戶可以在一個核心數(shù)據(jù)系統(tǒng)的基礎(chǔ)上購買和建立許多應(yīng)用程序。我們甚至開始看到傳統(tǒng)的企業(yè)系統(tǒng),如財務(wù)或產(chǎn)品分析,正在以 "倉庫原生 "的架構(gòu)進行重建。 這畫面可能看起來像這樣: ![]() 要清楚的是,這并不意味著 OLTP 數(shù)據(jù)庫或其他重要的后端技術(shù)將在不久的將來消失。但是,與 OLAP 系統(tǒng)的原生集成可能會成為應(yīng)用開發(fā)的一個重要組成部分。隨著時間的推移,越來越多的業(yè)務(wù)邏輯和應(yīng)用功能可能會過渡到這種模式。我們可能會看到一大類新產(chǎn)品建立在這個數(shù)據(jù)平臺上。 數(shù)據(jù)應(yīng)用 數(shù)據(jù)平臺假說仍有待商榷。然而,我們看到復(fù)雜的垂直 SaaS 解決方案在數(shù)據(jù)平臺上以水平層的形式實施。因此,雖然是早期,我們認為在數(shù)據(jù)堆棧中發(fā)生的變化至少與平臺的想法是一致的。 這是由很多原因?qū)е碌?。例如,?Snowflake 和 Databricks 這樣的公司已經(jīng)成為數(shù)據(jù)棧的穩(wěn)定部分,包括偉大的產(chǎn)品,有能力的銷售團隊和低摩擦的部署模式。但也有一種情況是,他們的粘性被平臺的動力所加強—— 一旦客戶用其中一個系統(tǒng)構(gòu)建和/或集成了一系列數(shù)據(jù)應(yīng)用程序,通常就沒有必要再過渡了。 類似的觀點也可以支持近年來新型數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品激增這一事實,這一趨勢與海量的數(shù)據(jù)、不斷增加的企業(yè)預(yù)算和過剩的風(fēng)投資金有關(guān)。我們現(xiàn)在看到這么多新產(chǎn)品的出現(xiàn),原因可能與平臺有關(guān)——也就是說,一個新的數(shù)據(jù)應(yīng)用程序從未像現(xiàn)在這樣容易被采用,而正確維護平臺也從未像現(xiàn)在這樣重要。 平臺假說在競爭態(tài)勢方面提供了一些預(yù)測能力。從規(guī)模上看,平臺可能非常有價值。如今,核心數(shù)據(jù)系統(tǒng)供應(yīng)商的競爭可能不僅僅是為了當前的預(yù)算,更是為了長期的平臺地位。如果你相信數(shù)據(jù)獲取和轉(zhuǎn)換、指標層應(yīng)用或反向 ETL 是新興數(shù)據(jù)平臺的核心部分,那么它們那令人瞠目結(jié)舌的估值以及各方的激烈辯論也將更有意義。 06. 未來 我們?nèi)蕴幱诙x數(shù)據(jù)平臺的早期階段,平臺的各個部分也在不斷變化。因此,把它當作一個類比,可能比當作一個嚴格的定義更好。它可能是一個有用的工具,可以幫助人們過濾噪音中的信號,培養(yǎng)對市場發(fā)展方式的認知。數(shù)據(jù)團隊現(xiàn)在擁有更多的工具、資源和組織動力,比數(shù)據(jù)庫發(fā)明以來的任何時候(可能)都多。我們非常期待看到應(yīng)用層在新興平臺之上的發(fā)展。 我們相信,未來 10 年將是數(shù)據(jù)的 10 年,包括企業(yè)基礎(chǔ)設(shè)施、應(yīng)用程序以及介于兩者之間的一切。 |
|
來自: 雷神2025 > 《行業(yè)分析》