乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      50家公司、7個領(lǐng)域,定義全球未來10年數(shù)據(jù)行業(yè)標準

       雷神2025 2022-05-13
      圖片
      圖片

      作者:a16z

      編譯:kefei,穆奕,Ting

      排版:海外獨角獸團隊

      圖片

      數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時還享受了云計算浪潮的勢頭。如今,每一個人都是數(shù)據(jù)的生產(chǎn)者和消費者,需求的激增使數(shù)據(jù)成為企業(yè)基礎(chǔ)設(shè)施服務(wù)領(lǐng)域中增長最快的賽道之一。

      2022 年 3 月 23 日,a16z 發(fā)布 Data 50 榜單,介紹了全球 50 家代表下一代行業(yè)標準的數(shù)據(jù)初創(chuàng)企業(yè),覆蓋 7 個子領(lǐng)域:

      • 數(shù)據(jù)查詢與數(shù)據(jù)處理(Query & Processing)

      • 人工智能與機器學(xué)習(xí)(AI / ML)

      • ELT 與編排(ELT & Orchestration)

      • 數(shù)據(jù)治理與安全(Data governance & Security)

      • 客戶數(shù)據(jù)分析(Customer data analytics)

      • 商業(yè)智能與演算本(BI & Notesbooks)

      • 數(shù)據(jù)可觀測性(Data Observability)

      從融資金額上看,數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金。而從公司數(shù)量上看,AI/ML 領(lǐng)域的公司最多,AI/ML 的發(fā)展推動新興數(shù)據(jù)公司數(shù)量的增長。盡管每個領(lǐng)域發(fā)展驅(qū)動力不盡相同,但每個領(lǐng)域都吸引了投資者的興趣。

      除了分享這份 Data 50 的榜單,在本文的后半部分,我們還將和大家分享a16z 在最近更新的一份數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)報告:為了探討數(shù)據(jù)賽道巨大趨勢背后的架構(gòu)演變和驅(qū)動力,a16z 于 年2020末發(fā)布了這套架構(gòu)體系,并于2022年進行了更新,以幫助人們追蹤數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)變化。報告展示了跨越分析和運營系統(tǒng)的最佳技術(shù)以及每個架構(gòu)自上一版本以來的變化,還試圖解釋了為什么會發(fā)生這些變化。

      a16z 表示,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對穩(wěn)定,而支持類工具和應(yīng)用則迅速激增。文章探討的假設(shè)是,數(shù)據(jù)平臺開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn),這一假設(shè)有助于解釋數(shù)據(jù)棧演變中出現(xiàn)的特殊模式。

      未來 10 年將是數(shù)據(jù)的 10 年,無論是基礎(chǔ)層、應(yīng)用層、還是介于兩者之間的一切。

      以下為本文目錄,建議結(jié)合要點進行針對性閱讀。

      ??

      01 The Data 50 List

      02 Data 50 覆蓋 7 個子領(lǐng)域

      03 數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)

      04 數(shù)據(jù)基礎(chǔ)設(shè)施藍圖

      • 藍圖 1:現(xiàn)代商業(yè)智能

      • 藍圖 2:多模態(tài)數(shù)據(jù)處理

      • 藍圖 3:人工智能和機器學(xué)習(xí)

      05 數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察

      • 數(shù)據(jù)棧

      • 數(shù)據(jù)平臺

      • 數(shù)據(jù)應(yīng)用

      06 未來

      圖片

      如果你想要第一時間跟蹤「海外獨角獸」更多活動和內(nèi)容動態(tài),歡迎添加「小象」的微信~

      01.

      The Data 50 List

      在 "大數(shù)據(jù) "概念誕生的十多年后,數(shù)據(jù)仍然是大型企業(yè)和新興初創(chuàng)企業(yè)快速成長最重要的創(chuàng)新動力之一。不管是對業(yè)務(wù)基礎(chǔ)運營進行診斷,還是通過機器學(xué)習(xí)使日常業(yè)務(wù)智能化、自動化,數(shù)據(jù)已經(jīng)成為各組織進行決策的中樞神經(jīng)系統(tǒng)。此外,數(shù)據(jù)使用者的范圍遠遠超出了數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師,如今每個人都是數(shù)據(jù)的生產(chǎn)者和消費者。

      市場對數(shù)據(jù)關(guān)注度日益提升,帶來的結(jié)果是:數(shù)據(jù)管理已經(jīng)成為企業(yè)基礎(chǔ)設(shè)施中增長最快的領(lǐng)域之一,價值預(yù)計超過 700 億美元,21 年20數(shù)據(jù)管理支出占企業(yè)所有基礎(chǔ)設(shè)施支出的五分之一以上

      過去幾年,數(shù)據(jù)產(chǎn)業(yè)的發(fā)展也催生了一些很令人興奮、很有影響力的軟件公司。比如已經(jīng)上市的 Snowflake(市值 734 億美元)和 Confluent (市值 121 億美元),已經(jīng)改變了上千家企業(yè)的運作方式和上百萬產(chǎn)品的構(gòu)建形式。然而,大多數(shù)人仍不太了解其他有影響力的企業(yè)——下一代定義行業(yè)標準的企業(yè)。

      21 年20,數(shù)據(jù)公司獲得了數(shù)百億美元風(fēng)險投資,2022 年已經(jīng)到來,我們制作了首個 Data 50 榜單。這些公司都是數(shù)據(jù)領(lǐng)域的細分賽道龍頭??傮w來看,這 50 家公司的估值超過千億美元,總?cè)谫Y額約 145 億美元,其中 20 家在 21 年20晉級獨角獸行列。其中的 Databricks、Fivetran 和 Scale 海外獨角獸曾經(jīng)發(fā)布過深度分析內(nèi)容。

      以下是 2022 年 Data 50 榜單:

      圖片
      圖片
      圖片
      圖片
      圖片

      榜單制作標準

      Data 50 的上榜公司都在2008年后成立,過去兩年內(nèi)都進行過新一輪融資,員工人數(shù)每年至少增長 30%。他們的產(chǎn)品具有普適性,能為各行業(yè)數(shù)據(jù)或數(shù)據(jù)應(yīng)用團隊提供技術(shù)服務(wù)。

      排名是基于公司最新的估值、規(guī)模、過去兩年員工增長情況、運營年限以及當前收入等因素綜合考慮。員工數(shù)據(jù)基于 LinkedIn 的公開數(shù)據(jù),融資數(shù)據(jù)基于 Pitchbook 和 Crunchbase 的公開數(shù)據(jù),日期截至 2022 年 3 月 22 日。

      請注意,這份榜單主要關(guān)注分析型數(shù)據(jù)庫,因此不包括交易型數(shù)據(jù)庫公司,如 CockroachDB、PlanetScale 和 Yugabyte。

      02.

      Data 50 覆蓋 7 個子領(lǐng)域

      圖片

      1. 查詢與處理(Query & Processing)

      查詢和處理技術(shù)是訪問、匯總和計算數(shù)據(jù)的核心引擎。它涉及兩個主要類別:批量處理(如Databricks 和 Starburst)和實時處理(如 ClickHouse 和 Imply)。過去幾年,由于對實時應(yīng)用的需求不斷增加,后者得到了更多關(guān)注。

      2. 人工智能與機器學(xué)習(xí)(AI / ML)

      AI/ML(人工智能和機器學(xué)習(xí))包括應(yīng)用算法建模和應(yīng)用機器學(xué)習(xí)處理大數(shù)據(jù)的軟件。從上榜公司的數(shù)量就能看出,這一領(lǐng)域正在逐漸成熟和蓬勃發(fā)展。其中一些公司專注于特定類型的數(shù)據(jù)(如 Rasa 和 Hugging Face 專注于自然語言),其他公司則專注于不同的領(lǐng)域,如人工智能的產(chǎn)品化(如 Scale 、Tecton 和 Weights and Biases)或運行人工智能工作負載的 "計算層"(如 Anyscale)。

      3. ELT 與編排(ELT & Orchestration)

      ELT 與編排賦予了數(shù)據(jù)移動的能力。這一類別里,產(chǎn)品是一個運輸層,保證數(shù)據(jù)準確和及時地到達目的地。這一類別是從傳統(tǒng)的基于“拖拉拽”操作界面的 ETL 供應(yīng)商基礎(chǔ)上演變而來的。另一方面,這一領(lǐng)域的新廠商大多是云原生的(如 Fivetran 和 dbt)、開發(fā)者友好的(如 Astronomer 和 Prefect),并且能處理不同數(shù)據(jù)環(huán)境中更復(fù)雜的依賴關(guān)系。

      注:

      ETL(Extract-Transform-Load),用來描述將數(shù)據(jù)從來源端經(jīng)過提取、轉(zhuǎn)換、加載至目的端的過程;ELT(Extract-Load-Transform)功能上與 ETL 無差異,僅順序不同,ELT 是一個較新潮的概念,用于數(shù)據(jù)湖或數(shù)據(jù)中臺。

      編排,對單獨組件和應(yīng)用層的工作進行組織的流程。

      4. 數(shù)據(jù)治理與安全(Data governance & Security)

      隨著數(shù)據(jù)棧變得越來越復(fù)雜,越來越多的利益相關(guān)者參與進來,數(shù)據(jù)治理和安全正成為關(guān)鍵問題。數(shù)據(jù)治理工具對于企業(yè)而言是必需的,尤其是強監(jiān)管行業(yè)的企業(yè),它可以確保企業(yè)的數(shù)據(jù)安全,確保企業(yè)在整個數(shù)據(jù)生命周期內(nèi)保持合規(guī)性(如 OneTrust 和 Collibra)。這個賽道相對較新,通常服務(wù)于受監(jiān)管的大型企業(yè)。

      5. 客戶數(shù)據(jù)分析(Customer data analytics)

      客戶數(shù)據(jù)分析傳統(tǒng)上由營銷團隊所有。然而,由于其重要性增加,數(shù)據(jù)團隊現(xiàn)在也更多地參與到將客戶數(shù)據(jù)與中央數(shù)據(jù)平臺整合的工作中。這個賽道主要捕捉客戶數(shù)據(jù)(如 Rudderstack 和 ActionIQ)或將數(shù)據(jù)變得可操作,以服務(wù)一線業(yè)務(wù)案例(如 Census 和 Hightouch)。

      6. 商業(yè)智能與演算本(BI & Notebooks)

      商業(yè)智能與演算本(用于記錄算法操作步驟)覆蓋了數(shù)據(jù)的消費層。盡管這是一個成熟領(lǐng)域,但新參與者如 Preset 或 Metabase,正在采取一種開源優(yōu)先的方式,吸引技術(shù)數(shù)據(jù)工程師以及 BI 團隊。數(shù)據(jù)需求的快速變化也為迭代和交互式演算本(如 Hex)和自動生成的洞察(如 Sisu)創(chuàng)造了更多需求。

      7. 數(shù)據(jù)可觀測性(Data Observability)

      數(shù)據(jù)可觀測性從軟件工程棧的最佳實踐中獲得靈感。隨著數(shù)據(jù)棧與上下游工具的相互依賴性越來越強,數(shù)據(jù)的準確性也有了更廣泛的影響,數(shù)據(jù)可觀測性作為最新的賽道出現(xiàn),為整個數(shù)據(jù)流提供監(jiān)控和診斷能力。

      數(shù)據(jù)查詢和數(shù)據(jù)處理公司籌集了絕大部分資金

      數(shù)據(jù)查詢和數(shù)據(jù)處理領(lǐng)域公司數(shù)量只占 Data 50 的五分之一,但投資于該領(lǐng)域的資金幾乎占所有資金的 50% —— 這是驚人的。即使這一數(shù)據(jù)受到 Databricks 最新的 16 億美元融資的影響,但如果沒有它,該領(lǐng)域仍占所有融資金額的 37%,是排名第二的領(lǐng)域兩倍還多。

      圖片

      若從公司數(shù)量看,各領(lǐng)域分布則相對平衡。AI/ML 是公司數(shù)量最多的領(lǐng)域,主要因為該領(lǐng)域仍在不斷發(fā)展,需要一套新的獨立工具來訓(xùn)練、測量和產(chǎn)出模型。

      圖片

      Data 50 聚集在灣區(qū)

      在這 50 家公司中,47 家(94%)位于美國,3 家位于美國以外的地區(qū)。大多數(shù)公司(33 家)位于舊金山灣區(qū),9 家位于華盛頓特區(qū)、費城、紐約和波士頓的 I-95 走廊沿線,2 家位于西雅圖,1 家位于辛辛那提,1 家位于亞特蘭大。

      這樣的分布在很大程度受歷史上大規(guī)模數(shù)據(jù)生態(tài)系統(tǒng)所在地的影響(例如,Oracle 和 Teradata 都是在灣區(qū)成立的)。然而,我們看到更多的數(shù)據(jù)公司在全球范圍內(nèi)出現(xiàn)(如 Firebolt 和 Matillion),因為數(shù)據(jù)工程人才以及對數(shù)據(jù)工具的需求幾乎遍布每個大陸。

      圖片

      AI/ML 推動 2019 年新興數(shù)據(jù)公司的激增

      在 AI/ML 工具爆發(fā)的推動下,大部分 Data 50 公司都是在 2014 年之后成立的,在 2019 年左右達到高峰。事實上,還有很多數(shù)據(jù)公司在 2019 年之后成立,但由于我們關(guān)注的是已經(jīng)達到一定規(guī)模的公司,所以大多數(shù)新公司還沒有出現(xiàn)在這個名單上。

      圖片

      每個領(lǐng)域的投資金額都在增長

      從每個領(lǐng)域的投資來看,最明顯的趨勢是,AI/ML 公司正在收獲比以往更多的投資者興趣,主要集中在早期階段。ELT 和編排也是如此,主要由 Fivetran 和 dbt 的巨額融資推動。數(shù)據(jù)查詢和數(shù)據(jù)處理公司繼續(xù)吸引大筆資金,盡管這些公司往往處于后期階段。

      圖片

      數(shù)據(jù)賽道的美妙之處在于,它將軟件開發(fā)、數(shù)據(jù)分析和人工智能結(jié)合起來,同時享受了云計算浪潮的勢頭。盡管市場采納的主要推動力是數(shù)據(jù)量和使用量的增加,但每個細分領(lǐng)域的根本驅(qū)動力不同。例如,查詢和處理領(lǐng)域主要由計算和存儲的分離、向云計算的遷移以及更便宜的算力所驅(qū)動。數(shù)據(jù)治理和數(shù)據(jù)可觀測性領(lǐng)域主要由不斷增長的實操案例以及數(shù)據(jù)工作流程的復(fù)雜性所驅(qū)動。

      為了說明這一巨大趨勢背后的架構(gòu)演變和驅(qū)動力,我們于 年2020底發(fā)布了一套結(jié)構(gòu)體系。我們看到圍繞數(shù)據(jù)構(gòu)建的復(fù)雜系統(tǒng)的興起,系統(tǒng)價值主要來自數(shù)據(jù),而不是直接來自軟件,這一趨勢對行業(yè)產(chǎn)生巨大影響。

      然而,我們發(fā)現(xiàn),在這一趨勢的前端,哪些技術(shù)是領(lǐng)先的,它們在實踐中如何使用,大家仍然存在巨大困惑。因此,在過去幾年中,我們與數(shù)百名創(chuàng)始人、企業(yè)數(shù)據(jù)領(lǐng)導(dǎo)者及其他專家進行交流,了解他們當前的數(shù)據(jù)堆棧與最佳實踐,形成一個參考架構(gòu)與體系。

      自第一版架構(gòu)體系發(fā)布以來,數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)持續(xù)保持增長,幾乎所有的關(guān)鍵行業(yè)指標都創(chuàng)下了歷史新高,新產(chǎn)品類別的出現(xiàn)速度超過了大多數(shù)數(shù)據(jù)團隊可以合理追蹤的速度。為了幫助數(shù)據(jù)團隊緊跟行業(yè)內(nèi)發(fā)生的變化,我們最近又發(fā)布了一套最新的數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)。它們展示了我們過去一年中從眾多企業(yè)那里收集到的、跨越分析和運營系統(tǒng)的最佳技術(shù)。每個架構(gòu)藍圖都包括自上一版本以來的變化摘要。

      我們還試圖解釋為什么會發(fā)生這些變化。我們認為,核心數(shù)據(jù)處理系統(tǒng)在過去一年中保持相對穩(wěn)定,而支持類的工具和應(yīng)用則迅速激增。我們探討的假設(shè)是,平臺開始在數(shù)據(jù)生態(tài)系統(tǒng)中出現(xiàn)。這一假設(shè)有助于解釋我們在數(shù)據(jù)棧的演變中看到的特殊模式。

      為了更新參考架構(gòu),我們再次請教了幾十位數(shù)據(jù)專家的意見。以下為更新后的架構(gòu),以及架構(gòu)變化背后的原因。

      03.

      數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)

      在我們深入了解細節(jié)之前,先看看最新的架構(gòu)圖。這些是在領(lǐng)先的數(shù)據(jù)從業(yè)者的幫助下,根據(jù)他們內(nèi)部運行的情況和他們對新部署的建議而編制的。

      第一張架構(gòu)圖展示的是與所有數(shù)據(jù)基礎(chǔ)設(shè)施用例相關(guān)的統(tǒng)一概述。

      圖片

      注:不包括 OLTP(On-Line Transaction Processing,聯(lián)機事務(wù)處理過程)、日志分析和 SaaS 分析應(yīng)用。

      圖片

      第二張架構(gòu)圖強調(diào)了機器學(xué)習(xí),它是一個復(fù)雜的、越來越獨立的工具鏈。

      圖片
      圖片

      04.

      數(shù)據(jù)基礎(chǔ)設(shè)施藍圖

      在此背景下,我們將對每個主要的數(shù)據(jù)基礎(chǔ)設(shè)施藍圖進行詳細介紹。下面的每一節(jié)都顯示了一個更新的圖表(與第一版架構(gòu)進行比較)和對關(guān)鍵變化的分析。這部分主要為實施堆棧的數(shù)據(jù)團隊提供參考。

      藍圖 1:現(xiàn)代商業(yè)智能

      為各種規(guī)模的公司提供云原生商業(yè)智能。

      圖片

      注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框為基本保持不變;灰色方框被認為與此藍圖不太相關(guān)。

      什么沒變

      • 數(shù)據(jù)復(fù)制(如 Fivetran )、云數(shù)據(jù)倉庫(如 Snowflake)和基于 SQL 的數(shù)據(jù)建模(與 dbt)的組合繼續(xù)構(gòu)成這一模式的核心。這些技術(shù)的應(yīng)用已經(jīng)有了很大的增長,也使新競爭者(如 Airbyte 和 Firebolt)獲得了資金和早期增長。

      • 看板仍然是輸出層中最常見的應(yīng)用,包括 Looker、Tableau、PowerBI 以及像 Superset 這樣的新入局者。

      有什么新變化

      • 人們對指標層(metrics layers)的興趣大增,這是一個在數(shù)據(jù)倉庫之上提供標準定義的系統(tǒng)。這方面的爭論很激烈,包括它應(yīng)該有什么功能,哪些企業(yè)應(yīng)該開發(fā)和擁有它,以及它應(yīng)該遵循什么規(guī)范。到目前為止,我們已經(jīng)看到幾個可靠的產(chǎn)品(如 Transform 和 Supergrain),并通過 dbt 拓展到這一類別。

      • 反向 ETL 供應(yīng)商已經(jīng)有了顯著的增長,特別是 Hightouch 和 Census。這些產(chǎn)品的目的是更新運營系統(tǒng),如 CRM 或 ERP,以及從數(shù)據(jù)倉庫中獲得產(chǎn)出和洞察。

      注:

      反向 ETL,指將數(shù)據(jù)流程反轉(zhuǎn),傳統(tǒng)流程為“業(yè)務(wù)系統(tǒng)-ETL-數(shù)據(jù)中心存儲”,反向 ETL 流程則是“數(shù)據(jù)中心存儲-ETL-業(yè)務(wù)系統(tǒng)”。通過反向 ETL,可以將處理后的用戶或產(chǎn)品數(shù)據(jù)從中心存儲(如數(shù)據(jù)倉庫或數(shù)據(jù)庫中)同步到業(yè)務(wù)所在的工具和平臺上。

      • 數(shù)據(jù)團隊對新的應(yīng)用程序表現(xiàn)出更大的興趣,以強化他們的標準看板,尤其是數(shù)據(jù)工作空間(如 Hex)。廣義上講,新的應(yīng)用程序可能是云數(shù)據(jù)倉庫日益標準化的結(jié)果。一旦數(shù)據(jù)結(jié)構(gòu)清晰且易于訪問,數(shù)據(jù)團隊自然希望對其做更多的處理。

      • 數(shù)據(jù)發(fā)現(xiàn)和可觀測公司激增,并且籌集了大量資金(尤其是 Monte Carlo 和 Bigeye)。雖然這些產(chǎn)品的好處很明顯,即更可靠的數(shù)據(jù)管道和更好的協(xié)作,但產(chǎn)品的采用依然處于早期,因為客戶也會關(guān)注相關(guān)的案例和預(yù)算。(說明:盡管在數(shù)據(jù)發(fā)現(xiàn)方面有幾個可靠的新供應(yīng)商,例如 Select Star, Metaphor, Stemma, Secoda, Castor,但我們的圖表中一般不包括處于種子階段的公司。)

      藍圖 2:多模態(tài)數(shù)據(jù)處理

      進化的數(shù)據(jù)湖支持分析和運營案例,這也被稱為 Hadoop 難民的現(xiàn)代基礎(chǔ)設(shè)施。

      注:Hadoop 是一個由 Apache 基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。Hadoop 作為一項技術(shù)正在衰退。

      圖片

      注:深黑色方框是新的或自 年2020架構(gòu)的第 1 版以來顯著的變化;淺黑色方框為基本保持不變;灰色方框被認為與本藍圖不太相關(guān)。

      什么沒變

      • 數(shù)據(jù)處理(如 Databricks 、Starburst 和 Dremio)、傳輸(如 Confluent 和 Airflow)和存儲(AWS)方面的核心系統(tǒng)繼續(xù)高速增長,并構(gòu)成本藍圖的主干。

      • 多模態(tài)數(shù)據(jù)處理在設(shè)計上仍然是多樣化的,使公司可以在分析和運營數(shù)據(jù)應(yīng)用中采用最適合其特定需求的系統(tǒng)。

      有什么新變化

      • 人們對湖倉一體架構(gòu)的認識越來越清晰。我們已經(jīng)看到這種方法得到了眾多供應(yīng)商(包括 AWS、Databricks 、Google Cloud、Starburst 和 Dremio)和數(shù)據(jù)倉先鋒的支持。湖倉一體的基本價值是將強大的存儲層與一系列強大的數(shù)據(jù)處理引擎(如 Spark、Presto、Druid/Clickhouse、Python 庫等)配對。

      • 存儲層本身正在升級。雖然像 Delta、Iceberg 和 Hudi 這樣的技術(shù)并不新鮮,但它們正被加速采用,并被構(gòu)建到商業(yè)產(chǎn)品中。其中一些技術(shù)(特別是 Iceberg)也與云數(shù)據(jù)倉庫(如 Snowflake)進行了交互操作。如果異質(zhì)性仍然存在,這可能會成為多模態(tài)數(shù)據(jù)堆棧的一個關(guān)鍵部分。

      • 流處理(即,實時分析數(shù)據(jù)處理)的采用可能會上升。雖然像 Flink 這樣的第一代技術(shù)仍未成為主流,但具有更簡單編程模型的新進入者(如 Materialize 和 Upsolver)正在獲得早期用戶,而且,據(jù)說現(xiàn)有的 Databricks 和 Confluent 公司的流處理產(chǎn)品的使用也開始加速。

      藍圖 3:人工智能和機器學(xué)習(xí)

      用于機器學(xué)習(xí)模型的強大開發(fā)、測試和操作的堆棧。

      圖片

      注:深黑色方框是新的或自 年2020架構(gòu)的 V1 以來有意義的變化;淺黑色方框為基本保持不變;灰色方框被認為與本藍圖不太相關(guān)。

      什么沒變

      • 今天的模型開發(fā)工具與 年2020基本相似,包括主要的云供應(yīng)商(如 Databricks 和 AWS)、ML 框架(如 XGBoost 和 PyTorch)和實驗管理工具(如 Weights & Biases 和 Comet)。

        • 實驗管理已經(jīng)有效地將模型的可視化和調(diào)整,歸為了獨立的類別。

      • 構(gòu)建和運行一個機器學(xué)習(xí)堆棧是復(fù)雜的,需要專業(yè)知識。這個藍圖不適合膽小的人——對于許多數(shù)據(jù)團隊來說,人工智能的實際應(yīng)用仍然是一個挑戰(zhàn)。

      有什么新變化

      • ML 行業(yè)正在圍繞以數(shù)據(jù)為中心的方法進行整合,強調(diào)復(fù)雜數(shù)據(jù)的管理,而不是增量的建模改進。有這幾個影響:

        • 數(shù)據(jù)標簽(data labeling)的快速增長(如 Scale 和 Labelbox)以及對閉環(huán)數(shù)據(jù)引擎(closed-loop data engines)興趣的不斷增加,主要是仿照特斯拉的自動駕駛數(shù)據(jù)管道。

        • 批量處理和實時使用的情況下,特征存儲(feature stores)(如 Tecton)的使用率增加,作為以協(xié)作方式開發(fā)生產(chǎn)級 ML 數(shù)據(jù)的一種手段。

      注:特征存儲,是一個用于管理機器學(xué)習(xí)特征的數(shù)據(jù)管理系統(tǒng),包括特征工程代碼和特征數(shù)據(jù),目標是使數(shù)據(jù)科學(xué)家能夠縮短從數(shù)據(jù)攝取到ML模型訓(xùn)練和推理的時間。

        • 低代碼 ML 解決方案(如 Continual 和 MindsDB)的興趣再度產(chǎn)生,這些解決方案至少可以部分實現(xiàn) ML 建模過程的自動化。這些較新的解決方案專注于將新用戶(即分析師和軟件開發(fā)人員)帶入 ML 市場。

      • 預(yù)訓(xùn)練模型的使用正在成為默認選項,特別是在 NLP 中。并為 OpenAI 和 Hugging Face 等公司提供了助力。這里仍有圍繞微調(diào)、成本和擴展的,有意義的問題需要解決。

      • ML 的運營工具(有時被稱為 MLops)正變得越來越成熟,它是圍繞著 ML 監(jiān)控,作為最需要的用例和即時預(yù)算而構(gòu)建的。同時,一系列新的運營工具正在出現(xiàn),功能包括驗證和審計,最終市場仍有待確定。

      • 人們越來越關(guān)注開發(fā)者如何將 ML 模型無縫集成到應(yīng)用程序中,包括通過預(yù)構(gòu)建的 API(如 OpenAI)、矢量數(shù)據(jù)庫(如 Pinecone)和更多有指導(dǎo)意義的框架。 

      05.

      數(shù)據(jù)基礎(chǔ)設(shè)施變化洞察

      數(shù)據(jù)棧

      數(shù)據(jù)棧內(nèi)核穩(wěn)定

      盡管在過去的一年中,數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域的活動非??駸?,但某些方面變化之小令人驚訝,例如數(shù)據(jù)棧內(nèi)核的穩(wěn)定。

      在我們的第一版架構(gòu)中,我們區(qū)分了支持數(shù)據(jù)驅(qū)動決策的分析系統(tǒng),和支持數(shù)據(jù)驅(qū)動產(chǎn)品的運營系統(tǒng)。然后,我們將這些類別映射到三種模式或藍圖中,這些通常由領(lǐng)先的數(shù)據(jù)團隊實施。

      圖片

      其中一個關(guān)鍵問題是這些架構(gòu)模式是否會融合。一年后,這似乎并沒有發(fā)生。

      尤其是分析和運營的生態(tài)系統(tǒng)都在持續(xù)蓬勃發(fā)展。像 Snowflake 這樣的云數(shù)據(jù)倉庫已經(jīng)迅速增長,主要集中在 SQL 用戶和商業(yè)智能用例。但其他技術(shù)的采用也在加速發(fā)展,例如,像 Databricks 這樣的數(shù)據(jù)湖倉一體,客戶量正在以比以往更快的速度增加。我們采訪的許多數(shù)據(jù)團隊證實,異質(zhì)性很可能在數(shù)據(jù)棧中繼續(xù)存在。

      其他核心數(shù)據(jù)系統(tǒng),即獲取和轉(zhuǎn)換,已被證明具有類似的持久性。這在現(xiàn)代商業(yè)智能模式中尤其明顯,其中 Fivetran 和 dbt(或類似技術(shù))的結(jié)合已經(jīng)變得幾乎無處不在。這在某種程度上也適用于運營系統(tǒng),那里已經(jīng)出現(xiàn)了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事實標準。

      數(shù)據(jù)棧新變化

      圍繞著穩(wěn)定的內(nèi)核,數(shù)據(jù)棧在過去的一年里迅速發(fā)展,變化主要發(fā)生在以下兩個領(lǐng)域:

      • 支持關(guān)鍵數(shù)據(jù)流和工作流的新工具,如數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)可觀測性或 ML 模型審計。

      • 讓數(shù)據(jù)團隊和商業(yè)用戶以更新、更強大的方式從數(shù)據(jù)中挖掘價值的新應(yīng)用,如數(shù)據(jù)工作區(qū)、反向 ETL 和 ML 應(yīng)用框架。

      我們還看到一些旨在加強核心數(shù)據(jù)處理系統(tǒng)的新技術(shù)的引入。值得注意的是,我們圍繞著分析生態(tài)系統(tǒng)中的指標層以及運營系統(tǒng)的湖倉一體化模式展開了積極的討論,這兩者都在向有益的定義和架構(gòu)靠攏。

      數(shù)據(jù)平臺

      上文提到,在過去的一年里,數(shù)據(jù)基礎(chǔ)設(shè)施堆棧的核心系統(tǒng)有了很大的穩(wěn)定性,而支持工具和應(yīng)用程序數(shù)量激增。為了解釋為什么會發(fā)生這種情況,我們在此介紹平臺的概念。

      什么是平臺

      在數(shù)據(jù)生態(tài)系統(tǒng)中,"平臺 "這個詞已經(jīng)被過度使用了,經(jīng)常被內(nèi)部團隊用來描述他們的整個技術(shù)堆棧,或者被供應(yīng)商用來銷售松散連接的產(chǎn)品套件。

      在更廣泛的軟件領(lǐng)域,平臺是其他開發(fā)者可以在上面“搭建”的東西。平臺本身提供的價值通常是有限的。例如,大多數(shù)用戶對訪問 Windows 或 iOS 的內(nèi)部結(jié)構(gòu)沒有興趣。但它們提供了一系列好處,如通用的編程接口和龐大的安裝基礎(chǔ),使開發(fā)者能夠建立和發(fā)布用戶最終關(guān)心的應(yīng)用程序。

      從行業(yè)的角度來看,平臺的決定性特征是“相互依賴”,即有影響力的平臺供應(yīng)商和大量第三方開發(fā)者之間在技術(shù)上和經(jīng)濟上的相互依賴。

      圖片

      什么是數(shù)據(jù)平臺

      從歷史上看,數(shù)據(jù)棧并不適合平臺的定義。例如,ETL、數(shù)據(jù)倉庫和報告供應(yīng)商之間存在著相互依賴,但整合模式往往是一對一的,而不是一對多的,且由專業(yè)服務(wù)來大量補充。

      根據(jù)我們采訪的一些數(shù)據(jù)專家的說法來看,這種情況可能會開始改變。

      數(shù)據(jù)平臺假說認為,數(shù)據(jù)堆棧的 "后端",大致定義為數(shù)據(jù)獲取、存儲、處理和轉(zhuǎn)換?!昂蠖恕币呀?jīng)開始圍繞一組相對較小的基于云的供應(yīng)商進行整合。因此,客戶數(shù)據(jù)被收集在一套標準的系統(tǒng)中,而且供應(yīng)商正在大力投資,以使這些數(shù)據(jù)更易于被其他開發(fā)者訪問。客戶數(shù)據(jù)也是 Databricks 等系統(tǒng)的基本設(shè)計原則,并且是通過 SQL 標準,以及 Snowflake 等系統(tǒng)的定制計算 API 的。

      反過來,"前端 "開發(fā)人員已經(jīng)利用這種單一的集成點,建立了一系列新的應(yīng)用程序。他們依靠數(shù)據(jù)倉庫/湖倉的干凈、連接的數(shù)據(jù),無需擔心它如何實現(xiàn)基本細節(jié)。一個客戶可以在一個核心數(shù)據(jù)系統(tǒng)的基礎(chǔ)上購買和建立許多應(yīng)用程序。我們甚至開始看到傳統(tǒng)的企業(yè)系統(tǒng),如財務(wù)或產(chǎn)品分析,正在以 "倉庫原生 "的架構(gòu)進行重建。

      這畫面可能看起來像這樣:

      圖片

      要清楚的是,這并不意味著 OLTP 數(shù)據(jù)庫或其他重要的后端技術(shù)將在不久的將來消失。但是,與 OLAP 系統(tǒng)的原生集成可能會成為應(yīng)用開發(fā)的一個重要組成部分。隨著時間的推移,越來越多的業(yè)務(wù)邏輯和應(yīng)用功能可能會過渡到這種模式。我們可能會看到一大類新產(chǎn)品建立在這個數(shù)據(jù)平臺上。

      數(shù)據(jù)應(yīng)用

      數(shù)據(jù)平臺假說仍有待商榷。然而,我們看到復(fù)雜的垂直 SaaS 解決方案在數(shù)據(jù)平臺上以水平層的形式實施。因此,雖然是早期,我們認為在數(shù)據(jù)堆棧中發(fā)生的變化至少與平臺的想法是一致的。

      這是由很多原因?qū)е碌?。例如,?Snowflake 和 Databricks 這樣的公司已經(jīng)成為數(shù)據(jù)棧的穩(wěn)定部分,包括偉大的產(chǎn)品,有能力的銷售團隊和低摩擦的部署模式。但也有一種情況是,他們的粘性被平臺的動力所加強—— 一旦客戶用其中一個系統(tǒng)構(gòu)建和/或集成了一系列數(shù)據(jù)應(yīng)用程序,通常就沒有必要再過渡了。

      類似的觀點也可以支持近年來新型數(shù)據(jù)基礎(chǔ)設(shè)施產(chǎn)品激增這一事實,這一趨勢與海量的數(shù)據(jù)、不斷增加的企業(yè)預(yù)算和過剩的風(fēng)投資金有關(guān)。我們現(xiàn)在看到這么多新產(chǎn)品的出現(xiàn),原因可能與平臺有關(guān)——也就是說,一個新的數(shù)據(jù)應(yīng)用程序從未像現(xiàn)在這樣容易被采用,而正確維護平臺也從未像現(xiàn)在這樣重要。

      平臺假說在競爭態(tài)勢方面提供了一些預(yù)測能力。從規(guī)模上看,平臺可能非常有價值。如今,核心數(shù)據(jù)系統(tǒng)供應(yīng)商的競爭可能不僅僅是為了當前的預(yù)算,更是為了長期的平臺地位。如果你相信數(shù)據(jù)獲取和轉(zhuǎn)換、指標層應(yīng)用或反向 ETL 是新興數(shù)據(jù)平臺的核心部分,那么它們那令人瞠目結(jié)舌的估值以及各方的激烈辯論也將更有意義。

      06.

      未來

      我們?nèi)蕴幱诙x數(shù)據(jù)平臺的早期階段,平臺的各個部分也在不斷變化。因此,把它當作一個類比,可能比當作一個嚴格的定義更好。它可能是一個有用的工具,可以幫助人們過濾噪音中的信號,培養(yǎng)對市場發(fā)展方式的認知。數(shù)據(jù)團隊現(xiàn)在擁有更多的工具、資源和組織動力,比數(shù)據(jù)庫發(fā)明以來的任何時候(可能)都多。我們非常期待看到應(yīng)用層在新興平臺之上的發(fā)展。

      我們相信,未來 10 年將是數(shù)據(jù)的 10 年,包括企業(yè)基礎(chǔ)設(shè)施、應(yīng)用程序以及介于兩者之間的一切。


        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多