大家都承認(rèn)數(shù)據(jù)的重要性,但數(shù)據(jù)團(tuán)隊(duì)的關(guān)鍵作用也許在很多公司都沒(méi)有體現(xiàn)出來(lái)。大多數(shù)企業(yè)只依賴(lài)其數(shù)據(jù)團(tuán)隊(duì)來(lái)統(tǒng)計(jì)用戶量或跟蹤用戶信息,只有少數(shù)企業(yè)利用數(shù)據(jù)開(kāi)展改進(jìn)產(chǎn)品的實(shí)驗(yàn),而能利用數(shù)據(jù)分析來(lái)調(diào)整目標(biāo)和流程的企業(yè)則更屈指可數(shù)。也許你需要量身打造一個(gè)適合公司發(fā)展階段的數(shù)據(jù)團(tuán)隊(duì)了。 這是《手把手教你建立數(shù)據(jù)型公司系列》的第三篇。在上一篇文章中,我們介紹了為何數(shù)據(jù)科學(xué)如此重要、數(shù)據(jù)科學(xué)家的職責(zé),以及數(shù)據(jù)科學(xué)的發(fā)展前景。在今天的文章中,我們將深入探究建立數(shù)據(jù)處理團(tuán)隊(duì)的主要目標(biāo)、整體架構(gòu),以及在各個(gè)特定開(kāi)發(fā)階段的主要任務(wù)。本文研究成果來(lái)自紅杉美國(guó)數(shù)據(jù)科學(xué)團(tuán)隊(duì)。 以下是本文的內(nèi)容要點(diǎn): ? 數(shù)據(jù)處理團(tuán)隊(duì)的三大目標(biāo):評(píng)估健康狀況;交付適當(dāng)產(chǎn)品;制定產(chǎn)品目標(biāo)、流程和戰(zhàn)略。 ? 充分構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施,在產(chǎn)品生命周期的不同階段,聘用合適的數(shù)據(jù)處理人才,有助于開(kāi)展整個(gè)數(shù)據(jù)分析過(guò)程。 ? 隨著時(shí)間的推移,從用戶統(tǒng)計(jì)到最終制定產(chǎn)品流程和策略,數(shù)據(jù)處理團(tuán)隊(duì)的任務(wù)應(yīng)隨之不斷變化。 建立數(shù)據(jù)處理團(tuán)隊(duì)的主要目標(biāo) 企業(yè)競(jìng)爭(zhēng)力越來(lái)越取決于如何成功地分析海量的、非結(jié)構(gòu)化的數(shù)據(jù)集,以及如何利用這些分析推動(dòng)企業(yè)創(chuàng)新。因此,企業(yè)的當(dāng)務(wù)之急便是建立數(shù)據(jù)處理團(tuán)隊(duì),專(zhuān)注于從數(shù)據(jù)中汲取商業(yè)價(jià)值。 建立數(shù)據(jù)處理團(tuán)隊(duì)首先要明確以這三方面為主要目標(biāo): ? 評(píng)估健康狀況 監(jiān)控關(guān)鍵產(chǎn)品的指標(biāo);了解這些指標(biāo)變化背后的因素,并識(shí)別出異常值;形成企業(yè)報(bào)告并可視化。 ? 交付適當(dāng)產(chǎn)品 設(shè)計(jì)和評(píng)估實(shí)驗(yàn);細(xì)分用戶,建立用戶行為模型;利用人工智能和機(jī)器學(xué)習(xí)改進(jìn)產(chǎn)品生產(chǎn)系統(tǒng)。 ? 制定產(chǎn)品目標(biāo)、流程和策略 深入探索和分析用戶體驗(yàn)過(guò)程;提出切實(shí)可行的策略并預(yù)測(cè)效果。 數(shù)據(jù)處理團(tuán)隊(duì)架構(gòu) 要實(shí)現(xiàn)上述三大主要目標(biāo),則需建立恰當(dāng)?shù)臄?shù)據(jù)基礎(chǔ)設(shè)施。圖1展示了整個(gè)數(shù)據(jù)處理團(tuán)隊(duì)的架構(gòu)。 (圖1) 第一步是記錄下用戶與產(chǎn)品的所有交互行為——用戶每次點(diǎn)擊、懸停、打開(kāi)、關(guān)閉和登錄等,以及第三方提供的所有數(shù)據(jù)。一般來(lái)說(shuō),隨著用戶數(shù)量和用戶參與度的增加,這些數(shù)據(jù)的規(guī)模會(huì)迅速擴(kuò)大。 盡管這些數(shù)據(jù)不一定都有意義,但記錄用戶足跡是整個(gè)過(guò)程中的關(guān)鍵步驟。由于很多企業(yè)并不清楚自己最終需要什么樣的數(shù)據(jù),所以最簡(jiǎn)單的方法便是記錄所有。之后,某些特定類(lèi)型的數(shù)據(jù)需要經(jīng)過(guò)處理才會(huì)變得有用,比如欺詐檢測(cè)和直播視頻。 原始數(shù)據(jù)可以通過(guò)ETL(萃取、轉(zhuǎn)置、加載的過(guò)程)至數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)則以更為結(jié)構(gòu)化的形式(通常由結(jié)構(gòu)化查詢(xún)語(yǔ)言SQL支持)存儲(chǔ)數(shù)據(jù)。一些較大的企業(yè)選擇將所有傳入的數(shù)據(jù)以原始形式儲(chǔ)存在數(shù)據(jù)池中(一個(gè)存儲(chǔ)所有數(shù)據(jù)的集中式存儲(chǔ)庫(kù)),這樣一來(lái),企業(yè)便可以利用最新的邏輯,對(duì)下游的數(shù)據(jù)存儲(chǔ)進(jìn)行補(bǔ)充。 許多大中型企業(yè)擁有多個(gè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)池,但如果沒(méi)有構(gòu)建數(shù)據(jù)集,數(shù)據(jù)的直接分析就會(huì)變得困難。因此,構(gòu)建數(shù)據(jù)集往往需要針對(duì)特定使用目的進(jìn)行另一個(gè)萃取、轉(zhuǎn)置、加載過(guò)程。之后,輸出的數(shù)據(jù)將被存儲(chǔ)在一個(gè)分析數(shù)據(jù)庫(kù)中,用于更深入地分析,從而形成報(bào)告并將其可視化,并構(gòu)建起人工智能和機(jī)器學(xué)習(xí)(AI/ML)模型。 這些深入了解將有助于制定流程和策略,可視化和報(bào)告則將有助于監(jiān)控產(chǎn)品的開(kāi)發(fā)進(jìn)度,而AI/ML模型將有助于實(shí)現(xiàn)自動(dòng)化并預(yù)測(cè)其效果。 此外,測(cè)試-學(xué)習(xí)方法是構(gòu)建任何數(shù)據(jù)型產(chǎn)品的關(guān)鍵,它可以基于追蹤的用戶行為數(shù)據(jù),開(kāi)發(fā)并定制產(chǎn)品。根據(jù)對(duì)關(guān)鍵指標(biāo)的影響,企業(yè)運(yùn)行、評(píng)估和實(shí)施大量的產(chǎn)品實(shí)驗(yàn)(比如,A/B測(cè)試)。在這些實(shí)驗(yàn)中,特征標(biāo)記將對(duì)用戶進(jìn)行細(xì)分,以確保不同的用戶群組數(shù)據(jù)將會(huì)得到不同的處理。 隨著數(shù)據(jù)處理的規(guī)?;蜆?biāo)準(zhǔn)化,多種與數(shù)據(jù)相關(guān)的專(zhuān)業(yè)崗位將會(huì)誕生,包括數(shù)據(jù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)基礎(chǔ)設(shè)施工程師、數(shù)據(jù)架構(gòu)師和數(shù)據(jù)科學(xué)家。在不同項(xiàng)目中,創(chuàng)建者、終端用戶和數(shù)據(jù)產(chǎn)品各不相同(詳見(jiàn)圖2)。 (圖2) 數(shù)據(jù)處理團(tuán)隊(duì)的演進(jìn) 數(shù)據(jù)處理團(tuán)隊(duì)的功能應(yīng)隨著產(chǎn)品的發(fā)展而演進(jìn)。例如,在早期階段,聘請(qǐng)專(zhuān)門(mén)從事分析千萬(wàn)級(jí)字節(jié)數(shù)據(jù)的數(shù)據(jù)工程師可能作用不大,但隨著產(chǎn)品的推廣,他們的作用則會(huì)日益彰顯。構(gòu)建數(shù)據(jù)處理團(tuán)隊(duì)?wèi)?yīng)著眼于中短期需求,數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)則應(yīng)以長(zhǎng)期需求為基礎(chǔ)。 下面,我們來(lái)談什么是數(shù)據(jù)團(tuán)隊(duì)在各個(gè)特定開(kāi)發(fā)階段的主要任務(wù)。 (圖3) ? 階段一 起初,當(dāng)企業(yè)在統(tǒng)計(jì)用戶數(shù)量時(shí),出色的技術(shù)執(zhí)行能力是企業(yè)的核心技能,比如建立基礎(chǔ)設(shè)施生成可信的KPI、創(chuàng)建用戶跟蹤數(shù)據(jù),并形成最初的報(bào)告。對(duì)于大多數(shù)公司來(lái)說(shuō),產(chǎn)品團(tuán)隊(duì)即為最初的數(shù)據(jù)團(tuán)隊(duì)。因?yàn)楫a(chǎn)品團(tuán)隊(duì)負(fù)責(zé)定義度量標(biāo)準(zhǔn),并且隨著產(chǎn)品使用量的增加,計(jì)算和存儲(chǔ)與這些度量標(biāo)準(zhǔn)相關(guān)的數(shù)據(jù)。 ? 階段二 隨著企業(yè)和產(chǎn)品的發(fā)展,完善信息板和報(bào)告變得越來(lái)越重要。這時(shí),數(shù)據(jù)工程便成為獨(dú)立于產(chǎn)品工程的核心功能,而構(gòu)建基礎(chǔ)設(shè)施的目的則是專(zhuān)門(mén)支持ETL和報(bào)告的功能。尤為重要的是,數(shù)據(jù)團(tuán)隊(duì)需要對(duì)產(chǎn)品進(jìn)行深入了解,并提出看法。除了監(jiān)控KPI、向企業(yè)其他部門(mén)提供分析報(bào)告之外,數(shù)據(jù)團(tuán)隊(duì)的核心職責(zé)還包括進(jìn)行特別分析,識(shí)別出度量偏差的根本原因。 ? 階段三 一旦產(chǎn)品使用量達(dá)到一定規(guī)模,需要進(jìn)行統(tǒng)計(jì)意義上的實(shí)驗(yàn)來(lái)改進(jìn)產(chǎn)品體驗(yàn),這時(shí),對(duì)于數(shù)據(jù)分析師和數(shù)據(jù)工程師來(lái)說(shuō),統(tǒng)計(jì)技能就至關(guān)重要。于數(shù)據(jù)分析師而言,精心設(shè)計(jì)實(shí)驗(yàn)、從統(tǒng)計(jì)角度正確解釋結(jié)果是核心要求。在后端的實(shí)驗(yàn)框架中,則需要考慮用戶跟蹤(避免同一用戶的數(shù)據(jù)參與到多個(gè)相關(guān)實(shí)驗(yàn)中)和其他能夠快速分析結(jié)果的統(tǒng)計(jì)特性。 ? 階段四 最后,數(shù)據(jù)科學(xué)團(tuán)隊(duì)最重要的目標(biāo)是設(shè)置企業(yè)目標(biāo)、流程和策略。設(shè)定正確的目標(biāo)需要基于對(duì)業(yè)務(wù)整體目標(biāo)的理解。制定流程需要基于探索性分析的能力,識(shí)別出問(wèn)題和機(jī)遇,并將想法與結(jié)果聯(lián)系在一起。具體來(lái)說(shuō),便是需要分析出任何現(xiàn)象背后的驅(qū)動(dòng)因素、可用來(lái)做出改變的杠桿,并將這些想法與實(shí)踐結(jié)合起來(lái)。 除此之外,為產(chǎn)品團(tuán)隊(duì)制定策略需要強(qiáng)大的分析能力,理解并分析所有相關(guān)的現(xiàn)象,即所謂的“點(diǎn)”,并識(shí)別和弄清這些點(diǎn)是如何相互連接的。只有在此基礎(chǔ)上,才能提出有意義的策略。最后,還要清晰、有效地與高層領(lǐng)導(dǎo)溝通,這對(duì)于最終基于數(shù)據(jù)來(lái)設(shè)定目標(biāo)、流程和戰(zhàn)略具有不可忽視的作用。 |
|