乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      數(shù)據(jù)是AI的土壤,如何耕種和管理非常重要 | 算法干貨

       ZZvvh2vjnmrpl4 2019-07-11

      今天,你AI了沒?

      編者按:算法模型是AI科技成長的核心驅(qū)動(dòng)力,數(shù)據(jù)是算法模型成長的基礎(chǔ)土壤,但對(duì)數(shù)據(jù)的管理和耕種非常關(guān)鍵,本文作者長期從事推薦系統(tǒng)研發(fā),在豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)中給出的數(shù)據(jù)管理與使用的方法、流程及注意事項(xiàng),對(duì)推薦系統(tǒng)且其他AI領(lǐng)域均有很好的啟發(fā)意義

      兵馬未動(dòng),糧草先行。

      --《森林中的遠(yuǎn)征》 

      雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負(fù)債表,但這只是一個(gè)時(shí)間問題。

      -- 維克托·邁爾·舍恩伯格

      對(duì)于變現(xiàn)能力而言,數(shù)據(jù)將作為重要資產(chǎn)。搭建推薦系統(tǒng)前期必然需要做好一定的準(zhǔn)備,而數(shù)據(jù)就是這一必要環(huán)節(jié)。當(dāng)然數(shù)據(jù)作為燃料,不僅僅可以為推薦做貢獻(xiàn),也可以驅(qū)動(dòng)更多的事情往前發(fā)展。

      通過數(shù)據(jù)采集,全面了解產(chǎn)品和用戶;通過數(shù)據(jù)挖掘,對(duì)用戶分群/分層;通過數(shù)據(jù)決策,驅(qū)動(dòng)運(yùn)營方案和產(chǎn)品優(yōu)化。最終了解產(chǎn)品、了解用戶、了解目標(biāo)。在合適的時(shí)候?qū)线m的人做合適的事。

      ▌1. 請(qǐng)先了解一個(gè)問題

      數(shù)據(jù)多一定能驅(qū)動(dòng)業(yè)務(wù)嗎?往往大家都有一個(gè)誤區(qū),就是我們只要收集海量的數(shù)據(jù)就可以帶來非常好的收益,但是正如前面幾章介紹的,推薦系統(tǒng)是一個(gè)全局的工程,不是只收集海量的數(shù)據(jù)就可以的,往往是采數(shù)據(jù)易,用數(shù)據(jù)難。當(dāng)我們擁有的數(shù)據(jù)數(shù)據(jù)質(zhì)量參差不齊,或者我們收集了一些垃圾數(shù)據(jù),其實(shí)很難產(chǎn)出驅(qū)動(dòng)業(yè)務(wù)的優(yōu)化。當(dāng)數(shù)據(jù)分析與業(yè)務(wù)割裂時(shí),我們很難去獲取較優(yōu)的結(jié)果,很容易像無頭蒼蠅一樣,淹沒在充滿噪聲的數(shù)據(jù)中。如果在正確的業(yè)務(wù)建模和高效地工程支持后,海量的數(shù)據(jù)將帶來效果非常大的提升。

      ▌2. 數(shù)據(jù)驅(qū)動(dòng)推薦系統(tǒng)的方式

      原則上是數(shù)據(jù)準(zhǔn)確,方法適當(dāng),解讀無誤。

      數(shù)據(jù)驅(qū)動(dòng)思維方式每個(gè)推薦算法工程師必備,根據(jù)這種思維方式可以確定產(chǎn)品的分析改進(jìn)流程:首先確定自己的分析及目標(biāo),從規(guī)模、分布等角度去介入,發(fā)現(xiàn)一些問題;通過目標(biāo)確定需要分析的數(shù)據(jù),細(xì)化到數(shù)據(jù)分析指標(biāo),預(yù)估有效的數(shù)據(jù)閾值;尋找并評(píng)估獲取數(shù)據(jù)的渠道,得到自己想要的原始數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行合理的加工和分析,得出分析結(jié)論,數(shù)據(jù)需要可比較;對(duì)得到的結(jié)果進(jìn)行合理分析,指導(dǎo)推薦迭代。

      前推薦系統(tǒng)階段,通過數(shù)據(jù)我們必然需要了解的有以下幾點(diǎn),這些可能已經(jīng)有BI團(tuán)隊(duì)產(chǎn)出相關(guān)的數(shù)據(jù),如果沒有的話,你可能需要自己結(jié)合業(yè)務(wù)場景進(jìn)行分析。我們首先對(duì)用戶行為進(jìn)行拆解,用戶的行為 = 商品/內(nèi)容 - 信息載體 ( 明星、類目、年代 ) 顯性操作 ( 購買、???、關(guān)注、下載、收藏 ) 隱形操作 ( 時(shí)長、跳過 ) 。

      1. 誰購買:用戶規(guī)模,人群特征,文化特征,如場景 uv ,pv ,年齡分布、性別分布、地域分布、偏好分布。

      2. 購買什么:購買品類分布、品牌分布

      3. 為什么購買:結(jié)合用戶的一些細(xì)粒度的挖掘??蛻魞r(jià)值、使用好處

      4. 用戶行為路徑分析:用戶在進(jìn)入產(chǎn)品以后的行為軌跡,用戶用了哪些功能模塊?用戶使用的順序是什么?通過分析用戶行為路徑,驗(yàn)證用戶的使用是否和當(dāng)初設(shè)計(jì)推薦產(chǎn)品的邏輯是一致的。如果和產(chǎn)品設(shè)計(jì)邏輯偏差很大,就需要思考為什么?是我們設(shè)計(jì)的邏輯有問題?還是其他方面出現(xiàn)了問題?通過用戶購物路徑的分析,建立對(duì)用戶的認(rèn)知、對(duì)鏈路各個(gè)環(huán)節(jié)進(jìn)行流失分析、并關(guān)聯(lián)場景、 結(jié)合行為流程,識(shí)別相關(guān)短板,進(jìn)而找到破局點(diǎn),設(shè)計(jì)方案驗(yàn)證可行性。

      5. 單體用戶行為跟蹤:驗(yàn)證猜想、挖掘需求、理解用戶、還原場景。人是分析的最基本元素,需要清楚的知道每一個(gè)用戶所處生命周期、活躍情況、環(huán)境信息等。有了用戶群的畫像以后,通過單體用戶行為跟蹤,我們就可以進(jìn)一步追蹤到個(gè)人身上,通過對(duì)個(gè)體用戶行為的跟蹤,可以查看用戶具體是如何使用產(chǎn)品的。

      6. 精細(xì)化用戶分群:行為特點(diǎn)、回訪留存、群體畫像、漏斗轉(zhuǎn)化。根據(jù)用戶行為的特征將其按需拆分成不同屬性的用戶群,例如:做過A事件的人拆分成一個(gè)用戶群,做過 B 事件的拆分成另一個(gè)群,看群體用戶畫像有什么區(qū)別,看他的留存和回訪有什么區(qū)別。

      ▌3. 數(shù)據(jù)考察維度

      面對(duì)復(fù)雜的系統(tǒng)數(shù)據(jù)如何管,如何用。當(dāng)數(shù)據(jù)不完整,將直接影響結(jié)果,一般對(duì)現(xiàn)有數(shù)據(jù)評(píng)估維度主要圍繞以下幾點(diǎn)展開:

      1. 完整性:流量紅利期結(jié)束,新用戶獲取成本高于老用戶留存成本,建立以人為核心的數(shù)據(jù)體系變得更加緊迫,市場數(shù)據(jù),位置數(shù)據(jù),生活數(shù)據(jù),行為數(shù)據(jù),人口學(xué)數(shù)據(jù),認(rèn)知數(shù)據(jù),設(shè)備數(shù)據(jù),運(yùn)營數(shù)據(jù)。評(píng)估數(shù)據(jù)是否已經(jīng)覆蓋了每個(gè)環(huán)節(jié)的業(yè)務(wù)需求,以及哪些業(yè)務(wù)需求丟失了需要被采集,或者哪些數(shù)據(jù)當(dāng)前不可被信任。

      2. 及時(shí)性:互聯(lián)網(wǎng)時(shí)代,信息及機(jī)會(huì)瞬息萬變,快速、及時(shí)地獲取數(shù)據(jù),對(duì)快速?zèng)Q策帶來非常多的好處。我們需要評(píng)估數(shù)據(jù)是否可以被實(shí)時(shí)的采集,以足以滿足某些特殊使用場景,盡可能地被可視化管理監(jiān)控。

      3. 規(guī)范性:數(shù)據(jù)產(chǎn)生依賴我們作出一些動(dòng)作,也就是所謂的輸入,然后輸出就是我們需要的數(shù)據(jù)。我們需要評(píng)估是否各個(gè)崗位有系統(tǒng)性規(guī)范化的,對(duì)于數(shù)據(jù)輸入輸出的定義以及計(jì)算方式。

      4. 一致性:往往在有些崗位和環(huán)節(jié),數(shù)據(jù)會(huì)產(chǎn)出類似或者相同功能的數(shù)據(jù),這個(gè)時(shí)候我們就需要對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)一的歸并,并且制定邏輯自洽的口徑。這一過程需要評(píng)估不同領(lǐng)域的同類數(shù)據(jù)是否一致,以及數(shù)據(jù)是否有重復(fù),如有則需要制定相應(yīng)的歸并規(guī)則。

      5. 準(zhǔn)確性:這個(gè)自然就是評(píng)估數(shù)據(jù)是否體現(xiàn)了真實(shí)的用戶行為、市場動(dòng)態(tài)及運(yùn)營狀況。

      6. 關(guān)聯(lián)性:數(shù)據(jù)是流動(dòng)和共享的,我們需要評(píng)估是否在一個(gè)業(yè)務(wù)鏈上的各個(gè)部門和崗位都可以連接并共享數(shù)據(jù),以及數(shù)據(jù)是否能夠準(zhǔn)確的觸發(fā)相應(yīng)的業(yè)務(wù)事件。

      ▌4. 數(shù)據(jù)類型

      數(shù)據(jù)類型是從結(jié)構(gòu)化程度來看的,主要分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。如用戶基礎(chǔ)信息數(shù)據(jù)、推薦系統(tǒng)中用戶行為數(shù)據(jù)中的訪問數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)。用戶的評(píng)價(jià),推薦物料的文本數(shù)據(jù)、圖像數(shù)據(jù)則為非結(jié)構(gòu)化數(shù)據(jù)。

      ▌5. 數(shù)據(jù)收集:埋點(diǎn)

      5.1 埋點(diǎn)的意義

      想要通過數(shù)據(jù)進(jìn)一步了解產(chǎn)品,則需要收集更多的數(shù)據(jù),而數(shù)據(jù)的收集離不開埋點(diǎn),埋點(diǎn)利用流程、方法、工具在各個(gè)用戶接觸點(diǎn)收集信息。

      5.2 指標(biāo)規(guī)劃

      要想采集好哪些數(shù)據(jù),就是制定采集的指標(biāo)規(guī)劃,包括指標(biāo)定義、維度設(shè)置、更新周期,其中更新周期會(huì)涉及到資源的分配,是時(shí)時(shí)更新,還是每周、每月更新。比如 pv、uv、ctr、cvr、gmv 等等指標(biāo)?;谥饕?guī)劃之后要做的,比如字段分類、數(shù)據(jù)埋點(diǎn)、數(shù)據(jù)上報(bào)。采集什么數(shù)據(jù),以什么形式上報(bào),這些都要考慮清楚。

      5.3 類型

      1. 點(diǎn)擊、收藏、加購、購買、瀏覽時(shí)長、觀看

      2. 搜索 query

      3. icon/頁面相關(guān)其它行為收集

      4. 推薦/展示邏輯信息 ( 回溯平臺(tái) )

      ▌6. 埋點(diǎn)后流程

      6.1 ETL & 數(shù)據(jù)清理

      數(shù)據(jù)采集上來之后,我們需要對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗入庫落表, 這時(shí)候需要考慮數(shù)據(jù)的質(zhì)量,如一致性、精細(xì)化程度等將成為關(guān)鍵。并對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),評(píng)估數(shù)據(jù)量、數(shù)據(jù)的復(fù)雜性和多樣性、數(shù)據(jù)的更新速度選擇合適的存儲(chǔ)介質(zhì)。數(shù)據(jù)化管理主要奉行這樣的思路:數(shù)據(jù)采集 - 數(shù)據(jù)分析 - 行動(dòng)策略 - 快速執(zhí)行。

      6.2 數(shù)據(jù)連接

      將不同系統(tǒng)產(chǎn)生的數(shù)據(jù)整合、關(guān)聯(lián)在一起,實(shí)現(xiàn)您對(duì)數(shù)據(jù)的全局性把握,并在數(shù)據(jù)整合的基礎(chǔ)上,實(shí)現(xiàn)業(yè)務(wù)管理的整合與優(yōu)化。

      6.3 報(bào)表呈現(xiàn)

      接著我們可以做報(bào)表呈現(xiàn)。這里有很多坑,比如要做報(bào)表的趨勢圖,是用柱狀圖還是折線圖?列表就是一個(gè)用戶的詳細(xì)類似表;篩選控件,如果要做到可視化,你需要考慮將來在實(shí)際運(yùn)用時(shí)需要從哪些維度去篩選,比如國家、版本、渠道這些;最后是有效性、準(zhǔn)確性的驗(yàn)證,我們做了數(shù)據(jù)上報(bào)之后,如果是一堆垃圾數(shù)據(jù),或是不準(zhǔn)確的數(shù)據(jù),對(duì)后續(xù)的運(yùn)營就沒有什么幫助。

      ▌7. 推薦直接相關(guān)數(shù)據(jù)

      7.1 用戶維度:基本信息&顯示與隱示反饋

      用戶基本信息主要指用戶的性別、年齡、地區(qū)等。前面提到了推薦系統(tǒng)需要構(gòu)建用戶對(duì)商品的評(píng)價(jià)模型,當(dāng)然這一過程需要數(shù)據(jù)讓我們從中學(xué)習(xí)到這個(gè)評(píng)價(jià)模型,而從可供學(xué)習(xí)的樣本數(shù)據(jù)主要分為顯式和隱式兩種:

      1. 顯式:一般指用戶對(duì)物料的真實(shí)評(píng)分,這類數(shù)據(jù)的特點(diǎn)是用戶操作成本高,數(shù)據(jù)量小,更真實(shí) ( 由于用戶有操作成本 ) 。

      2. 隱式:一般指直接評(píng)分以外的若干行為數(shù)據(jù), 包括:點(diǎn)擊、加購、收藏、購買、流量時(shí)長等,這一類數(shù)據(jù)的特點(diǎn)是用戶操作成本低,數(shù)據(jù)量大,相對(duì)評(píng)分,用戶成本低,具有一定的不真實(shí)性 ( 由于用戶有操作成本 ) 。

      用戶反饋數(shù)據(jù)往往還可以進(jìn)行進(jìn)一步聚合、梳理形成用戶的行為表現(xiàn)數(shù)據(jù),如活躍度、回訪、復(fù)購情況等。

      7.2 物料基本信息&表現(xiàn)數(shù)據(jù)維度

      物料基本信息主要包括了物料的標(biāo)題、標(biāo)簽、類目等,表現(xiàn)數(shù)據(jù)主要是基本數(shù)據(jù)上的聚合及匯總,與用戶維度反饋數(shù)據(jù)類似。

      7.3 其它數(shù)據(jù)

      額外數(shù)據(jù):天氣、經(jīng)緯度、節(jié)假日、cpi

      作者介紹:

      姚凱飛,Club Factory 推薦算法負(fù)責(zé)人。碩士畢業(yè)于上海交通大學(xué),前阿里推薦算法工程師,多年電商及視頻推薦經(jīng)驗(yàn),目前在出海電商Club Factory負(fù)責(zé)推薦算法工作。

      內(nèi)推職位:

      算法&開發(fā)工程師

      工作地址:杭州市西湖區(qū)華星時(shí)代廣場B座

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多