背景 云音樂會員自動化運(yùn)營,通過對人群、資源位、投放規(guī)則等配置打包形成不同的投放策略,完成站內(nèi)資源整合。針對不同用戶不同行為不同位置推送不同資源內(nèi)容,精準(zhǔn)投放,加強(qiáng)轉(zhuǎn)化,提高會員滲透率,提高會員續(xù)費(fèi)率。 (自動化運(yùn)營策略) 運(yùn)營效果的評估,依賴大量數(shù)據(jù)指標(biāo)在不同分析維度的表現(xiàn)。數(shù)據(jù)指標(biāo)如投放PV/UV、觸點(diǎn)曝光PV/UV、觸點(diǎn)點(diǎn)擊PV/UV、收銀臺曝光PV/UV、SKU點(diǎn)擊PV/UV、購買人數(shù)、訂單數(shù),以及各階段的漏斗轉(zhuǎn)化數(shù)據(jù)等;分析維度如投放策略、投放資源、投放位置、投放人群、用戶OS、SKU類型等等。 (自動化運(yùn)營指標(biāo)分析) 問題 早期數(shù)倉建設(shè)缺乏方法論指導(dǎo),更多是煙囪式開發(fā),沒有分層,沒有主題域,沒有規(guī)范。需求驅(qū)動,模型設(shè)計復(fù)用性考慮不足,所有表產(chǎn)出自一個任務(wù)流,耦合嚴(yán)重,在穩(wěn)定性和可用性方面存在不少問題。 (auto-om-flow) 重構(gòu) 本次重構(gòu)以對業(yè)務(wù)影響最小,盡量做到下游無感知為原則,從規(guī)范、效率、質(zhì)量方面著手,進(jìn)行任務(wù)治理。 3.1 規(guī)范 模型設(shè)計:遵循高內(nèi)聚低耦合的原則,劃分合適的業(yè)務(wù)主題域,給出清晰的表分層。建表、字段遵循數(shù)倉通用規(guī)范。 主題域:云音樂-事實(shí)-交易營收。 表分層:dwd用戶行為明細(xì)層、dws原子指標(biāo)輕度聚合層、ads業(yè)務(wù)場景指標(biāo)高度匯總層。
任務(wù)解耦:一個任務(wù)流產(chǎn)出一張正式表,任務(wù)名即表名,任務(wù)按業(yè)務(wù)歸屬、表分層部署在對應(yīng)網(wǎng)易有數(shù)大數(shù)據(jù)平臺目錄下。 任務(wù)節(jié)點(diǎn):
操作建議:
開發(fā)測試:有數(shù)大數(shù)據(jù)平臺任務(wù)支持開發(fā)模式、線上模式,所有任務(wù)節(jié)點(diǎn)需在開發(fā)模式測試通過后才可提交上線。 上線審核:圈選任務(wù)提交上線,走工單審批,需業(yè)務(wù)負(fù)責(zé)人check通過后可通過上線。 調(diào)度配置:任務(wù)上線調(diào)度需配置調(diào)度參數(shù),調(diào)度周期,調(diào)度時間,任務(wù)依賴,執(zhí)行隊列,并發(fā)設(shè)置等,詳見數(shù)倉通用規(guī)范。 報警配置:任務(wù)上線默認(rèn)配置負(fù)責(zé)人接收失敗報警。按需配置報警對象(任務(wù)、節(jié)點(diǎn)),觸發(fā)規(guī)則(失敗、延遲),報警接收(負(fù)責(zé)人、報警組),報警方式(郵件、短信、電話、popo),循環(huán)報警等。 以下五張為詳細(xì)任務(wù)解耦圖: (dwd_act_auto_om_di) (dws_act_auto_om_di) (ads_act_auto_om_di) (ads_act_vip_stgy_di) (ads_rev_vip_autoom_buy_di) 3.2 效率 執(zhí)行引擎:原workflow仍有大量任務(wù)使用hive執(zhí)行,本次全部遷移spark。 性能優(yōu)化:分析輸入輸出數(shù)據(jù)量級,業(yè)務(wù)計算邏輯,CPU/內(nèi)存等資源參數(shù)調(diào)節(jié),達(dá)到性能優(yōu)化目的。 Spark調(diào)優(yōu):
性能提升:單節(jié)點(diǎn)執(zhí)行效率提升5倍,整體產(chǎn)出時間提前3小時,存儲空間占用降低80%,文件數(shù)占用降低90%。 (重構(gòu)前后對比) dwd_act_auto_om_di 存儲及文件數(shù)降低。 (存儲及文件數(shù)降低) ads_act_auto_om_di表提高并行度及explode優(yōu)化以提高執(zhí)行效率縮短時長示例。 (優(yōu)化計算示例) ads_act_vip_stgy_di表執(zhí)行時長由60分鐘縮短至10分鐘,產(chǎn)出時間由11點(diǎn)提前至9點(diǎn)。 (產(chǎn)出時間提前) 3.3 質(zhì)量 數(shù)據(jù)校驗(yàn):重構(gòu)應(yīng)保證數(shù)據(jù)準(zhǔn)確性、一致性,對重構(gòu)前后產(chǎn)出數(shù)據(jù)做一定的規(guī)則校驗(yàn)。如count、count distinct、NULL值、枚舉值范圍、數(shù)值型分布、最大最小值比較等。 -- 分區(qū)前綴代表不同優(yōu)化策略 select dt, count(1) as c, count(distinct os) as c_os, count(distinct positionid) as c_pos, sum(vipbuy_amt) as s_amt, max(trigger_impress_cnt) as max_c, min(trigger_impress_cnt) as min_c from music_new_dm.ads_act_vip_stgy_di where dt like '%2021-06-09%' group by 1 order by 1; (數(shù)據(jù)校驗(yàn)) DQC:網(wǎng)易有數(shù)大數(shù)據(jù)平臺數(shù)據(jù)質(zhì)量中心支持使用模板或自定義規(guī)則對表配置不同監(jiān)控規(guī)則。
DQC規(guī)則與任務(wù)串行執(zhí)行,會增加任務(wù)產(chǎn)出時長,需綜合評估任務(wù)重要等級,在準(zhǔn)確性與時效性之間衡量取舍。 好啦,今天的分享就到這里,謝謝大家。 冷面,網(wǎng)易云音樂資深數(shù)據(jù)開發(fā)工程師,長期從事大數(shù)據(jù)開發(fā),數(shù)倉建設(shè)、模型設(shè)計、數(shù)據(jù)治理、數(shù)據(jù)應(yīng)用和服務(wù)等工作。目前主要負(fù)責(zé)云音樂離線數(shù)倉建設(shè)、會員業(yè)務(wù)線上數(shù)據(jù)服務(wù)、離線/實(shí)時ABTEST系統(tǒng)開發(fā)。 今天的分享就到這里,謝謝大家。 |
|