背景 馬老師曾提到三次技術(shù)革命:“第一次技術(shù)革命是體能的釋放,是讓人的力量更大,第二次技術(shù)革命是對(duì)能源的利用,使得人可以走得更遙遠(yuǎn),而這一次技術(shù)革命是IT時(shí)代走向DT時(shí)代,是真正的大腦的釋放。我們其實(shí)正在進(jìn)入一個(gè)新的能源的時(shí)代,這個(gè)時(shí)代核心資源已經(jīng)不是石油,而是數(shù)據(jù)。”。 逍遙子也曾經(jīng)講過:“我們用大數(shù)據(jù)賦能了雙11,賦能了我們自己的運(yùn)營能力。我們還要更上一層樓,利用大數(shù)據(jù)賦能所有的商家,幫助他們運(yùn)營好消費(fèi)者,這樣才能讓我們?cè)诖髷?shù)據(jù)時(shí)代踐行‘讓天下沒有難做的生意’的使命?!?/p> 新商家事業(yè)部自去年12月成立以來,數(shù)據(jù)賦能商家就是重要的方向之一。我們將之前平臺(tái)沉淀的數(shù)據(jù)和算法的能力轉(zhuǎn)過來賦能我們?yōu)樯碳姨峁┑墓ぞ吆推脚_(tái),這其中包括客戶運(yùn)營平臺(tái)、千牛、服務(wù)市場等等。很多技術(shù)在今年的雙11也起到了非常顯著的作用,為商家?guī)韺?shí)實(shí)在在的收益。下面從客戶運(yùn)營平臺(tái)、千牛頭條、服務(wù)市場三個(gè)產(chǎn)品給大家分享一下我們?nèi)绾瓮ㄟ^ML&AI技術(shù)重新定義產(chǎn)品。 客戶運(yùn)營平臺(tái) 客戶運(yùn)營平臺(tái)旨在為商家提供基于大數(shù)據(jù)和人工智能的客戶精細(xì)化運(yùn)營能力。阿里巴巴2015年提出客戶運(yùn)營戰(zhàn)略方向,帶領(lǐng)平臺(tái)的商家從“流量經(jīng)營”向“客戶運(yùn)營”轉(zhuǎn)型。客戶運(yùn)營的核心理念有兩個(gè)方面:其一是精細(xì)化,其二是從過于關(guān)注短期經(jīng)營的成交目標(biāo)向關(guān)注客戶粘性、客戶體驗(yàn)、客戶忠誠度的目標(biāo)轉(zhuǎn)變??蛻暨\(yùn)營平臺(tái)提供了“訪客運(yùn)營”和“會(huì)員粉絲運(yùn)營”兩大利器,借助大數(shù)據(jù)和人工智能技術(shù),幫助商家提升客戶運(yùn)營的效率。2016年雙11,超過23萬商家通過客戶運(yùn)營平臺(tái)實(shí)現(xiàn)了店鋪的個(gè)性化運(yùn)營和粉絲會(huì)員的精準(zhǔn)營銷,顯著提升了成交轉(zhuǎn)化。下面以訪客運(yùn)營為例,介紹AI分群引擎的應(yīng)用。 訪客運(yùn)營通過對(duì)訪客的細(xì)分和精準(zhǔn)營銷策略來提升轉(zhuǎn)化的效果。如下圖所示,是某美妝店鋪的訪客分群個(gè)性化店鋪首頁策略示例,左側(cè)和右側(cè)分別是針對(duì)水乳類和面膜類偏好人群的個(gè)性化首頁,通過面向細(xì)分的人群投放有針對(duì)性的內(nèi)容,可以顯著提升客戶體驗(yàn)和訪客成交轉(zhuǎn)化率。類似的分群運(yùn)營策略還可以應(yīng)用在詳情、微淘等場景。 訪客運(yùn)營示例:個(gè)性化店鋪首頁
有別于普通的營銷平臺(tái),阿里巴巴客戶運(yùn)營平臺(tái)通過AI能力,實(shí)現(xiàn)了對(duì)訪客的實(shí)時(shí)分群,也就是說當(dāng)客戶進(jìn)入店鋪的一瞬間,客戶運(yùn)營平臺(tái)的AI引擎會(huì)對(duì)用戶所屬的人群進(jìn)行實(shí)時(shí)預(yù)測,得到此時(shí)此刻的最佳分群結(jié)果。下圖是AI分群引擎架構(gòu)圖: AI實(shí)時(shí)分群的三大特點(diǎn)如下: 1. 行業(yè)級(jí)別的模型 同一個(gè)特征在不同的行業(yè)會(huì)有不同的重要性,例如地域?qū)傩裕瑢?duì)于美妝行業(yè)用戶是否偏好保濕產(chǎn)品具有較強(qiáng)的預(yù)測能力,因?yàn)楸狈礁稍?,南方潮濕,而?duì)于快消行業(yè),比如用戶是否會(huì)喜歡吃某種口味的零食,地域?qū)傩灶A(yù)測能力就會(huì)比較弱。因此同一個(gè)特征在不同的行業(yè)會(huì)有不同的權(quán)重。 2. 長期、近期和實(shí)時(shí)相結(jié)合的特征體系 例如用戶對(duì)男裝、女裝、童裝三類服飾商品的偏好,既受用戶的人口統(tǒng)計(jì)學(xué)特征,比如性別、年齡段的影響,又受隨機(jī)實(shí)時(shí)情境的影響,比如女性客戶可能會(huì)為男友或家人購買男裝,因此當(dāng)我們按照偏好對(duì)客戶分群時(shí),既需要考慮長期穩(wěn)定的屬性和行為,又需要結(jié)合實(shí)時(shí)的行為和需求。 3. 店鋪分群自適應(yīng) 以美妝行業(yè)為例,從用戶在平臺(tái)層面上的行為來看,大部分用戶可能會(huì)偏好美白、保濕功效的產(chǎn)品,而具體到某個(gè)品牌,其主營的產(chǎn)品品類和平臺(tái)總體的品類成交分布很可能有較大偏差,比如一些品牌可能是主打彩妝,另外的一些品牌則主打緊致類的產(chǎn)品。當(dāng)我們用平臺(tái)整體數(shù)據(jù)建立的模型對(duì)用戶在某個(gè)店鋪的分群歸屬進(jìn)行預(yù)測的時(shí)候,很可能會(huì)出現(xiàn)偏差。為了使得AI引擎能夠適應(yīng)店鋪多樣化的情況,我們從兩個(gè)角度進(jìn)行了升級(jí),其一是引入店鋪內(nèi)銷量分布作為分群結(jié)果的先驗(yàn),其二是引入了增強(qiáng)學(xué)習(xí)技術(shù)(多臂老虎機(jī)MAB)為每個(gè)商家自動(dòng)調(diào)整模型參數(shù)。 對(duì)比于靜態(tài)的人口統(tǒng)計(jì)學(xué)分群方法,AI分群具有實(shí)時(shí)性高、精準(zhǔn)性好、店鋪?zhàn)赃m應(yīng)等特點(diǎn),商家實(shí)際使用的效果提升也更加顯著。 阿里巴巴作為一個(gè)新零售平臺(tái),平臺(tái)上的商家具有很高的多樣性??蛻暨\(yùn)營平臺(tái)基于增強(qiáng)學(xué)習(xí)技術(shù)的自適應(yīng)技術(shù),能夠使得AI分群自動(dòng)適應(yīng)每個(gè)店鋪的策略特點(diǎn)。通過該方法的應(yīng)用,在一級(jí)類目偏好分群的場景下,成交轉(zhuǎn)化率提升超過10%,同時(shí)個(gè)性化的滲透率大幅提升40%。 雙11大促店鋪承接頁個(gè)性化技術(shù) 今年雙11阿里巴巴首次實(shí)現(xiàn)了全面的全站個(gè)性化,包括從會(huì)場到大促承接頁到店鋪再到詳情,而大促店鋪承接頁是連接會(huì)場與店鋪的橋梁,大促承接頁的整體活動(dòng)氛圍和布局由平臺(tái)確定,商家可以通過頁面裝修工具來裝修商品模塊、營銷模塊等內(nèi)容。2016年雙11大促承接頁首次實(shí)現(xiàn)了全面的個(gè)性化,實(shí)現(xiàn)了顯著的成交轉(zhuǎn)化提升。 大促承接頁個(gè)性化屬于單個(gè)店鋪內(nèi)的個(gè)性化,相比于平臺(tái)級(jí)的個(gè)性化場景(例如手機(jī)淘寶猜你喜歡、有好貨等),具有一些特有的挑戰(zhàn)。平臺(tái)級(jí)的個(gè)性化我們可以想象為把平臺(tái)的大量商品作為候選商品,形成一個(gè)虛擬店鋪,用戶在平臺(tái)上的行為都是這個(gè)虛擬店鋪內(nèi)的行為;店鋪內(nèi)的個(gè)性化,候選商品為單個(gè)店鋪的商品,用戶在單個(gè)店鋪內(nèi)的行為是非常稀疏的,必須要考慮借助用戶在平臺(tái)整體的行為來做好店鋪內(nèi)的個(gè)性化。面向店鋪內(nèi)個(gè)性化的特點(diǎn),我們的AI個(gè)性化引擎框架主要包括matching框架和ranking框架兩個(gè)部分。 matching框架解決的是用戶偏好意圖的覆蓋,即基于單店的小數(shù)量級(jí)商品盡可能全面地匹配用戶的偏好和意圖,matching框架還有一個(gè)重要的作用是為ranking提供輸入特征;ranking框架解決的是個(gè)性化商品列表的最優(yōu)排序問題,它基于歷史反饋數(shù)據(jù)、用戶特征、商品特征、用戶與商品的交叉特征等訓(xùn)練面向特定業(yè)務(wù)目標(biāo)的模型。 在matching階段,我們可插拔的框架支持多種matching方法: 1. 基于圖挖掘的matching方法 包括adsorption、adar、jacacard、simrank、simrank 以及基于大規(guī)模流式計(jì)算的增量ItemCF方法; 2. 基于索引的方法 包括minhash、simhash等hashing-based的方法,利用局部一跳信息建立商品索引; 3. 基于Graph Embedding的方法 Graph Embeding也是一種商品索引,與hashing-based方法的不同之處在于它可以利用圖的全局信息、多跳信息來建模,具有更高的覆蓋度; 4. 基于語義匹配的方法 例如基于用戶偏好的商品屬性與商品本身的屬性進(jìn)行匹配; 5. 基于流式計(jì)算的方法 基于流式計(jì)算引擎,實(shí)時(shí)更新商品之間的關(guān)聯(lián)關(guān)系,更好地捕捉線上流量的變化 6. 面向場景的適配 基于排序?qū)W習(xí)技術(shù),可以將上述方法的輸出進(jìn)行面向場景的重新排序和打分,使得matching層面向特定場景調(diào)優(yōu)
我們創(chuàng)新地提出了面向電商場景的大規(guī)模分布式Graph Embeding的算法。商品Embedding算法可以將一個(gè)現(xiàn)實(shí)生活中的商品實(shí)體表示成低維空間里的一個(gè)向量,使得我們可以僅通過這些向量之間的空間位置關(guān)系就能得到商品之間的某些聯(lián)系。由于我們可以將學(xué)習(xí)出來的Embedding向量作為更上層機(jī)器學(xué)習(xí)任務(wù)的輸入,這就使得Embedding這樣的表示學(xué)習(xí)非常有潛力。在雙11中,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了一種能夠保持非對(duì)稱關(guān)系的Graph Embedding算法,來對(duì)商品進(jìn)行Embedding。由于用戶對(duì)大部分商品(長尾)的點(diǎn)擊行為非常稀疏,我們選擇將用戶的點(diǎn)擊序列拼接成商品點(diǎn)擊轉(zhuǎn)換圖的形式,來試圖緩解稀疏性問題以提高商品Embedding的質(zhì)量。另一方面,為了表示商品之間的非對(duì)稱關(guān)系(例如購買手機(jī)后可能會(huì)對(duì)手機(jī)殼感興趣,但反之不成立),我們用兩個(gè)Embedding向量來表示一個(gè)商品的不同角色(已被看過和待預(yù)測)。我們?cè)跇?gòu)建好的商品圖中,對(duì)每個(gè)商品節(jié)點(diǎn)按照帶重啟動(dòng)的隨機(jī)游走進(jìn)行路徑采樣,并且僅按照采樣的正方向分別對(duì)兩個(gè)Embedding向量進(jìn)行更新。我們基于分布式平臺(tái)ODPS Graph首次實(shí)現(xiàn)了億級(jí)別節(jié)點(diǎn)、百億級(jí)邊的大規(guī)模圖數(shù)據(jù)的Embedding,并且在理論上,我們還證明了基于這種采樣方式的Graph Embedding算法能夠保持原圖節(jié)點(diǎn)之間的Rooted PageRank的相似度關(guān)系,相關(guān)工作已被人工智能頂級(jí)國際會(huì)議AAAI 2017接收。 在ranking階段,我們通過億級(jí)特征的大規(guī)模稀疏模型,包括LR、FTRL、DNN(深度學(xué)習(xí)),十億級(jí)樣本的訓(xùn)練,實(shí)現(xiàn)精準(zhǔn)的個(gè)性化排序。特征的體系包括用戶、商品、matching特征、場景相關(guān)的反饋類特征、以及場景化(context)特征,在特征實(shí)時(shí)性方面我們會(huì)結(jié)合長期特征、短期特征和實(shí)時(shí)特征,在追蹤線上變化的同時(shí)能夠保持較高的覆蓋度和穩(wěn)定性;在樣本層面,通過日志去噪、樣本采樣策略、樣本構(gòu)造策略(頁面級(jí)樣本和模塊級(jí)樣本),優(yōu)化樣本構(gòu)造;在模型層面,通過天級(jí)、小時(shí)級(jí)和實(shí)時(shí)模型,結(jié)合面向不同目標(biāo)的模型來綜合優(yōu)化業(yè)務(wù)目標(biāo),比如我們會(huì)利用多個(gè)模型對(duì)點(diǎn)擊、加購、成交等目標(biāo)進(jìn)行建模,并實(shí)時(shí)結(jié)合多個(gè)模型來優(yōu)化最終的業(yè)務(wù)目標(biāo)。我們的分布式GBDT排序?qū)W習(xí)算法能夠支持不同類型的排序函數(shù),包括pairwise ranking和listwise ranking,能夠從樣本和特征兩個(gè)維度對(duì)數(shù)據(jù)進(jìn)行拆分并進(jìn)行并行化訓(xùn)練,可以支持百億級(jí)樣本。深度學(xué)習(xí)模型訓(xùn)練基于阿里巴巴集團(tuán)多機(jī)多卡的分布式GPU訓(xùn)練平臺(tái),可支持大規(guī)模億級(jí)稀疏特征、億級(jí)樣本的神度學(xué)習(xí)模型快速訓(xùn)練。我們對(duì)深度學(xué)習(xí)實(shí)時(shí)預(yù)測的性能進(jìn)行了深入優(yōu)化,預(yù)測性能是普通實(shí)現(xiàn)的10倍以上。 通過算法細(xì)節(jié)的不斷調(diào)優(yōu),雙11承接頁個(gè)性化效果顯著,相比于非個(gè)性化頁面,個(gè)性化頁面的成交轉(zhuǎn)化有超過20%的提升,帶來了十億級(jí)別的成交提升。 4.千牛頭條技術(shù)介紹 4.1產(chǎn)品概述 千牛頭條是一個(gè)定位于通過內(nèi)容傳播與運(yùn)營,滿足商家內(nèi)容消費(fèi)需求的商業(yè)媒體平臺(tái)。為了滿足商家獲取實(shí)時(shí)、個(gè)性化資訊的需求,同時(shí)提高千牛平臺(tái)的流量效率,為千牛頭條上線了一套個(gè)性化的資訊推薦系統(tǒng)。 千牛頭條雙11和熱門頻道 目前個(gè)性化算法支持了熱門feeds流、雙11頻道,后續(xù)會(huì)支持更多的頻道和場景。 4.2千年頭條推薦整體框架 千牛頭條推薦系統(tǒng)總體框架 千牛頭條資訊推薦系統(tǒng)的總體框架上圖所示,整個(gè)框架可分為離線、近實(shí)時(shí)、實(shí)時(shí)三部分。 離線部分主要負(fù)責(zé)用戶Profile構(gòu)建以及關(guān)聯(lián)數(shù)據(jù)挖掘;近實(shí)時(shí)部分主要包括新發(fā)布資訊的實(shí)時(shí)分析引擎,模型流式更新引擎;實(shí)時(shí)部分基于通用的推薦pipeline,并結(jié)合離線、近實(shí)時(shí)模塊的產(chǎn)出結(jié)果,完成整套的推薦邏輯。 4.3 技術(shù)創(chuàng)新點(diǎn) 1. 基于期望偏好的用戶profile 為了全方位地刻畫用戶興趣,從關(guān)鍵詞、類目、行業(yè)等維度對(duì)用戶興趣進(jìn)行建模。在計(jì)算用戶profile過程時(shí)引入期望偏好,期望偏好是根據(jù)行為分布計(jì)算的用戶預(yù)期行為分布,通過用戶的期望偏好分布和實(shí)際偏好比較得到偏好分,最后用伽馬泊松分布對(duì)偏好分進(jìn)行平滑。 2. 資訊實(shí)時(shí)分析引擎 對(duì)新發(fā)布的資訊進(jìn)行實(shí)時(shí)文本分析,包括分詞、關(guān)鍵詞抽取,通過行業(yè)profile和Multi-task語義向量生成行業(yè)標(biāo)簽,并對(duì)資訊建立倒排索引,實(shí)現(xiàn)實(shí)時(shí)更新。技術(shù)上集成使用TextRank,Mutual Information, Log Odds Ratio三種關(guān)鍵詞抽取算法實(shí)現(xiàn)精準(zhǔn)抽??;Multi-task語義向量模型與傳統(tǒng)的Word2Vector詞向量模型不同,使用詞的meta data數(shù)據(jù),使得模型在給定上下文的情況下,同時(shí)學(xué)習(xí)詞的分布和詞meta信息分布。 3. Online Bayesian Logistic Regression模型 千牛頭條用戶在百萬量級(jí),每天的新資訊相對(duì)較少,每篇資訊能夠累計(jì)較多的用戶行為,為此采用了PerArticle的模型方法,即針對(duì)每篇資訊單獨(dú)訓(xùn)練一個(gè)Online Bayesian Logistic Regression(BLR)模型,精細(xì)化地刻畫每篇資訊。相比傳統(tǒng)的LR模型,BLR模型認(rèn)為模型參數(shù)本身是有先驗(yàn)分布的,具有更優(yōu)的泛化能力,上線后ctr也有20%的提升。 其中就是LR模型的預(yù)測函數(shù),就是Bayesian模型學(xué)習(xí)的參數(shù)分布。 在線Bayesian學(xué)習(xí)算法如下: a), 每一個(gè)參數(shù)有有一個(gè)獨(dú)立的高斯先驗(yàn) b)得到一批數(shù)據(jù) c)優(yōu)化目標(biāo)函數(shù) d)Laplace approximation求解目標(biāo)函數(shù),得到模型的均值,方差 4. 高階泛化統(tǒng)計(jì)類特征 模型使用的特征包含用戶特征、資訊特征、用戶與資訊的交叉特征等,其中用戶與資訊的交叉特征是關(guān)鍵特征。傳統(tǒng)的做法直接對(duì)用戶特征和資訊特征進(jìn)行交叉,這種方法很容易導(dǎo)致特征爆炸,交叉后大量冗余的特征容易導(dǎo)致模型過擬合;為了解決上述問題,采用了一種根據(jù)業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行特征交叉,然后對(duì)交叉特征計(jì)算統(tǒng)計(jì)量的方法,該方法可以很好地解決特征組合爆炸問題,同時(shí)生成的統(tǒng)計(jì)類特征有較好的泛化性。 5. 資訊冷啟動(dòng) 時(shí)效性在資訊推薦中至關(guān)重要,而新資訊由于缺乏線上反饋導(dǎo)致CF等基于行為的推薦算法失效。 從文章維度來看新文章沒有用戶行為,但是從新文章包含的關(guān)鍵詞、主題等維度看,歷史上有很多文章也都包含這些特征,因此可以根據(jù)新文章包含關(guān)鍵詞、主題的歷史表現(xiàn)推斷新文章的表現(xiàn)。 4.4業(yè)務(wù)成果 千牛頭條經(jīng)歷了兩次大的算法升級(jí),核心指標(biāo)如點(diǎn)擊率有了顯著的提升,第一次升級(jí)增加了基于用戶行為的個(gè)性化;第二次升級(jí)引入文本算法以及在線排序模型。 5. 數(shù)據(jù)賦能服務(wù)市場 5.1背景介紹 服務(wù)市場是面向淘系商家提供多樣化服務(wù)的交易平臺(tái),目前覆蓋淘系活躍賣家90%以上。其特點(diǎn)是:用戶訪問頻次低、訪問路徑短、行為少,訂購呈現(xiàn)周期性。原來的服務(wù)市場千人一面,不能很好匹配商家實(shí)際需求,導(dǎo)購效率較低。 為解決以上問題,我們?cè)O(shè)計(jì)了服務(wù)市場個(gè)性化框架(如下圖),在個(gè)性化搜索和推薦場景中取得了顯著的效果。其中搜索點(diǎn)擊率提升10%,空結(jié)果率降低400%;千次展示成交數(shù)提升20%;推薦點(diǎn)擊提升90%,千次展示成交數(shù)提升200%,轉(zhuǎn)化率比服務(wù)市場整體高70%。 個(gè)性化導(dǎo)購框架 框架分為在線計(jì)算和離線計(jì)算,在線計(jì)算負(fù)責(zé)實(shí)時(shí)的商家行為分析,商品召回,個(gè)性化排序;離線部分負(fù)責(zé)商家/服務(wù)特征更新,訂購模型訓(xùn)練以及候選商品池計(jì)算。 多樣化的個(gè)性化推薦算法場景 5.2關(guān)鍵技術(shù)點(diǎn) 1. 實(shí)時(shí)偏好識(shí)別 服務(wù)市場的用戶訪問頻次低,識(shí)別用戶的實(shí)時(shí)偏好有助于更準(zhǔn)確的匹配用戶需求。實(shí)時(shí)偏好包括實(shí)時(shí)商品偏好和實(shí)時(shí)類目偏好兩個(gè)維度,使用時(shí)間衰減累計(jì) 用戶實(shí)時(shí)訪問反饋調(diào)整的方式來構(gòu)建用戶實(shí)時(shí)偏好模型。在實(shí)際使用時(shí),根據(jù)歷史累計(jì)的數(shù)據(jù)選取TopN產(chǎn)生實(shí)時(shí)偏好。 2. 匹配召回 服務(wù)市場搜索召回面臨問題:搜索無結(jié)果、搜索結(jié)果相關(guān)性不高以及搜索結(jié)果不夠優(yōu)質(zhì)。針對(duì)上述問題,使用核心詞抽取和query擴(kuò)展對(duì)原query進(jìn)行語義分析和補(bǔ)充。包括:基于語義embedding對(duì)搜索詞進(jìn)行自適應(yīng)分詞和向量化表示;為保證核心詞與原query語義相似,綜合語義單元的類目分布熵、與原query的鄰接熵,與原query類目匹配度進(jìn)行核心詞抽取;為了擴(kuò)大query召回,根據(jù)用戶搜索補(bǔ)充了與原query相關(guān)的其他搜索核心詞。補(bǔ)充后的搜索詞大幅降低了搜索無結(jié)果率,搜素點(diǎn)擊率和轉(zhuǎn)化率也得到明顯提升。個(gè)性化推薦召回以實(shí)時(shí)商品偏好,實(shí)時(shí)類目偏好,近期搜索,歷史訂購商品為基礎(chǔ),配合相似商品,搭配商品,類目優(yōu)質(zhì)商品進(jìn)行擴(kuò)大召回,從而構(gòu)建個(gè)性化推薦的優(yōu)質(zhì)多樣的商品池。 3. 模型排序 個(gè)性化推薦的模型排序部分負(fù)責(zé)對(duì)召回的商品池結(jié)合當(dāng)前商家店鋪和商家行為特征進(jìn)行個(gè)性化排序針。對(duì)特定的排序模型組裝合適的模型特征(包括單一特征,組合交叉特征,以及ID類特征等),然后根據(jù)CTR/CVR模型生成預(yù)測分?jǐn)?shù);同時(shí)結(jié)合商家訂購服務(wù)的特點(diǎn),以及推薦多樣性等策略的考慮,對(duì)分?jǐn)?shù)進(jìn)行重排。 |
|