乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      臥槽!因果分析來了!

       漢無為 2021-12-19

      你們好,我是寶器!

      具體將圍繞以下3部分展開:

      • 觀測數據因果推斷基本知識

      • 準實驗方法在騰訊看點的應用案例

      • 啟動重置類問題通用分析方法

      01
      觀測數據因果推斷基本知識
      1. 混淆結構和對撞結構
      圖片
      因果關系是相關關系的一種,因果推斷用于學習因果關系。左圖中T和Y之間的有向邊代表因果關系,此因果關系會讓它們在上層顯示出一個相關性。我們能不能通過相關性去尋找因果性呢?答案是否定的。
      因為除了因果關系,還有兩種結構也會讓T和Y顯示出因果性,比如右側的混淆結構(confounding)和對撞結構(sample selection)。在這兩種結構中,雖然T和Y之間不存在有向邊的因果關系,但卻會因為混淆因子和對撞因子的存在,導致它們顯現出統(tǒng)計相關性,這樣就會給我們的因果推斷制造一些干擾,這也是因果推斷方法存在的必要性。
      下面,我們依次舉例說明混淆結構和對撞結構。
      ① 混淆結構
      圖片
      我們拿“穿鞋睡覺“和”第二天起床頭疼“來說明由混淆因子帶來的相關性。比如,在一個數據集中,我們發(fā)現”穿鞋睡覺“和”第二天起床頭疼“的相關性很高,因此我們可能推斷出”穿鞋睡覺“會導致”第二天起床頭疼“。事實上,我們知道在醫(yī)學中這條有向邊是不存在的。
      那么,這樣的相關性是誰帶來的呢?我們又看了下數據,發(fā)現在數據集中有”昨晚喝酒“這個變量,并且”穿鞋睡覺“的人大部分是”昨晚喝酒“的人。
      事實上,”昨晚睡覺“會導致”第二天起床頭疼“在醫(yī)學中是具備因果性的,因此最終間接導致了我們看到的“穿鞋睡覺”的人“第二天起床頭疼“的比例很高,這就是混淆結構。其中,同時影響”穿鞋睡覺“和”第二天起床頭疼“的變量”昨晚喝酒“就是混淆因子。
      ② 對撞結構
      圖片
      我們常常發(fā)現,在娛樂圈中,才華和美貌是成反比的,出現這種現象的原因就是對撞結構,也稱之為選擇偏差。我們可以看右邊的圖,其實只要具備才華和美貌中的一項就容易進入娛樂圈,但同時具備才華和美貌本身就是一個小概率事件,所以我們看到娛樂圈中大部分人只具備才華和美貌中的一項,給我們的感覺是他們的才華和美貌成反比。
      實際上,在全體人群中這兩者是沒有相關性的,這就是對撞結構。其中,對撞因子是“是否在娛樂圈“,我們只會在娛樂圈看到這種反比。
      2. 解決方法
      圖片
      那么如何解決這兩種結構帶來的干擾,從而得到真正的關系呢?一般的方法是實驗。
      從左圖中可以看到,實驗相當于取消了干預在因果圖上所依賴的父節(jié)點,讓干預的分配只依賴于一個隨機變量。這時可以證明,在整體人群中的因果效應,我們稱之為ATE,等于相關性。
      這里的關鍵是用戶是被隨機分配的,當沒有隨機條件時,ATE公式(尤其是加粗的部分)將無法成立。比如,在右圖觀測的數據中,干預是受到混淆變量Z的影響。在這種情況下,加粗部分不成立,我們也就無法通過相關性直接得到因果性。
      3. 觀測數據和實驗數據的區(qū)別
      圖片
      我們拿“穿鞋睡覺”和”第二天起床頭疼“的數據來說明實驗數據和觀測數據的區(qū)別。
      觀測數據中,“穿鞋睡覺“作為實驗組,但其中大部分人都是醉酒的,“脫鞋睡覺”作為對照組,但其中大部分人都是清醒的,因此我們看到“穿鞋睡覺”的實驗組里中大部分人都醉酒,得出“穿鞋睡覺”導致醉酒(”第二天起床頭疼“)的錯誤的因果關系。
      我們可以清楚地看到混淆對因果關系的影響,我們發(fā)現兩個組醉酒的分布是非常不平衡的。
      實驗數據中,我們會進入每個睡覺的人的房間,通過拋硬幣決定給他脫鞋還是穿鞋。
      最終實驗組和對照組醉酒和清醒的狀況如右圖所示,各種混淆變量比較均衡,我們還發(fā)現兩個組醉酒的比例都差不多,最終我們得到“穿鞋睡覺“不會導致醉酒(“第二天起床頭疼”)的正確的因果關系。
      這就是實驗數據和觀測數據上推斷的區(qū)別。
      4. 實驗的局限性
      圖片
      既然如此,這類問題我們都用實驗解決不就可以了嗎?事實上,存在一些無法實驗的原因,比如倫理限制、無法實現、歷史遺留等。因此我們不得不借助觀測數據上的因果推斷來得到因果效應。
      5. 挑戰(zhàn)觀測數據上的因果推斷
      圖片
      觀測數據上的因果推斷是需要一定的業(yè)務主觀性的,因此它分析的結論很容易被挑戰(zhàn)。我們拿吸煙會導致肺癌的案例來說明觀測數據因果推斷目前的主要問題。
      剛開始去觀測吸煙和肺癌的關系,我們會發(fā)現吸煙人群中肺癌的比例很高,因此可能得出結論吸煙會導致肺癌。
      ① 挑戰(zhàn)1
      吸煙的人大部分都是男性,而男性和女性肺癌的犯病概率是不一樣的,所以如果不控制性別和年齡,可能會導致吸煙和肺癌的結論存在辛普森悖論。
      小編補充:辛普森悖論是指當人們嘗試探究兩種變量是否具有相關性的時候,會分別對之進行分組研究。然而,在分組比較中都占優(yōu)勢的一方,在總評中有時反而是失勢的一方,即簡單的將分組資料相加匯總,不一定能反映真實情況。
      ② 挑戰(zhàn)2
      只固定性別和年齡遠遠不夠,還有很多遺漏的混淆因子,如工業(yè)化程度、心情,這些變量也同時影響吸煙和肺癌。更有甚者提出,可能有一些根本無法衡量的因子同時影響吸煙和肺癌,如吸煙基因。在不考慮它的情況下得到的結論也是錯誤的。
      ③ 挑戰(zhàn)3
      即使做了很大努力,把工業(yè)化程度和心情全部固定住了,同時把吸煙基因通過敏感性分析的方法排除了。我們還是會被挑戰(zhàn)——可能控制了一個對撞因子,比如哮喘。
      吸煙和肺癌都會導致哮喘,如果不小心在控制混淆因子的同時控制了對撞因子,那么最終得到的因果關系也是帶了相關性的。當然,還有隨著因果圖的復雜,也會帶來很多挑戰(zhàn),相應的因果推斷也會發(fā)生改變。
      可以看出,觀測數據因果推斷的過程比較曲折。
      6. 因果推斷整體分析框架
      圖片
      為了繞開觀測數據因果推斷的問題,我們引入了準實驗。從目前因果推斷整體的分析框架中可以看到準實驗所處的位置,左圖包含實驗數據和觀測數據的因果推斷。
      其中,在觀測數據的因果推斷中,我們會優(yōu)先看數據是否滿足DID(Differences In Difference,雙重差分)、工具變量和斷點回歸的前提要求。
      如果滿足,會優(yōu)先使用這三種方法;如果不滿足,才會使用PSM(Propensity Score Matching,傾向評分匹配)和混淆PSM方法。
      這種優(yōu)先級的原因是相比于PSM,前三種方法繞開了混雜因子,這是唯一的也是最重要的區(qū)別。因此它們依賴的假設在業(yè)務層面更容易得到滿足,同時也很容易被檢驗,這樣的結論也更容易被信服。我們把上面的三種方法稱為準實驗方法。下面,我們來看看準實驗方法在騰訊看點中的應用案例。
      02
      準實驗方法看點應用案例
      1. DID雙重差分-天氣資訊分析
      圖片
      圖片
      DID在騰訊看點中是一個常用的方法,我們用DID發(fā)現了在極端天氣下,天氣資訊對用戶留存的影響。去年8月6號,是臺風黑格比經過的時間,我們希望在這樣極端的天氣下,推送天氣的咨詢是否能提升用戶留存。
      對于這個問題,我們首先想到如下實驗:
      • 實驗組:8月6號曝光天氣的用戶

      • 對照組:8月6號未曝光天氣的用戶

      結論:曝光天氣的用戶次留相比于未曝光天氣的用戶次留高了20%。
      事實上,這個結論肯定是錯誤的。因為曝光天氣和未曝光天氣這兩組用戶本身就不平衡,因為我們通常是給活躍用戶曝光。因此,這樣得到的結論是帶有混淆偏差的。
      因此,我們又想到如下實驗:
      • 實驗組:前期未曝光天氣,8月6號曝光天氣的用戶作為實驗組

      • 對照組:前期未曝光天氣,8月6號未曝光天氣的用戶作為對照組

      結論:曝光天氣的用戶相比于未曝光天氣的用戶在受到干預之后,次留擴大了1.4%
      基于上述結論,我們判斷天氣內容的曝光對次留是有因果效應的。為什么說這就是因果效應呢?雙重差分中,第一層差分指的是實驗組和對照組在實驗前后的差異,我們在右上圖看到了實驗前的平行性是滿足的,可以認為混淆變量對實驗組和對照組的第一重差分是相等的,那么影響第二重差分(實驗組和對照組差分的差分)的因素就只有干預本身了。
      因此,我們可以通過二次差分得到一個因果效應,也就是這里的1.4%。
      圖片
      為了證明因果結論的正確性,我們驗證了天氣內容曝光后的轉化路徑,主要是點擊率以及留存。
      我們發(fā)現及時、準確及本地的點擊內容的準確性是遠超于的大盤的,同時這個高點擊率還能延續(xù)到第二天,說明這樣的內容能夠讓用戶感受到平臺的關心,從而帶來次留的提升。根據這樣的因果結論,我們最終建議對天氣做一個單獨的推薦和鏈路審核策略。
      因為天氣對及時性的要求更高,例如,一旦天氣過時了一個小時,極端天氣已經過了,這樣的內容就容易引起反感。因此,鏈路側需要有一個更加特定的審核策略,來保證天氣內容的供應。同樣,推薦策略也需要考慮及時性和本地性。此外,我們還在表達形態(tài)上提出建議,我們希望將天氣內容單獨占據一個資源位。
      2. 斷點回歸-小說業(yè)務應用
      圖片
      在小說業(yè)務中我們發(fā)現,提升新用戶的首章完成率可以提升新用戶的次留。我們可以看到中間這張圖,橫軸是新用戶第一天的閱讀時間,縱軸是新用戶的次留。我們發(fā)現新用戶第一天的閱讀時間和次留間存在明顯的端點,大概在115s左右。這個時間大約是閱讀完一章的時間。
      因為是新用戶,所以是新用戶的首長閱讀時間。因此我們發(fā)現了提升新用戶的首章完成率對新用戶的次留有因果效應。為什么說這是因果效應呢?因為115s左右是一個連續(xù)的鄰域,我們可以認為其在鄰域中各種混淆變量基本不會有太大的差異。
      根據這個結論,我們應該以提升新用戶的首章完成率作為目標。針對這個目標,我們有如下建議:
      • 在首頁推薦時,以小說易讀率作為一個指標,不優(yōu)先考慮進入節(jié)奏比較慢的小說

      • 取消首章閱讀的廣告,來提升首章完成率,從而提升用戶的次留

      類似的問題還有很多,下面我們針對一個啟動重置類問題來做一個詳細的分享。
      03
      啟動重置類問題通用分析方法
      1. 產品描述
      圖片
      下面我們拿QQ瀏覽器的兩個使用場景來說明什么是啟動重置類問題:
      ① 首頁重置
      用戶在上一次搜索完感興趣的內容后,從搜索頁面退出。過了一段時間后再返回,發(fā)現頁面已經變成了信息流首頁。這個功能的目的是為了提升信息流的曝光,但我們擔心這個功能可能會影響用戶的搜索體驗,從而影響用戶的的活躍度。
      ② 閃屏
      用戶在上一次使用完app后,隔一段時間返回,又會出現app的啟動加閃屏廣告。這個功能設計的目的是提高商業(yè)化的收入,但我們也擔心這樣的設計會得不償失。
      那么針對這樣的啟動重置類問題,在沒有數據的情況下,我們怎么去評估啟動重置類策略的總收益呢?下面,我們用首頁重置問題作為我們主要的例子進行方案的講解。
      2. 通用分析框架
      圖片
      針對這類問題,我們提出一套通用的觀測數據因果推斷分析方式來給出答案。我們主要關注三個問題,第一個問題啟動重置對下一次的使用有沒有影響? 
      第二個問題 一段時間的啟動重置下來對用戶的未來的打開次數,活躍,收入是否有影響? 前兩個問題解決后,我們關心是否存在部分人群能夠既不影響體驗,又不影響收入增加和其他功能的導流。這三個問題又稱為短期影響、長期影響和用戶異質性分析。
      考慮前面給出的分析框架,我們發(fā)現都有相應的解法。
      ① 短期影響
      由于用戶是否被啟動重置,只取決于用戶的訪問時間在40分鐘右側還是左側,那么對于這類問題很適合用斷點回歸的方式解決。
      ② 長期影響
      長期影響依賴于很多混淆變量,它適合用PSM、混淆控制的方式處理。前面提到,如果我們考慮PSM和匹配方法有一個難題——它的結論很容易被挑戰(zhàn),因為不存在遺漏的混雜因子是無法被證明的。如何解決這個問題是個難點。
      ③ 用戶異質性
      異質性分析的前提是實驗數據,或者說準實驗數據,如何去獲并分析短期和長期干預的準實驗數據呢?同時在我們的場景中,我們關注多個指標和解釋性,異質性沒有一個直接可以滿足的方法。那么現有的下鉆分析和uplift能滿足這樣的目標嗎?
      針對這三個問題,我們分別進行闡述。
      3. 短期整體效應
      圖片
      考慮用戶在退出app又返回、被啟動重置打亂后的這次訪問對搜索使用時長和總使用時長的影響。選擇這兩項的原因是看搜索使用時長可以看啟動重置會不會影響用戶本次的搜索意愿,看總使用時長可以看啟動重置是否確實給用戶做到了信息流導流。
      具體來看上面兩張圖,橫軸是用戶距離上一次的訪問間隔,縱軸是session的總使用時長和搜索使用時長??梢钥吹竭@兩張圖在40分鐘左右都有一個明顯的斷點,也就是說短期看,本次訪問被重置會導致本次總使用時長和搜索使用時長都下降,這個結論是置信的。
      4. 長期整體效應
      ① 難點
      圖片
      針對長期問題,可以畫出如上因果圖,考慮一段時間啟動重置累積后對用戶的影響。長期問題的難點是無法繞開遺漏的混雜因子。
      比如,我們通過混淆控制的方法去解決這個長期問題,我們先嘗試控制用戶的活躍度,使其在一段時間內的訪問次數都是21,發(fā)現擊中比例越高的用戶的訪問天數越多。如果訪問次數已經囊括了所有的混淆變量的話,這個結論就是正確的。事實上我們發(fā)現,當訪問次數都是21的時候,擊中比例越高的用戶,相當于他們的間隔都比較長,也就是他們是低頻高日活型的用戶,而擊中比例越低的用戶,他們正好是高頻低日活型的用戶。
      也就是說,我們控制了訪問次數,卻沒有控制住用戶的訪問模式。這樣得出的結論也是錯誤的。
      當然,我們可以用PSM把這些所有可能的混淆變量一步步都考慮進去。但同樣會存在兩個問題,一是局部性問題,PSM匹配的樣本只是樣本中的一小部分,無法代表整體樣本,二是遺漏的混雜因子的問題依然無法解決。下面給出我們的解決辦法。
      ② 構造準實驗變量
      圖片
      我們的解決辦法是構造了一個長期的準實驗變量來繞開混雜因子的難點。
      準實驗:
      在短期的斷點回歸中,我們可以看到因為訪問間隔會隨機地落在40分鐘的左右兩側,因此在40分鐘鄰域構成一個準實驗。
      從業(yè)務的視角看,這個準實驗是用戶無法感知這次訪問距離上一次是過了39分鐘還是41分鐘,他是無法感知到這個差異的,這導致來訪的用戶的各種變量也是隨機分配到這個區(qū)間的。那么這個鄰域是否能一定程度地擴大呢,能否擴大到30到50分鐘或者20到60分鐘呢?
      鄰域選擇:
      鄰域的選擇是置信度和隨機性的折中。當范圍越大的時候,我們覆蓋的樣本就越多,但隨機性會變差。當范圍越小的時候,隨機性很好,但覆蓋的樣本很少,從而置信度會受到質疑。最終,選擇了20到60分鐘這個區(qū)間。我們還通過特征平衡性來證明這兩個區(qū)間的樣本在各項重要特征上都是比較接近的。
      構造變量:
      因為我們已經證明了用戶的訪問行為落在20到40分鐘和40到60分鐘是一個幾乎隨機的事件,那么我們可以基于這個事件去構造一個長期的隨機變量,就是用戶在一段時間內落在40到60分鐘的次數除以落在20到40分鐘的次數,用這個比例作為長期的準實驗變量。
      圖片
      我們用上表按照長期的擊中比例來分組,我們發(fā)現兩組用戶在兩周內各項數據都沒有明顯差異。
      也就是說,我們的長期Rate比例是與各種混淆因子獨立的,也就是T獨立于X。那么我們可以證明,Rate和活躍天數Y的因果性是等于相關性的。
      在右圖做了大量證明,我們說明了準實驗變量的相關性是等于因果性的,我們就可以直接去觀測T和Y的關系,也就是我們構造出來的Rate和活躍天數的關系。
      圖片
      我們發(fā)現,我們構造的Rate越大,活躍天數下降得越多。也就是長期來看,一段時間內被啟動重置打斷的次數比例越高,那么其擊中活躍天數越低。這樣,我們就解決了長期效應的問題。
      5. 異質性效應
      圖片
      如果說整體上的結論,短期整體和長期整體的結論是顯而易見而且直覺的,那么第三個問題細分人群的結論就不是那么顯而易見了,異質性分析的前提是實驗或者準實驗。前面,我們已經構造了準實驗變量,創(chuàng)造了無偏樣本。
      下面,我們希望通過異質性分析找到不同人群在不同干預措施下的不同效果,然后去去改善策略。
      比如,我們發(fā)現主動打開為主的活躍用戶在被啟動重置打斷后的活躍度和收入都出現了下降,那么對于這類用戶我們就應該下架策略。
      又比如,我們發(fā)現啟動重置打斷不僅會增加頻繁打開信息流用戶的活躍度和信息流的時長,還不影響他們的搜索時長,那么對于這類用戶我們就可以執(zhí)行啟動重置策略。
      這里的難點是我們的目標指標有多個,包括搜索時長、信息流時長、收入。同時,用戶的標簽維度很高,包括主動打開、頻繁打開信息流等。
      同時,我們要把這樣的結論通過算法解釋并滿足通用性。需要同時滿足這四個要求是個難點。
      圖片
      通過調研發(fā)現,這四個要求是很難同時滿足的。從前面的分析框架中,我們可以看到,異質性分析主要包括下鉆分析和Uplift分析。
      在下鉆分析和Uplift分析的調研中,我們發(fā)現了解釋性、通用性和細粒度之間矛盾。下鉆分析有比較好的解釋性但通用性比較差,因為它不太適合處理連續(xù)變量,而且它一旦遭遇維度比較高的問題會有搜索效率的問題。Uplift在通用性和研究粒度上沒有問題,但是它的解釋性較差,比較適合高維和復雜業(yè)務??梢钥吹?,在我們的問題中Uplift更加滿足要求。
      我們繼續(xù)調研Uplift發(fā)現,Transform outcome的方法是更滿足我們的要求的,它相比Meta-learner有更高的準確性,同時相比于Direct uplift model有更低的實驗成本,但問題是,它只適合于單指標的建模。那么多指標的uplift的建模,我們目前了解到的只有Mr-uplift方法。
      它的實驗方法是用多個outcome組成一個新的outcome,然后對新的變量建模。這個轉換是不可逆的,也就是說我們的變量對原始的outcome的uplift是無法被復原的。因此我們發(fā)現,只有Transform outcome最滿足我們的要求,下面我們對其進行改造。
      ① 異質性分析
      圖片
      我們的算法目標有3個:
      • 多指標的實驗uplift擬合

      • 模型可解釋

      • 算法通用、可處理高維度

      下面,我們用偽代碼來呈現我們是怎么達到以上目標的,主要是四個步驟:
      Step1:在數據處理后,先通過Transform outcome去轉換我們原始的Y和G。新的變量會被稱為Y*和G*。然后對新的變量分別用CatBoost擬合模型。
      Step2:輸出模型的重要特征,并選擇出現次數最多的,用前15個或前10個解釋細分人群。
      Step3:通過兩個模型預測的uplift的正負值劃分四個象限,比較不同象限的人群在Step2中得到的重要特征的均值差異,得到一個定性的結論。
      Step4:通過Step3的定性結論做一個單維度的搜索,得到定量的結論。然后輸出每個維度子人群的uplift的絕對量值以及置信度。
      算法效果對比:
      圖片
      我們通過Gini Score來評估這4種模型方案的準確性,黑線代表的是隨機實驗的效果,藍線代表的是當前模型的效果,與黑線構成的面積越大效果越好。
      紅線是理論上能夠達到的最大值,但是它不能說明是最優(yōu)效果,只能說是一個量高。我們發(fā)現Transform outcome加CatBoost的模型效果最好,Gini面積達到了0.1387,比單模型方法的效果好兩倍。
      算法運行結果:
      圖片
      拿短期異質性來舉例,我們希望知道不同上下文的訪問行為在被啟動重置打斷后,在搜索使用時長和總使用時長上有沒有什么不同的表現。
      首先,我們根據算法畫4個象限圖,我們根據總時長和搜索使用時長分別建立一個uplift模型,橫軸為搜索使用時長的uplift,縱軸為總使用時長的uplift,每個點表示一次不同上下文的訪問行為。那么第一象限代表被啟動重置后,其總時長和搜索使用時長都會有提升,第三象限代表被啟動重置后,其總時長和搜索時長都會有明顯的下降。
      接著,我們得到這兩個模型的重要特征,然后對比四象限的人群在這些重要特征的均值上的差異。對比第一象限和第二象限,我們發(fā)現第一象限的人群搜索時長相比于第二象限的人群搜索時長的占比更低,這說明啟動重置策略對搜索時長占比較高的用戶可能會下降搜索意愿。
      對比第一象限和第三象限,我們發(fā)現第一象限的打開方式有多種,而第三象限的打開方式主要是主動打開,這說明對主動打開的用戶,啟動重置策略會引起反感,不僅會降低搜索意愿并且對信息流導流不感興趣。對于這類用戶,我們需要采用下架策略。這樣的定性結論到底是正確還是錯誤,我們還需要定量驗證。
      對前兩次打開方式做一個細分,每一種上下文我們都區(qū)分實驗組和對照組。通過對比這四種細分上下文實驗組和對照組的總時長和搜索時長的差異,得到真實的離線數據的總時長uplift和搜索時長uplift。最終來確定量化的uplift和置信度。
      這是短期異質性的四象限分析算法效果,長期異質性也是一致的。
      啟動重置類問題結論:
      圖片
      最終我們得到,整體上短期和長期的啟動重置策略都有副作用。但區(qū)分用戶看,可以發(fā)現可以對搜索活躍度較低的用戶保持現有策略,對搜索活躍度相對較高的用戶下架現有策略。
      更加精細化地,我們可以區(qū)分不同session上下文的行為。到這里,我們已經說完了異質性的結論。
      在分析過程中,我們發(fā)現啟動重置對搜索用戶的影響更大。因此,我們特別對產品平臺上做了建議,就是在搜索用戶搜索完退出再返回時,切換時增加一個動畫,提醒用戶之前的上下文已經被收納到這個窗口里了,讓用戶主動選擇是繼續(xù)之前的上下文還是來到新的信息流頁面。
      圖片
      到這里,我們就已經解決了之前提出的3個問題,我們用斷點分析解決短期影響,用uplift解決長期影響,用改良的準實驗構造解決用戶異質性。
      今天的分享就到這里,歡迎大家加入騰訊看點,來和我們一起研究因果推斷相關的工作。謝謝大家!
      04
      精彩問答
      Q:Uplift建模和相關性建模有什么區(qū)別?
      A:我們舉個例子來解釋這個問題。我們在淘票票購買電影票的時候會發(fā)現它會給你投放一個紅包,如果只用相關性去看用戶購買電影票和投放紅包之間有沒有相關性的話,肯定是有相關性的。但是其實這里面存在兩種人群,一種是不給他投放他也會買電影票,另一種是只有給他投放了紅包他才會買。這兩種人群在相關性分析中是不能區(qū)別的,而在uplift中可以區(qū)分,因為uplift計算的是投放紅包相比于不投放紅包得到的增益。這就是uplift和相關性建模主要的區(qū)別。
      Q:p值是如何計算的?
      A:因為我們這里有大量樣本,我們會找到所有細分用戶的不同session行為,把實驗組和對照組的行為都撈出來,就可以對每個用戶建立一個統(tǒng)計量,根據檢驗統(tǒng)計量的具體分布,可以得到p值。常用的統(tǒng)計量
      Q:在異質性分析中,為什么既要定性解釋還要定量解釋?只做一種有問題嗎?
      A:如果只有定性解釋,是有問題的。我們可以看到四象限人群,定性解釋是對每一象限人群的均值做一個比較,但是第一象限人群中有uplift值比較低的,也有比較高的,把它們混在一起看均值可能導致均值被平均化、不明顯,或者得到一個錯誤的結論。
      加入定量解釋,可以區(qū)分每個行為得到的最終uplift絕對值,解決了把不同uplift混在一起的問題,最終通過uplift的值得到精準的uplift的值。
      如果只有定量解釋,也有問題。定量解釋是一個單維度搜索,是無法感知高維有多個特征同時顯現出差異的細分人群,通過定性解釋可以增加更高維的視野。
      Q:DID和傳統(tǒng)AB test得到的結論有什么不同?
      A:拋開錯誤的打開效應,傳統(tǒng)的AB test是一個直接的因果效應,區(qū)別在于實驗的機制?,F實中,往往有很多原因導致無法實驗,比如歷史遺留問題。在這種情況下,我們在AB test前,需要把各種變量控制好,否則無法得到結論;在DID前即使沒有控制好,也能得到結果。
      Q:怎么識別啟動重置類問題?
      A:用戶在上一次訪問app后過了一段時間再回來,可能會失去之前的上下文,這個過程叫啟動重置。我們評估的是這個設計會不會對效益有負面作用。之前說的20到40分鐘或40到60分鐘是我們針對我們的數據評估出的隨機區(qū)間,如果換一個業(yè)務場景可能需要通過特征提升性的方法來驗證選取的區(qū)間是隨機的。
      Q:Uplift建模時怎么控制實驗組和對照組的變量分布一致?
      A:這個有多種方法。針對于觀測數據,一般可以通過PSM構造無偏樣本,對無偏樣本去做uplift,也可以像我們這里啟動重置這里的分析方法,構造一些依賴斷點回歸的拓展構造無偏樣本,對無偏區(qū)間做一個uplift。
      Q:Uplift怎么撈出對策略不同反應的用戶?每個用戶都有一個uplift值嗎?
      A:每個用戶都有自己的屬性和預測的uplift值。每個用戶都有一個uplift值,用戶屬性需要解釋uplift模型才能得到的。我們把相同屬性和相同或近似的uplift的值聚合解釋出來,就得能到有效策略。
      今天的分享就到這里,謝謝大家。
      圖片
      ·················END·················

        本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多