活動筆記·數(shù)字科技 本文優(yōu)質(zhì)度:★★★★★+ 口感:松花露 筆記君說: 數(shù)字科技時代,貸款越來越方便,直接用個人的信用就可以貸款,但總有一些人會用信用漏洞來騙貸、來欺詐,那么,我們應(yīng)該如何預(yù)防欺詐性事件呢? 接下來,和筆記君一起走進(jìn)今天的文章探索答案吧。 以下,盡情享用~ 我今天分享的主題是“數(shù)字科技驅(qū)動的信貸反欺詐技術(shù)”,關(guān)于AI、數(shù)據(jù)挖掘技術(shù)、模型算法在這個領(lǐng)域的應(yīng)用和嘗試。 首先介紹一下我們公司。 我們成立于2016年10月,成立之初的目的是利用海量高維的數(shù)據(jù)資源,結(jié)合行業(yè)內(nèi)最先進(jìn)的數(shù)據(jù)挖掘技術(shù)和模型算法,借助京東數(shù)科豐富的實踐應(yīng)用場景,不斷打磨自身的技術(shù)實力,同時賦能合作伙伴,幫助他們提升自身的風(fēng)控實力和運(yùn)營效率。 目前已經(jīng)和眾多的銀行、保險、證券、信托、小貸公司、持牌消金以及融資租賃公司等等展開合作,為他們提供了各類的產(chǎn)品支持以及智能風(fēng)控、智能營銷解決方案,合作的機(jī)構(gòu)近300家。 今天講的是,我們在反欺詐領(lǐng)域究竟做了哪些嘗試。 一、欺詐性案件背后的真相 大家經(jīng)常會在媒體上看到一些跟欺詐相關(guān)的令人觸目驚心的新聞報道,例如醫(yī)美中介欺詐、黑中介騙貸、洗錢套現(xiàn)等等。 隨著中國消費(fèi)信貸及互聯(lián)網(wǎng)化的飛速發(fā)展,信貸產(chǎn)品種類的日益豐富,欺詐的手段也不斷在更新進(jìn)化。欺詐分子是一群高智商且勤奮努力的人群,加上欺詐防范手段的滯后性,使得欺詐案件層出不窮,可謂道高一尺,魔高一丈。 從早期的傳統(tǒng)欺詐手段,已經(jīng)逐步進(jìn)化為更加先進(jìn)更難察覺的新型欺詐手段,比如早期的利誘員工到如今的潛入機(jī)構(gòu),本人申請到資信包裝等等。 欺詐領(lǐng)域經(jīng)常存在一種“道高一尺,魔高一丈”的情況,要怎么做才能實現(xiàn)“魔高一尺,道高一丈”,真正實現(xiàn)欺詐的有效防范? 風(fēng)控從業(yè)者都知道,在信貸風(fēng)險領(lǐng)域,我們最關(guān)注的是信用風(fēng)險和欺詐風(fēng)險。 信用風(fēng)險非常好理解,最多的是從還款能力和意愿這兩個大維度去判斷。但是在欺詐風(fēng)險領(lǐng)域,更多關(guān)注的是一方、二方、三方和多方混合欺詐,這就使得欺詐風(fēng)險在判斷上更加復(fù)雜,難度更加大。 由于中國移動互聯(lián)網(wǎng)的發(fā)展,比歐美一些國家更加快速、更加發(fā)達(dá),使得欺詐手段層出不窮,也使得我們在這個領(lǐng)域反欺詐的技術(shù)相對滯后。在美國,欺詐損失比例不到20%,而在中國為50%甚至更高。 所以在中國,整體信貸環(huán)境更加惡劣,防范欺詐風(fēng)險的重要性更高。在建模方式上,我們通常是以已知的欺詐案件庫進(jìn)行定義,再進(jìn)行反欺詐模型的搭建,本身就很難進(jìn)行有效的提前預(yù)警。 舉個例子,當(dāng)時我在美國做反欺詐的時候,有一個客戶在拉斯維加斯的線下BestBuy(百思買)門店買了一部液晶電視,買完之后到周圍的麥當(dāng)勞Drive-Through買了一個漢堡。 我們的交易反欺詐模型是實時在線上跑的,用戶每做一筆刷卡,系統(tǒng)都在計算是否可以通過。這個用戶平時是經(jīng)常在線上消費(fèi)的,很少有在線下大額消費(fèi)的行為,所以這筆交易被定義為高度欺詐嫌疑的交易。使得這個用戶在買麥當(dāng)勞漢堡的時候,他的交易就被拒絕了。 這個用戶打電話進(jìn)行投訴,他說:“如果你懷疑我是一個欺詐分子,為什么不在我買電視的時候把我的交易拒絕?而是在我購買2塊錢漢堡的時候拒絕?”——這就說明我們的模型是存在一定滯后性的。 二、如何預(yù)防欺詐 對于不同的欺詐類型,我們需要從三個維度進(jìn)行考慮:了解客戶、了解員工以及了解對手。 ▲ 長按圖片,分享給需要的人 但欺詐風(fēng)險的防范必須了解所有交易參與對象,不然就會有疏漏,比如我們只去了解員工和對手,就會遺漏第一方欺詐的風(fēng)險;只了解客戶和員工,就會給黑產(chǎn)、團(tuán)伙欺詐等第三方欺詐以機(jī)會。 右邊不同的顏色是對應(yīng)不同欺詐類型的防范措施,比如建立完善的內(nèi)控合規(guī)制度可以有效防范員工內(nèi)部欺詐。 但黑產(chǎn)識別是反欺詐領(lǐng)域最為關(guān)鍵的環(huán)節(jié),在這個環(huán)節(jié)ZRobot進(jìn)行了大量的嘗試和探索,我們認(rèn)為通過生物識別技術(shù)、點(diǎn)面結(jié)合的復(fù)雜網(wǎng)絡(luò)+機(jī)器學(xué)習(xí)技術(shù)(我們稱之為“漫網(wǎng)技術(shù)”)以及欺詐模型識別,尤其是我們提出的“斑馬”擴(kuò)散技術(shù)是三方欺詐的最為有效的防范手段。 具體是什么原因呢? 首先,反欺詐的核心是證明交易對手是客戶本人,這是第一步,也是最關(guān)鍵的一步。 ▲ 長按圖片,分享給需要的人 中國移動互聯(lián)網(wǎng)的高度發(fā)展,給了很多金融機(jī)構(gòu)在前端非常有效的工具,用來和用戶交互,同時抓取有效的數(shù)據(jù)節(jié)點(diǎn)。 比如說現(xiàn)在非常成熟的移動APP,前端可以抓取的用戶標(biāo)簽已經(jīng)多達(dá)200多個。在此基礎(chǔ)上做一些特征的延伸,是非常有想象空間的。通過輕量級的前端SDK生物探針部署,捕捉用戶多維度的生物行為并在云端進(jìn)行實時計算判斷,同時結(jié)合傳統(tǒng)的人臉、指紋及聲紋識別,就可以在保障客戶體驗的同時達(dá)到欺詐風(fēng)險防范的目的。 這樣的方式具備的優(yōu)勢非常明顯,比如無需硬件支持,驗證過程無感知,無需用戶主動配合,可進(jìn)行連續(xù)判斷,同時可實現(xiàn)實時風(fēng)險決策。 隨著欺詐手段的不斷升級,欺詐的團(tuán)伙化特征也日益明顯,欺詐的上下游產(chǎn)業(yè)鏈也越來越龐大,越來越成熟。僅僅通過對個人的欺詐風(fēng)險判斷不能防范團(tuán)伙作案帶來的影響和損失。 我們提出的漫網(wǎng)技術(shù)有效的解決了這個問題:類似谷歌提出的Graph Learning(圖形學(xué)習(xí)), 對用戶全方位的關(guān)聯(lián)關(guān)系進(jìn)行識別包括設(shè)備關(guān)聯(lián),通信關(guān)聯(lián)等等,構(gòu)建用戶的關(guān)系網(wǎng)絡(luò)圖譜,通過無監(jiān)督算法將無差別用戶劃分為不同群組,同時針對關(guān)聯(lián)關(guān)系強(qiáng)弱進(jìn)行判斷設(shè)定權(quán)重。漫網(wǎng)的優(yōu)點(diǎn)非常明顯,在反欺詐領(lǐng)域已經(jīng)取得了顯著的效果。 反欺詐中建模的流程和關(guān)注點(diǎn),與傳統(tǒng)信用模型相比,欺詐模型構(gòu)建存在很大的挑戰(zhàn): 基于業(yè)務(wù)知識及豐富的案件識別能力判斷哪些交易定性為欺詐交易。有了穩(wěn)定的案件庫和欺詐數(shù)據(jù)標(biāo)簽之后,用作目標(biāo)定義。特征工程設(shè)計的數(shù)據(jù)量及運(yùn)算量大,近實時的數(shù)據(jù)挖掘包括瀏覽數(shù)據(jù)、網(wǎng)絡(luò)行為挖掘、網(wǎng)絡(luò)借貸、同一時間內(nèi)的設(shè)備環(huán)境特征等等。 由于欺詐手段方法更具多樣性,而信用風(fēng)險主要來自還款能力和還款意愿,比較具象,所以設(shè)計多特征多子模型的融合,同時模型的更新迭代必須跟得上欺詐環(huán)境的變化,所以模型部署也要考慮到這個問題,比如高頻定期的模型效果監(jiān)控,如何建立自適應(yīng)模型等等。 三、我們做了哪些嘗試和探索呢? 在這個領(lǐng)域我們做了哪些嘗試和探索呢? 在電商領(lǐng)域,用戶會在頁面留下大量觸點(diǎn),比如點(diǎn)擊瀏覽不同層次頁面,但幾乎所有深層次頁面都會到SKU(庫存進(jìn)出計量的單位)或單品頁面,所以我們提出了item2vector概念,類似文本挖掘領(lǐng)域的text2vector或word2vector,將文本分類為向量矩陣,比如高頻低頻文本,然后進(jìn)行情感分析、語義分析等等。 所以我們是將電商領(lǐng)域的item抽出,把用戶瀏覽路徑轉(zhuǎn)換為向量形式,就可以用向量來描述一個用戶在一個瀏覽session(會話控制)當(dāng)中對哪些品類或單品產(chǎn)生瀏覽記錄。 由于瀏覽是有時間順序的,所以我們將整個頁面瀏覽時間順序和向量放入卷積神經(jīng)網(wǎng)絡(luò)模型中加工訓(xùn)練特征,通過RNN(遞歸神經(jīng)網(wǎng)絡(luò))方式我們提煉了大量原本通過人類業(yè)務(wù)經(jīng)驗或其他構(gòu)建特征方法所不能提煉的特征。這些特征做為機(jī)器學(xué)習(xí)模型訓(xùn)練特征可大幅提升模型效果。 這是我們對于深度學(xué)習(xí)方面的突破,有了這一理論基礎(chǔ),以及我們對于整個用戶畫像標(biāo)簽的深度挖掘能力,就可以把自身積累的經(jīng)驗對外進(jìn)行賦能。 另外,我們聊一下RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長短期記憶網(wǎng)絡(luò))的概念。 RNN的輸入維度為樣本數(shù)量, 時間序列數(shù),每個時間序列點(diǎn)的維度數(shù)量,輸出維度可根據(jù)不同的應(yīng)用場景在1個或多個序列時間點(diǎn)輸出不同維度的結(jié)果;如圖所示從X0至XT共T+1個時間點(diǎn),每個時間點(diǎn)的維度可以為一個多維的向量。 但在序列長度很長時,RNN會存在梯度消失和長期記憶被掩蓋等問題,LSTM在每一個單元里面加入了門的機(jī)制,用于決定上一個單元信息和本單元新輸入的信息多大程度的輸入到本單元,以及多大程度地輸出到下一個單元,有效解決了以上問題,同時能有效過濾無用特征。 具體是怎么應(yīng)用呢?舉個例子: 下方左圖是基于地理位置軌跡的數(shù)據(jù)樣例,主要包含不同設(shè)備在不同時點(diǎn)駐留的位置經(jīng)緯度、位置類型、駐留分類等。經(jīng)過一系列數(shù)據(jù)清洗和特征加工得到完備的特征集合。 然后經(jīng)過序列截斷、padding、特征標(biāo)準(zhǔn)化、reshape等流程進(jìn)入LSTM模型。左下角是我們使用到的一個LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)樣例,經(jīng)過LSTM LAYER(含一個MASK LAYER),最終經(jīng)過2個dense layer得到輸出結(jié)果。 通過這樣的建模方式在訓(xùn)練集上到底取得了什么效果? 基于上述數(shù)據(jù)和模型,最終我們在測試集上評估效果,單基于如上地理位置駐留數(shù)據(jù),經(jīng)過清洗、加工和建模,最終在我們的風(fēng)險模型中KS能達(dá)到0.23,KS圖和按照預(yù)測出來的分?jǐn)?shù)等分10組在測試集上的lift值如下圖所示,效果是非常明顯的。 金融領(lǐng)域的特征工程和建模方法經(jīng)歷了傳統(tǒng)的邏輯回歸,基于大量統(tǒng)計特征的機(jī)器學(xué)習(xí)方法也正在不斷融入在自然語言處理、語音、圖像等領(lǐng)域應(yīng)用較廣的深度學(xué)習(xí)模型,剛剛展示的基于地理位置軌跡數(shù)據(jù)的LSTM模型是在金融領(lǐng)域的一次成功的應(yīng)用。 大家可以質(zhì)疑這只是一個理論的測試集上的模型結(jié)果,那么實際應(yīng)用中到底有沒有好的表現(xiàn)呢? 在我們內(nèi)部的實際數(shù)據(jù)上,剛才這個建模方式用到實際的風(fēng)險中,用打出來的欺詐評分,把識別的人群進(jìn)行了分組,欺詐評分最高的組可識別出來的欺詐人群的欺詐率已經(jīng)接近了平均比例的4倍。而最低的一組只有平均比例的0.05,所以接受前20%就可以把欺詐率降低一半,這就是實際運(yùn)用的效果。 中國有一句古話叫做“近朱者赤,近墨者黑”,我們通常用的關(guān)聯(lián)關(guān)系都是在黑的領(lǐng)域進(jìn)行擴(kuò)散,在已知的欺詐群體或者是用戶至上進(jìn)行關(guān)聯(lián)關(guān)系的擴(kuò)散,把周圍的高危的群落識別出來,同樣的概念可以適用到白的這批用戶上。 所以我們提出的概念是不僅要關(guān)注黑,更要服務(wù)好白,因為已知的信用度很高,非常優(yōu)質(zhì)的客戶,跟他們的關(guān)系非常緊密的這群人,極大概率上也是一批非常優(yōu)質(zhì)的客戶,或者是你的潛在優(yōu)質(zhì)客戶。 把這個概念應(yīng)用到額外授信、精準(zhǔn)營銷領(lǐng)域,也可以取得非常好的效果。尤其是現(xiàn)在獲客成本高居不下,這種技術(shù)帶來的前景是非常大的。 剛才我說了欺詐評分可以有效把高危人群識別出來,前面提到的斑馬擴(kuò)散技術(shù),通過網(wǎng)絡(luò)擴(kuò)散的方式,是可以把極端的人群作為有效的補(bǔ)充,更好地識別高危和低危的人群。 實際效果如何?通過擴(kuò)散出來的人群前14%,欺詐比例為平均水平的3.3倍,最后的13%只有平均水平的0.3倍,因為他們選取的維度不一樣,因此可以結(jié)合我剛才說的建模方式做出的欺詐評分,可以更加有效的把這批高危和優(yōu)質(zhì)客戶識別出來。 最后我也希望行業(yè)人士能夠在業(yè)內(nèi)和我們做更多的交流,大家聯(lián)手在整個金融科技領(lǐng)域做出更多的貢獻(xiàn),謝謝大家。 |
|
來自: 昵稱52221680 > 《筆記俠》