8月3日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第38次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示:我國(guó)互聯(lián)網(wǎng)網(wǎng)民規(guī)模已達(dá)7.1億,其中互聯(lián)網(wǎng)金融理財(cái)用戶首次超過1億。與2014年12月底的7849萬的數(shù)據(jù)相比,接近30%的高速增長(zhǎng)令世界矚目。然而,隨著互聯(lián)網(wǎng)金融用戶數(shù)量飛速增長(zhǎng)的同時(shí),大量的網(wǎng)貸機(jī)構(gòu)、P2P也暴露出風(fēng)控不嚴(yán)、壞賬率過高的問題。互聯(lián)網(wǎng)金融風(fēng)控,尤其是線上大數(shù)據(jù)風(fēng)控已經(jīng)成為行業(yè)亟待提升的關(guān)鍵環(huán)節(jié)。平安集團(tuán)旗下的前海征信,依托平安集團(tuán)大數(shù)據(jù)和海量外部數(shù)據(jù),致力于提供大數(shù)據(jù)反欺詐、風(fēng)控、催收等全流程解決方案,目前已在大數(shù)據(jù)金融風(fēng)控建模中積累了許多寶貴的經(jīng)驗(yàn)。下面,就有請(qǐng)前海征信 “朝陽35處”以征信評(píng)分中常見問題為引,帶領(lǐng)大家了解一下在一個(gè)統(tǒng)一的概率圖框架下如何優(yōu)雅的、創(chuàng)新性的建立個(gè)人征信評(píng)分模型。 大數(shù)據(jù)之殤:數(shù)據(jù)缺失與共線性 與傳統(tǒng)征信中心采用上報(bào)數(shù)據(jù)不同,在大數(shù)據(jù)征信領(lǐng)先企業(yè)——如ZestFinance, Ondeck以及前海征信——的風(fēng)控建模實(shí)踐中,都使用了來自申請(qǐng)書填報(bào)、政府?dāng)?shù)據(jù)與征信報(bào)告、網(wǎng)站和手機(jī)APP采集、與其他企業(yè)合作、互聯(lián)網(wǎng)公開信息等多個(gè)數(shù)據(jù)源的數(shù)據(jù),體現(xiàn)出了維度特別高、來源特別廣、數(shù)據(jù)結(jié)構(gòu)特別雜的大數(shù)據(jù)特征。使用來自多種數(shù)據(jù)源的聚合數(shù)據(jù)(data-fusion)的方法,在引入更多、更全面信息的同時(shí),也天然地帶來了兩大問題:大量數(shù)據(jù)缺失、以及數(shù)據(jù)間相關(guān)性太強(qiáng),最后往往導(dǎo)致了過擬合的問題。 一方面,如果我們有來源于兩個(gè)不同的數(shù)據(jù)來源,由于不同數(shù)據(jù)源的覆蓋人群不一樣,在數(shù)據(jù)拼接在一起的時(shí)候,沒有同時(shí)被兩個(gè)數(shù)據(jù)源觀測(cè)到的人群(經(jīng)常是大部分的人群)在另一數(shù)據(jù)源的變量天然地全部缺失。而一旦關(guān)鍵變量有缺失,在邏輯回歸這一類線性模型中,便會(huì)極大地影響模型效果。甚至有人認(rèn)為:大數(shù)據(jù)風(fēng)控最重要的問題,就是處理多源數(shù)據(jù)帶來的數(shù)據(jù)缺失問題。 尤其需要注意的是,這種缺失通常不屬于隨機(jī)缺失,不恰當(dāng)?shù)奶幚矶加锌赡芙档湍P托Ч鹘y(tǒng)的金融建模中,關(guān)鍵變量的缺失,如無信用記錄、沒有購(gòu)房記錄,可以將缺失本身做成0-1虛擬變量乘以負(fù)權(quán)重進(jìn)入邏輯回歸模型,這和控制風(fēng)險(xiǎn)的業(yè)務(wù)需要相符。但是大數(shù)據(jù)評(píng)分中,數(shù)據(jù)維度被拓展到包含互聯(lián)網(wǎng)行為數(shù)據(jù)等等的非金融數(shù)據(jù)。如果僅僅因?yàn)榭蛻粼谀硞€(gè)業(yè)務(wù)上沒有數(shù)據(jù)就降低評(píng)分,那么征信評(píng)分很可能會(huì)變成“會(huì)員分”,即使用業(yè)務(wù)越多的客戶具有更高的評(píng)分。這與用更多信息客觀評(píng)分的初衷完全背道而馳,也有極大可能導(dǎo)致數(shù)據(jù)上的過度擬合而降低樣本外的模型效果,最終給采信的貸款機(jī)構(gòu)帶來損失。 另一方面,金融的本質(zhì)決定了大數(shù)據(jù)領(lǐng)域模型中變量的個(gè)數(shù)往往遠(yuǎn)遠(yuǎn)超過征信評(píng)分這一問題的本征維度。多個(gè)源的數(shù)據(jù)之間、同數(shù)據(jù)源不同變量之間,可能有顯著的簡(jiǎn)單線性相關(guān)性或者更高階的共線性。機(jī)器學(xué)習(xí)通常的做法是使用Regularized方法,限制模型的復(fù)雜度。但是,金融風(fēng)控建模的樣本數(shù)量往往不足以分出足夠的驗(yàn)證集調(diào)整合適的超參數(shù),由于有效樣本的不足,模型效果隨著變量數(shù)量提升有限,空有數(shù)萬個(gè)變量,能用上的卻緲緲無幾。 共線性帶來更嚴(yán)重的問題是偽相關(guān)。數(shù)據(jù)的因果性和相關(guān)性一直以來都是世界級(jí)難題,這一問題在海量變量的大數(shù)據(jù)環(huán)境下尤為突出。邁爾舍恩伯格在《大數(shù)據(jù)時(shí)代》里說,“要相關(guān),不要因果?!边@句話,在以效率取勝的推薦問題和營(yíng)銷問題上可能是有效的。因?yàn)橥扑]問題和營(yíng)銷問題都是對(duì)準(zhǔn)確度要求很低的模型,注重模型的快速迭代,在很短的時(shí)間內(nèi)可以驅(qū)動(dòng)業(yè)務(wù)收入提升。然而,如果在風(fēng)控建模也使用同樣的觀念,則可能會(huì)帶來極大的問題。試想一下,超市可以把啤酒和尿布放在一起,能獲得協(xié)同效應(yīng)是最好,但是即便沒有利潤(rùn)的提升也無傷大雅;然而如果因?yàn)榍煽肆︿N量和幸福指數(shù)相關(guān),一個(gè)國(guó)家就大力扶植巧克力行業(yè)那就有點(diǎn)不負(fù)責(zé)任了。類似的,如果類別A的客戶恰好平均的每月信用卡額度使用比例較高,如果另一個(gè)客戶沒有觀測(cè)到信用卡使用情況,這個(gè)時(shí)候因?yàn)閱渭兺瑢儆陬悇eA就獲得一個(gè)較低評(píng)分是不科學(xué)的。比起新潮的機(jī)器學(xué)習(xí)算法,在生物統(tǒng)計(jì)、物理上已經(jīng)證明卓有成效的統(tǒng)計(jì)推斷在大數(shù)據(jù)風(fēng)控中更為重要。 概率圖模型在風(fēng)控中的應(yīng)用 面對(duì)缺失數(shù)據(jù)和數(shù)據(jù)間高度相關(guān)的問題,傳統(tǒng)做法是首先使用不同的填充方法,如中值/眾數(shù)直接填充,或者使用回歸模型/C4.5/熱卡/KMeasn模型來建模填充,最后進(jìn)行PCA或者變量選擇降維。這一方案的效果并不盡如人意,主要的問題在于填充的時(shí)候,這些方法都只能給出似然概率最高的單一估計(jì),而后續(xù)的建模中往往無法將數(shù)據(jù)本身的準(zhǔn)確度放入模型,填充數(shù)據(jù)的偏差可能會(huì)淹沒變量本身的信號(hào),反而降低了模型效果。
因此,在綜合考慮數(shù)據(jù)有缺失、數(shù)據(jù)相關(guān)性、因果分析等方面的問題,我的經(jīng)驗(yàn)是選擇基于貝葉斯理論,將針對(duì)連續(xù)數(shù)據(jù)的概率主成分分析(Probabilistic Principle Componets Analysis, PPCA)和針對(duì)離散數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)(Bayesian Network)方法結(jié)合為概率圖模型,打造統(tǒng)一的風(fēng)控模型,在模型解釋性、模型預(yù)測(cè)能力上以求達(dá)到最佳的平衡。 圖1 概率PCA方法與PCA方法類似,是一種變換(Transform)方法,即將多維數(shù)據(jù)進(jìn)行函數(shù)映射(而非簡(jiǎn)單多選一)到低維平面。傳統(tǒng)的PCA方法無法處理缺失數(shù)據(jù),而概率PCA作為一種適用于缺失數(shù)據(jù)情況下的特征提取方法,特別適用于征信風(fēng)控這一問題。那么什么是概率PCA呢?我們首先回歸一下PCA方法:當(dāng)我們手上有p維的數(shù)據(jù),通過求取這p維數(shù)據(jù)的協(xié)方差矩陣,得到協(xié)方差矩陣的特征根和特征向量,根據(jù)特征值最大排序取前k個(gè)(k<>< span=''><> 圖2 貝葉斯網(wǎng)絡(luò)本身就是一種有向無環(huán)的概率圖模型,適用于離散變量,用變量間的相關(guān)性,構(gòu)建變量間的決定網(wǎng)絡(luò)。圖2中,每一個(gè)結(jié)點(diǎn)表示一個(gè)變量,每一條邊表示變量間相關(guān)。比如,x5的分布取決于x1和x3的取值,而x5確定以后,又會(huì)影響x7的取值。x1到x7七個(gè)變量,可以聯(lián)立寫一個(gè)長(zhǎng)長(zhǎng)的聯(lián)合分布函數(shù),在部分變量觀測(cè)到的情況下根據(jù)貝葉斯定理求出剩余缺失變量的后驗(yàn)分布。 圖3 最后,我們來看如何用統(tǒng)一的概率圖框架把兩者結(jié)合在一起。繼續(xù)沿用前面的例子,現(xiàn)在有5個(gè)變量但是僅有2個(gè)本征維度。與之前不同的是,之前隱變量給定以后,所有的觀測(cè)向量都是服從正態(tài)分布的連續(xù)變量,現(xiàn)在我們把其中兩個(gè)替換為服從二項(xiàng)分布的0-1變量(如圖3,其實(shí)logis表示logistic變換)。這樣,我們便簡(jiǎn)單的通過改變概率PCA中的分布形式,實(shí)現(xiàn)了連續(xù)變量和離散變量放入同一個(gè)模型。同樣的,在給定數(shù)據(jù)部分缺失的情況下,我們依然可以根據(jù)貝葉斯定理推斷參數(shù)b的后驗(yàn)分布;同樣的,在部分觀測(cè)到x的情況,我們也可以推斷缺失數(shù)據(jù)的分布。
好了,到此為止,我們使用一個(gè)帶有隱變量的概率圖模型把連續(xù)問題和離散問題鏈接在了一起。從這個(gè)角度看,概率圖方法與其稱之為模型,不如稱之為一種統(tǒng)一的模型框架。一方面,根據(jù)貝葉斯理論,我們可以在部分?jǐn)?shù)據(jù)已知部分未知的情況下,求出未知變量在已知變量被觀測(cè)時(shí)的條件概率,實(shí)現(xiàn)了缺失填充的目的;另一方面,由于因變量的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于觀測(cè)變量的個(gè)數(shù),我們同時(shí)解決的數(shù)據(jù)降維的問題。最后,我們可以使用隱變量建立邏輯回歸模型;而如果我們添加多層隱變量,再把是否違約當(dāng)作一個(gè)部分觀測(cè)的自變量,那我們相當(dāng)于得到了一個(gè)貝葉斯深度網(wǎng)絡(luò)模型(Deep Bayesian Network, DBN,如圖4就是一個(gè)示例用的包含兩個(gè)隱含層的DBN,業(yè)務(wù)目標(biāo)和自變量在結(jié)構(gòu)上平級(jí))。 言機(jī)器學(xué)習(xí)必談深度學(xué)習(xí)已經(jīng)被很多從業(yè)人員詬病。我在這里也想強(qiáng)調(diào),沒有技術(shù)最強(qiáng)、唯一最好的模型,只有最貼合業(yè)務(wù)需要、最適合數(shù)據(jù)的模型。因?yàn)閳D像識(shí)別和語音識(shí)別問題中數(shù)據(jù)上都具有“平穩(wěn)性”,所以卷積網(wǎng)絡(luò)特別適用于這一類問題。而同樣的拓?fù)浣Y(jié)構(gòu),是不能直接應(yīng)用于金融風(fēng)控建模的。限于現(xiàn)有的樣本數(shù)據(jù)和計(jì)算能力,金融建模需要對(duì)數(shù)據(jù)有充分的理解和對(duì)業(yè)務(wù)的深刻認(rèn)識(shí),需要用業(yè)務(wù)知識(shí)來指導(dǎo)模型的建立、優(yōu)化和解釋。 朝陽35處有話說:在首批獲得8家個(gè)人征信牌照試點(diǎn)的企業(yè)中,平安集團(tuán)旗下前海征信已經(jīng)為1500家金融機(jī)構(gòu)提供服務(wù),遙遙領(lǐng)先于競(jìng)爭(zhēng)對(duì)手。在接入更多數(shù)據(jù)、打通數(shù)據(jù)孤島、提供更好服務(wù)的數(shù)據(jù)聚合過程中,前海征信積累的大量的缺失填充經(jīng)驗(yàn)和在數(shù)據(jù)缺失情況下的建模優(yōu)化。概率圖模型雖然有著模型效果極佳,模型解釋能力強(qiáng)的諸多優(yōu)點(diǎn),同時(shí)也有著模型訓(xùn)練難度大,所需時(shí)間長(zhǎng)等缺點(diǎn)。但是,35處君相信,在未來發(fā)展趨勢(shì)中,深度學(xué)習(xí)框架和貝葉斯推斷框架將會(huì)更緊密的聯(lián)系在一起,我們也將持續(xù)探索這一領(lǐng)域在金融建模中更為精妙的應(yīng)用。 |
|