2017年1月13日,“飛蟬智投高校聯(lián)盟”第一期活動正式開展,中山大學統(tǒng)計學碩士朱進受邀來到飛蟬智投,結(jié)合在參與“融360'天機'金融風控大數(shù)據(jù)競賽”中預測用戶二次貸款的經(jīng)驗,詳細闡述了如何利用特征工程分析用戶金融數(shù)據(jù),預測用戶行為。 “高校聯(lián)盟”是由飛蟬智投發(fā)起的,與中山大學等高等本科院校共同開展的深度合作,其填補了高校與企業(yè)的斷層,讓高校的學生能了解到企業(yè)具體的業(yè)務需求和困境,將研究理論落地,解決實際問題;同時,也能讓企業(yè)接觸到最新的前沿技術(shù)和理論,享受到高校的人才和科研優(yōu)勢。 此次的分享嘉賓朱進是華南統(tǒng)計科學研究中心成員,同時也是中山大學數(shù)學學院統(tǒng)計學專業(yè)的碩士生,在數(shù)據(jù)分析、R語言、編程方面有著豐富的研究經(jīng)驗。在中心的學習工作過程中,朱進負責過基因數(shù)據(jù)、金融數(shù)據(jù)、醫(yī)療疾病數(shù)據(jù)、社會人口學數(shù)據(jù)、用戶行為數(shù)據(jù)等項目研究,對數(shù)據(jù)分析與數(shù)據(jù)挖掘形成了獨特的見解。 一、數(shù)據(jù)挖掘提高二次貸款準確度判斷 在此次競賽中,朱進團隊利用AUC對真實的借貸用戶數(shù)據(jù)進行分析,包括用戶修改記錄數(shù)據(jù)、消費數(shù)據(jù)、行為標簽數(shù)據(jù)以及社交數(shù)據(jù)等,預測用戶是否進行二次貸款。 這一過程所需的樣本數(shù)量非常大,維度高。以用戶修改數(shù)據(jù)為例,每個用戶可能會有很多次修改記錄,如果用全部數(shù)據(jù)去處理,維度可能會特別高。因此,朱進同學采用特征工程的方法,對數(shù)據(jù)進行整合降維,并根據(jù)特征對用戶行為進行預測。 比如將一個人所填的所有年齡取平均數(shù),平均年齡就是這個用戶的特征,即將一個用戶多條數(shù)據(jù)整合成一個用戶一條數(shù)據(jù),變成用機器學習的方法去做。 朱進同學還指出,在對數(shù)據(jù)進行預處理的過程中,發(fā)現(xiàn)有些數(shù)據(jù)非常異常,而數(shù)據(jù)異常可能是有信息的異常,這時候就要深入數(shù)據(jù),挖掘異常數(shù)據(jù)背后的信息。 而在此次利用特征工程進行時間變量處理的過程中,朱進同學發(fā)現(xiàn),在某一用戶進行修改的相鄰時間段中有一批用戶也有相同的行為,這批用戶之間可能沒有空間上的聯(lián)系,但是表現(xiàn)出從眾現(xiàn)象,得出了從眾性評估網(wǎng)絡的結(jié)論,并將用戶修改時間套入結(jié)論模型中,對其行為進行預測。 二、大規(guī)模技術(shù)和算法改進更新建模 在利用特征工程進行用戶行為預測過程中,朱進同學圍繞用戶開展多維度的考察,準確性高,主觀影響較小。但這還不是一個完美的方案。主要存在兩個方面的問題: 1.模型處于靜態(tài)層面,而數(shù)據(jù)還在不斷更新,模型更新有困難。因此,在處理過程中還需要考慮長期因素和短期因素,將長短期因素結(jié)合起來分析,優(yōu)化建模過程,通過大規(guī)模計算和算法改進,實現(xiàn)建模更新。 2.樣本數(shù)據(jù)多,計算機靈活性和維護比較差,需要通過改進算法解決。 在改進算法過程中,朱進主要提出了三個方向: 1.利用Data Combined ,將變量交叉,一個變量做不好,變量交叉可能就做好了。 2.Lasso是一個比較前沿的模型,可以當成提取工具,進行降維,將各個特征糅合成一個特征,利用公式算出用戶是否二次貸款的概率。 3.利用CART把不必要的東西去掉,進行降維處理,簡化過程。 分享會過程中,飛蟬智投團隊成員對分享內(nèi)容表現(xiàn)出濃烈的興趣,展開深入探討,朱進同學也針對智投團隊的問題深入思考、悉心講解,現(xiàn)場氣氛熱烈。 分享結(jié)束后,朱進同學和飛蟬智投CTO“Jack船長”以及其他數(shù)據(jù)挖掘的同事進行了交流和經(jīng)驗分享。 未來,飛蟬智投將與各大高等院校展開合作,汲取最新研究理論精華,提升技術(shù)水平,通過大數(shù)據(jù)、機器學習等Fintech技術(shù),對用戶金融數(shù)據(jù)進行挖掘分析,構(gòu)建用戶畫像,幫助券商進行精準營銷,提升轉(zhuǎn)化效果。 想了解更多關(guān)于智能投顧以及機器學習的技巧,可添加微信號【feichanzhitou】,來勾搭小編哦! |
|