姚前,謝華美,景志剛,胡青青,司恩哲
中國人民銀行征信中心,北京 100031
基于數(shù)據(jù)挖掘的個人征信系統(tǒng)異常查詢實時監(jiān)測模型及其應用
姚前,謝華美,景志剛,胡青青,司恩哲
中國人民銀行征信中心,北京 100031
選擇個人征信系統(tǒng)最新36個月9億條查詢記錄,根據(jù)用戶查詢行為的不同波動特征進行了模型細分,探討了4種異常查詢實時監(jiān)測模型。結果表明,基于數(shù)據(jù)挖掘的個人征信系統(tǒng)異常查詢實時監(jiān)測模型應用于個人查詢量預測是可行的,且效果良好。該模型的成功上線和不斷修正,將對個人征信系統(tǒng)的違規(guī)查詢行為產(chǎn)生威懾作用,倒逼查詢機構加強內(nèi)部管理,合法使用信用信息,以保障信息主體的權益,促進征信市場健康發(fā)展。
數(shù)據(jù)挖掘;個人征信系統(tǒng);異常查詢;違規(guī)查詢;實時監(jiān)測
全國集中統(tǒng)一的個人征信系統(tǒng)共收集8.8億個自然人的信用信息,基本覆蓋全國每一個有信用活動的信息主體,其中,個人貸款和信用卡賬戶信息21.5億筆,開通查詢用戶15.9萬個,對外提供29.2億份個人信用報告。作為金融系統(tǒng)重要基礎設施的個人征信系統(tǒng),在提高商業(yè)銀行風險管理水平、提高審貸效率、拒絕高風險客戶、清收不良貸款等方面發(fā)揮重要作用。2013年3月15日《征信業(yè)管理條例》出臺并正式實施,是我國征信業(yè)發(fā)展史上的一個里程碑,不僅嚴格規(guī)范個人征信業(yè)務規(guī)則,還要求切實保護個人信用信息。該條例要求信息主體以外的單位或者個人向征信機構查詢個人信用報告時,應當取得信息主體本人的書面同意并約定用途。信息使用者應當按照與信息主體約定的用途使用個人信息,不得用作約定以外的用途,不得未經(jīng)信息主體同意向第三方提供。但違規(guī)查詢個人信用報告的情況時有發(fā)生,為了更好地保護信息主體的權益,維護個人征信系統(tǒng)的客觀、公正和權威,急需通過數(shù)據(jù)挖掘技術,分析查詢行為,建立異常查詢實時監(jiān)測模型。
為了能更準確地定位異常查詢行為,必須改變以業(yè)務經(jīng)驗驅動為核心的監(jiān)測模式,嘗試從數(shù)據(jù)出發(fā),通過深入分析,挖掘出隱藏在大量正常數(shù)據(jù)中的異常查詢行為。
根據(jù)業(yè)務經(jīng)驗,結合采集數(shù)據(jù)之間的邏輯關系,個人征信系統(tǒng)曾總結5條異常查詢監(jiān)測規(guī)則。
(1)查詢量波動閾值
根據(jù)查詢網(wǎng)點統(tǒng)計最近3年的日均查詢量增長率,預設來年日查詢量最大值,一旦超出閾值,視為異常。
(2)睡眠用戶異常查詢
在最近一年內(nèi)均未發(fā)生過查詢行為的用戶,一旦啟動查詢操作,定義為睡眠用戶異常查詢。
(3)非工作時段異常查詢
在過去非工作時段曾經(jīng)發(fā)生查詢行為的用戶,若繼續(xù)在非工作時段查詢個人信用報告,視為異常。
(4)未授權異常查詢
在未取得信息主體授權的情況下,用戶以貸后管理為由查詢非本行老客戶的個人信用報告,定義為未授權異常查詢。
(5)跨地域異常查詢
商業(yè)銀行以“貸款審批”為由查詢個人信用報告,但用戶所屬機構的清算代碼(金融機構代碼第6、第7位)歸屬地與信息主體身份證號碼歸屬地不是同一個省(自治區(qū)、直轄市),標記為異常;中國人民銀行臨柜用戶以“本人查詢”、“異議查詢”為由查詢個人信用報告,但用戶所屬機構的行政區(qū)劃代碼(機構代碼第7、第8位)與信息主體身份證號碼歸屬地不是同一個?。ㄗ灾螀^(qū)、直轄市),標記為異常。此規(guī)則暫不考慮所在地為北京、上海、天津和廣東等外來人口占比較大的區(qū)域內(nèi)的機構。
通過以上5條監(jiān)測規(guī)則,每月可偵測到上千萬條疑似異常查詢行為,并通過派出機構進一步核實,但反饋結果出乎意料,被核查的用戶均給出合理解釋,出現(xiàn)低檢測率和高誤報率的現(xiàn)象,使得監(jiān)測行為陷入被動狀態(tài)。
經(jīng)過分析,其主要原因有以下兩個方面。一是征信環(huán)境不斷變化且各地發(fā)展不均衡,導致業(yè)務經(jīng)驗與實際情況存在較大的時滯,未能準確地反映目前的情況。例如:部分商業(yè)銀行以家庭為單位進行綜合授信,放款前既要查詢貸款本人的個人信用報告,又要查詢貸款人家庭成員的個人信用報告,導致上文中提到未授權查詢規(guī)則不適合實際業(yè)務情況;而與此同時,隨著流動人口比重不斷增加,跨地域查詢也是合情合理的需求。二是沒有深度數(shù)據(jù)分析支持的結論不具有說服力,沒有針對性,難以被用戶接受。例如:以“一刀切”的方式預設一個查詢峰值,常常與實際查詢需求相沖突,使該條規(guī)則飽受詬病。
根據(jù)數(shù)據(jù)挖掘算法,異常查詢實時監(jiān)測模型包含6個步驟:業(yè)務理解、質量檢查、數(shù)據(jù)準備、數(shù)據(jù)分析、模型建立、模型驗證。
3.1 業(yè)務理解
通過業(yè)務調研、違規(guī)查詢樣本分析及數(shù)據(jù)探索后發(fā)現(xiàn),大量違規(guī)行為伴隨查詢量突增。典型案例如下:2015年3月某銀行違規(guī)查詢了3.2萬份個人信用報告。從該用戶的歷史查詢軌跡來看,原本平穩(wěn)的查詢頻率在事發(fā)月份出現(xiàn)了異常突增,足以引起高度關注。類似的情況在多個案例中反復出現(xiàn)。因此,本次數(shù)據(jù)挖掘的目標定位為對用戶月查詢量進行預測,通過比對預測查詢量與實際查詢量的差異,判別用戶的異常風險。
3.2 質量檢查
檢查查詢記錄的各字段值是否符合業(yè)務邏輯,并清理臟數(shù)據(jù),保證后續(xù)的數(shù)據(jù)分析得出可靠的結論。
3.3 數(shù)據(jù)準備
本次數(shù)據(jù)挖掘的樣本選用個人征信系統(tǒng)最新36個月全部查詢記錄,樣本數(shù)為9.0億條。經(jīng)過數(shù)據(jù)預處理后,按月統(tǒng)計每個用戶的查詢總量,并形成查詢量矩陣R。
查詢量矩陣R共有m個月度觀察點,n個查詢用戶,其中,aij(1≤i≤n,1≤j≤m)表示第i個用戶在第j個月份的查詢量。
3.4 數(shù)據(jù)分析
月查詢量矩陣是一個稀疏矩陣,矩陣內(nèi)存在大量為0的值,表明只有少量用戶連續(xù)每個月都有查詢,而大量用戶的查詢是時斷時續(xù)的,因此有必要對查詢連續(xù)性進行進一步的分析。
(1)查詢休眠時長分析
分析用戶最后一次查詢距離當前日期的天數(shù),定義為當前休眠天數(shù)T,統(tǒng)計結果顯示:average(T)=197天,min(T)=0天,max(T)=973天。
表1 不同休眠天數(shù)用戶數(shù)占比
結合表1與圖1可以看出,50%和65%為突變點,T≤84天的用戶達到50%,T≤369天的用戶達65%。也就是說,最近3個月內(nèi),50%的用戶至少發(fā)生過一次查詢;最近12個月內(nèi),65%的用戶至少發(fā)生過一次查詢。
(2)休眠重啟行為分析
用戶休眠后又重新查詢的行為特征是什么呢?以月為單位來計量,用戶在自表2。
隨著休眠時間增長,重啟查詢的可能性越來越低。為了驗證結果的穩(wěn)定性,依次對每個月的數(shù)據(jù)進行滾動分析,見表3和然月內(nèi)有查詢行為即為當月活躍,否則為休眠。滾動一個月后繼續(xù)觀察用戶的活躍狀態(tài)。由此分析正常用戶的休眠、重啟特征。
以2015年9月份的數(shù)據(jù)為例,當前活躍用戶6.7萬,占比42%。在2015年10月份,上個月6.7萬活躍用戶中,93%的用戶繼續(xù)活躍,剩余7%變成休眠1個月用戶。2015年9月份休眠1個月用戶0.4萬,占比3%。在2015年10月份,這0.4萬用戶中,42%的用戶又有了查詢,再次活躍起來,剩余58%的用戶由休眠1個月用戶變成休眠2個月用戶,具體見圖2。
圖1 用戶休眠天數(shù)頻度分析
表2 用戶活躍數(shù)據(jù)
由圖2可以看出,3個月、6個月也是與查詢行為高度相關的特征值。休眠3個月的用戶再次活躍的比例≤11%,休眠6個月的用戶再次活躍的比例≤6%并趨于平穩(wěn)。
表3 活躍率滾動數(shù)據(jù)
圖2 當前用戶一個月后重啟查詢的平均占比
3.5 模型建立
3.5.1 根據(jù)用戶特征分組
查詢矩陣中存在大量缺失值,建模前需對缺失值進行補充。為了能用最恰當?shù)闹笛a充,需要對用戶按照查詢特征進行分組。
根據(jù)上文用戶查詢特征數(shù)據(jù)分析結果,將用戶活躍狀態(tài)分為六大類,分別是活躍無斷點、活躍有斷點、新開用戶、次新用戶、當前休眠用戶和歷史休眠用戶,具體見表4。
3.5.2 用戶月查詢量缺失值補充
以上六大類特征用戶,其查詢量缺失值補充規(guī)則見表5。
3.5.3 根據(jù)波動特征構建模型
原則上,用戶的查詢需求受其所屬機構查詢需求的影響,并保持相同趨勢。用戶所屬機構分為十二大類,分別為:中國人民銀行、全國性商業(yè)銀行、城市商業(yè)銀行、農(nóng)村信用合作社、城市信用合作社、村鎮(zhèn)銀行、政策性銀行、公積金管理中心、財務公司、汽車金融公司、外資銀行、小額貸款公司。
表4 用戶活躍狀態(tài)分類
表5 補充缺失值的規(guī)則
十二大類的機構呈現(xiàn)出4種不同的波動趨勢,分別為平穩(wěn)型、增長型、小幅跳躍型和周期跳躍型。因此,對用戶的建模算法也遵循以上4類,其對應的預測算法見表6。
隨著互聯(lián)網(wǎng)的快速發(fā)展及“互聯(lián)網(wǎng)+”時代的到來,傳統(tǒng)的思想政治教育方式已經(jīng)不再適應大學生群體,高校思想政治教育需要探索“互聯(lián)網(wǎng)+”背景下大學生工作的新途徑、新方法。因此,思想政治教育工作必須創(chuàng)新內(nèi)容與形式,適應網(wǎng)絡化的發(fā)展。緊跟技術進步與話語情境的變化,將工作延伸到虛擬世界,充分發(fā)揮網(wǎng)絡信息技術的優(yōu)勢。積極促進融合發(fā)展,用傳統(tǒng)優(yōu)勢與信息技術協(xié)力推動思想政治教育工作。
3.5.4 預測用戶月查詢量
用修正過的用戶查詢數(shù)據(jù),根據(jù)用戶所屬組別選擇預測模型,預測其月度查詢峰值。
(1)平穩(wěn)型
此類機構查詢量每月基本穩(wěn)定,使用簡單平均算法來預測下個月的查詢量,其計算式為:
其中,Xi(i=0,…,23)表示用戶最近24個月的實際查詢量;表示下一個月的月度預測值;N為調整系數(shù);Std為24個月查詢量的標準差。
(2)增長型
此類機構每月增長趨勢明顯,采用月度差分加權移動平均算法,其計算式為:
其中,Xi(i=0,…,23)表示用戶最近24個月實際查詢量;表示下一個月的月度預測值;Δi(i=0,…,22)表示每個月與上個月查詢量的差值;N為調整系數(shù);Std為24個月查詢量的標準差;R表示指數(shù)權重,取值范圍為(0,1)。
指數(shù)權重R的取值規(guī)則為:
其中,m為增長型用戶總數(shù);Xi24表示第i個用戶預測值;Xij表示第i個用戶第j個月實際查詢值;r=0.01,0.02,0.03,…,0.99,每次共計算99次;R的值是min(W)對應的r。
(3)小幅跳躍型
此類機構每月的查詢量有一定的波動,但變化幅度很小,采用指數(shù)加權移動平均算法,其計算式為:
表6 查詢量波動特征及對應預測算法
i=0
其中,Xi(i=0,…,23)表示用戶最近24個月實際查詢量;表示下一個月的月度預測值;N為調整系數(shù);Std為24個月查詢量的標準差;R表示指數(shù)權重,取值范圍為(0,1)。
指數(shù)權重R的取值規(guī)則為:
0.03 , …,0.99,每次共計算99次;R的值是min(W)所對應的r。
(4)周期跳躍型
此類機構查詢量波動有很強的周期性特征,采用年度差分方法,其計算式為:
其中,Xi(i=0,…,35)表示用戶最近36個月實際查詢量;表示下一個月的月度預測值;N為調整系數(shù);Std為36個月實際查詢量的標準差。
3.5.5 預測用戶日查詢峰值
月查詢量預測即模型的結果,但為了滿足實時監(jiān)測的需要,需要將月度預測值推算至日預測峰值,具體計算式為:
其中,Xi(i=0,…,23)表示用戶最近24個表示下一個月的月度預測值;di為每個月的日查詢峰值;表示月的實際查詢量;下一個月預測的日查詢峰值。
3.6 模型驗證
利用相對誤差及泰勒不等系數(shù),對4種模型進行驗證,具體見表7。結果表明,該模型應用于個人查詢量預測是可行的。如平穩(wěn)型模型相對誤差的最大值、次大值和最小值分別為23.71%、23.47%、0.65%,平均精度為84.45%,泰勒不等系數(shù)為0.085,模型效果很好。
泰勒不等系數(shù)計算式為:
泰勒不等系數(shù)的值在0和1之間,當泰勒不等系數(shù)等于0時,是最優(yōu)擬合。
平均相對誤差計算式為:
表7 模型驗證結果
該模型針對每個用戶可以得到2個預測值:一個是月度預測值另一個是日查詢峰值
圖3 某用戶最近24個月查詢量趨勢
為了實現(xiàn)實時監(jiān)測的目標,系統(tǒng)每隔5 min從生產(chǎn)環(huán)境中提取查詢記錄,每次取數(shù)耗時4 s。然后按用戶分別統(tǒng)計當月實際累計查詢量Y和當日實際累計查詢量e。監(jiān)測結果W的計算式為:
一旦W=true,系統(tǒng)自動告警,表示查詢異常,并立馬阻斷該用戶查詢操作。
該數(shù)據(jù)挖掘模型部署至個人征信系統(tǒng),從上線兩個月的監(jiān)測結果來看,共發(fā)現(xiàn)1 182筆異常查詢行為。經(jīng)過業(yè)務核查,確認存在違規(guī)查詢。案例如下:該模型監(jiān)測發(fā)現(xiàn)2016年2月份,XX中心支行某用戶當月查詢預測值為2 350次,而實際查詢量為8 563次,查詢異常,經(jīng)核實確系違規(guī)操作,如圖3所示。
本文結合前期業(yè)務驅動的監(jiān)測結果及已掌握的異常查詢案例,通過數(shù)據(jù)挖掘技術,從海量查詢記錄中,分析查詢用戶的行為模式,并歸納出平穩(wěn)型、增長型、小幅跳躍型、周期跳躍型4種異常查詢實時監(jiān)測模型。經(jīng)檢驗,該模型能快速準確地定位異常查詢行為,從而更好地保護信息安全,同時,該模型成功上線后,對個人征信系統(tǒng)的違規(guī)查詢行為產(chǎn)生威懾作用,倒逼查詢機構加強內(nèi)部管理,合法使用信用信息,以保障信息主體的權益,促進征信市場健康發(fā)展。
致謝
中國人民銀行征信中心數(shù)據(jù)部高健、鄧林慧、李狀君、徐方林等同事對本研究工作給予了大量幫助,特此感謝。
[1] HAN J, KAMBER M. Data mining concepts and techniques[M]. Translated by FAN M, MENG X F. Beijing: China Machine Press, 2012.
[2] PANG-NING T, STEINBACH M, KUMAR V. Introduction to data mining[M]. Translated by FAN M, FAN H J. Beijing: Posts & Telecom Press, 2011.
[3] 中華人民共和國國務院. 征信業(yè)管理條例[M].北京: 中國法制出版社, 2013.The State Council of the People’s Republic of China. Credit reporting industry regulations[M]. Beijing: China Legal Publishing House, 2013.
[4] 汪路. 論征信的本質及其主要特征[J]. 西部金融, 2010(6): 60-62. WANG L. On the essence and mainfeatures of credit reference [J]. West China Finance, 2010(6): 60-62.
Real-time data-mining-based anomaly
inquiry monitoring model of personal credit reference system and it's application
YAO Qian, XIE Huamei, JING Zhigang, HU Qingqing, SI Enzhe
Credit Reference Center, the People’s Bank of China, Beijing 100031, China
The data selected contained 900 million query records in the latest 36 months from the personal credit reference system database. The model was subdivided according to different volatility characteristics of each user’s query behavior, and four types of real-time anomaly inquiry monitoring models were discussed and developed. Results indicate that the anomaly inquiry monitoring model is feasible to apply on predicting anomaly query behaviors and showed positive effects. The successful application and constant perfection of the model would definitely exert deterrent effect on illegal query behaviors, force commercial banks to strengthen internal management, protect individual’s private information and right, and promote the healthy development of the credit reference market.
data mining, personal credit reference system, anomaly inquiry, illegal inquiry, real-time monitoring
TP399
A
10.11959/j.issn.2096-0271.2016044
姚前(1970-),男,中國人民銀行征信中心副主任、高級工程師,主要研究方向為分布式系統(tǒng)和計算機安全。
謝華美(1976-),男,中國人民銀行征信中心數(shù)據(jù)部副總經(jīng)理,主要研究方向為數(shù)據(jù)挖掘。
景志剛(1977-),男,現(xiàn)就職于中國人民銀行征信中心數(shù)據(jù)部,主要研究方向為數(shù)據(jù)挖掘。
胡青青(1984-),女,現(xiàn)就職于中國人民銀行征信中心數(shù)據(jù)部,主要研究方向為數(shù)據(jù)挖掘。
司恩哲(1985-),男,現(xiàn)就職于中國人民銀行征信中心數(shù)據(jù)部,主要研究方向為數(shù)據(jù)挖掘。
2016-02-17