鐵 錦 程
(上海浦東發(fā)展銀行 上海 200120)
風險控制是信用卡業(yè)務(wù)發(fā)展的核心,隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,大數(shù)據(jù)風控研究成為各金融機構(gòu)的研究熱點。大數(shù)據(jù)風控以數(shù)據(jù)驅(qū)動風險決策,全面挖掘數(shù)據(jù)價值,提升客戶風險識別能力,對數(shù)據(jù)、算法、算力有較高的要求。隨著數(shù)據(jù)爆炸式增長,對算力、算法的要求越來越高,而摩爾定律趨于失效又使經(jīng)典計算的算力難以突破,計算資源的限制成為大數(shù)據(jù)技術(shù)持續(xù)深入應(yīng)用的瓶頸[1-2]。量子計算在特定場景下具有遠超經(jīng)典計算機的計算能力[3]。各金融機構(gòu)都在積極探索量子計算在數(shù)字化轉(zhuǎn)型中的應(yīng)用,以求在新時代搶占新的競爭制高點。
量子計算以量子比特為基本單元,可實現(xiàn)并行計算、指數(shù)級計算加速,能夠為金融領(lǐng)域的數(shù)字化轉(zhuǎn)型提供新的解決方案。近來量子計算發(fā)展火熱,2020年10月16日下午,中共中央政治局就量子科技研究和應(yīng)用前景舉行第二十四次集體學習。習近平總書記在主持學習時強調(diào):“當今世界正經(jīng)歷百年未有之大變局,科技創(chuàng)新是其中一個關(guān)鍵變量。我們要于危機中育先機,于變局中開新局,必須向科技創(chuàng)新要答案。要充分認識推動量子科技發(fā)展的重要性和緊迫性,加強量子科技發(fā)展戰(zhàn)略謀劃和系統(tǒng)布局,把握大趨勢,下好先手棋?!?021年3月《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》提出“打造數(shù)字經(jīng)濟新優(yōu)勢”“加快布局量子計算、量子通信、神經(jīng)芯片、DNA存儲等前沿技術(shù)”。2022年10月4日,阿蘭·阿斯佩、約翰·克勞澤和安東·塞林格三位量子信息科學領(lǐng)域的科學家獲得了2022年諾貝爾物理學獎,使量子計算受到社會各界的矚目,標志著量子計算已進入各領(lǐng)域開展應(yīng)用探索。
本文研究量子算法與經(jīng)典計算機算法相融合的方法,提升貸前審批決策組合優(yōu)化問題的計算性能,探索量子計算解決實際金融業(yè)務(wù)的新方法,為量子計算大規(guī)模應(yīng)用于金融業(yè)務(wù)積累經(jīng)驗。通過Grover自適應(yīng)搜索算法,優(yōu)化“群內(nèi)同質(zhì)、群間異構(gòu)”客群篩選方法,通過超啟發(fā)算法和量子貝葉斯網(wǎng)絡(luò)相結(jié)合,優(yōu)化客群組合優(yōu)化的方法?;?0 bit超導量子真機完成驗證,計算性能提升明顯。同時,經(jīng)典-量子融合算法擴大策略搜索空間,提升業(yè)務(wù)效果。
量子計算以量子比特為基本單元,利用量子疊加、量子糾纏等基本原理,可實現(xiàn)并行計算、指數(shù)級計算加速。同時量子計算具有天然的矩陣操作特性,能夠提供新的計算方式,將有助于增強模型的計算效能,開拓新的算法領(lǐng)域。近年來,在量子計算軟硬件方面的研究也取得了突破:2019年1月,IBM發(fā)布了世界上第一臺獨立的量子計算機IBMQSystemOne。2019年10月,谷歌發(fā)布53位量子芯片“懸鈴木”,宣稱“量子霸權(quán)”。2020年—2021年,中科大成功構(gòu)建76個光子的量子計算原型機“九章”和62 bit可編程超導量子計算原型機“祖沖之號”。2021年12月,IBM發(fā)布128個量子比特的超導量子計算機“Eagle”。2022年11月9日,IBM發(fā)布433 bit量子計算機魚鷹“Osprey”。
金融行業(yè)是量子計算較早取得應(yīng)用進展的領(lǐng)域,當前已處于實用化優(yōu)勢探索階段[4]。量子金融涉及銀行、券商、保險公司、交易所等主要金融參與機構(gòu),涵蓋金融風險控制、投資優(yōu)化組合、金融衍生品定價、量化交易等在內(nèi)的重要應(yīng)用領(lǐng)域,在許多實際問題上取得了重要的理論和算法研究進展[5]。
當前,國內(nèi)多家銀行也已布局量子計算研究應(yīng)用,以提升銀行智能金融服務(wù)的數(shù)字化水平和響應(yīng)速度。工商銀行于2015年起率先實現(xiàn)基于量子通信技術(shù)的同城和異地數(shù)據(jù)加密傳輸,并在電子檔案、網(wǎng)上銀行等領(lǐng)域落地試點。建信金科建立了量子金融應(yīng)用實驗室,研究量子金融算法,如“量子期權(quán)定價算法”和“量子風險價值計量算法”,并探索量子金融的應(yīng)用落地。華夏銀行[6]將量子神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于ATM機具管理的智能決策問題上,獲得人民銀行“2020年金融科技發(fā)展獎一等獎”。
信用卡貸前審批是指綜合運用各方面數(shù)據(jù),決定客戶是否準入以及如何授信。為了提高風險識別能力,確保在可容忍的風險水平下,盡可能多地獲客,通常需要利用豐富的數(shù)據(jù),結(jié)合評分模型、客戶分群等手段,實現(xiàn)客戶風險分層、分群識別、差異化準入。
本文探索基于數(shù)據(jù)驅(qū)動和智能算法來優(yōu)化審批決策。主要分為三個步驟:(1) 通過風險評分模型確定客戶風險標尺,確定客戶風險分層,完成客戶風險第一層篩選;(2) 根據(jù)客戶各方面的特征,通過隨機森林算法將剩余客戶分為近萬個風險同質(zhì)小客群;(3) 通過對近萬個小客群進行篩選、組合、測算,確??腿骸叭簝?nèi)同質(zhì)、群間異構(gòu)”,并獲取審批率最高、逾期率最低的組合最優(yōu)解,以達到風控要求和獲客預期。流程如圖1所示。
圖1 最優(yōu)策略組合生成流程
目標函數(shù):
審批率:X=φ(S_i,S_j,L_i,L_j)
逾期率:Y=ω(S_i,S_j,L_i,L_j)
max[φ(S_i,S_j,L_i,L_j)-ω(S_i,S_j,L_i,L_j)]
高低風險評分閾值:(S_i=,S_j=)
高低風險客群規(guī)則集:(L_i={},L_j={})
限制條件:
X≥目標審批率,Y≤目標逾期率
s.t. 0 L_i?(L_1,L_2,…,L_n) L_j?(L_1,L_2,…,L_n) 函數(shù)說明: φ(S_i,S_j,L_i,L_j):以高低風險評分閾值和高低風險規(guī)則集為變量,求解相應(yīng)客群審批率的函數(shù)。 ω(S_i,S_j,L_i,L_j):以高低風險評分閾值和高低風險規(guī)則集為變量,求解相應(yīng)客群逾期率的函數(shù)。 1) 客群“群內(nèi)同質(zhì)”:低風險客群:盡量都是優(yōu)質(zhì)客戶(審批率高、逾期率低),該客群用戶的審批結(jié)果傾向于“通過審批”;高風險客群:盡量都是高風險客戶(逾期率高、審批率低),該客群用戶的審批結(jié)果傾向于“拒絕審批”。 2) 客群“群間異構(gòu)”:兩個審批策略對應(yīng)的客群重疊人數(shù)少(重疊率=兩客群交集人數(shù)/兩客群并集人數(shù))。 隨著數(shù)據(jù)量的爆炸式增長,客戶各方面的數(shù)據(jù)急劇增多,該方法能夠更充分利用客戶隱藏的、稀疏的數(shù)據(jù),有利于應(yīng)對快速變化的風險形勢。但是,對客群規(guī)則進行篩選、組合、測算,涉及大量計算,對算力要求極高,傳統(tǒng)計算方法難以實現(xiàn)。 信用卡審批策略的組合優(yōu)化問題需要決策是否選取每一個策略,即每個策略對應(yīng)一個0-1決策變量,即選取或不選取。因此該問題的解空間就是全部0-1變量的所有組合。每種不同的決策組合都會得到一個目標函數(shù)值,這個目標函數(shù)就是優(yōu)化的對象。 使用常規(guī)統(tǒng)計方法篩選信用卡審批策略只能根據(jù)該策略對應(yīng)客群的審批率與逾期率表現(xiàn)進行判斷,即目標函數(shù)為線性函數(shù)。根據(jù)信用卡審批策略的篩選經(jīng)驗,常規(guī)統(tǒng)計方法只能剔除60%的無效策略,無法直接剔除相似度高的策略。 當目標函數(shù)考慮總體策略相似度時,該目標函數(shù)變?yōu)橐粋€二次函數(shù),則該問題性質(zhì)變?yōu)槎螣o約束二進制優(yōu)化問題(QUBO),QUBO問題是一個NP-hard問題,隨著策略數(shù)量的增多,計算所需時間呈指數(shù)級上升[7]。例如從1 000個策略中進行篩選,最多需要迭代計算21 000次,所需計算量大,計算時間長。 針對信用卡審批策略組合優(yōu)化的難點,本文提出綜合利用機器學習算法、運籌優(yōu)化算法、量子計算與量子算法的解決方案。其中:機器學習算法用于劃分出大量風險同質(zhì)細分客群;運籌優(yōu)化算法用于來快速尋找最佳的客群組合方案,并快速求解得到符合整體業(yè)務(wù)目標的客群組合;量子計算用于提升客群組合逾期率和審核率的測算速度,從而提升整體優(yōu)化算法的計算時間,在更短時間內(nèi)找到更好的組合方案。 主要步驟如圖2所示。 圖2 基于量子計算的貸前審批策略組合優(yōu)化方案 利用客戶基本信息、收入、職業(yè)、共債、履約等信息,建立隨機森林模型,將樹模型轉(zhuǎn)化成客戶分群規(guī)則,將客戶劃分為極細的風險同質(zhì)客群。隨機森林中決策樹的數(shù)量大,因此能夠生成數(shù)萬條分群規(guī)則,大大提升客群的數(shù)量與精細化程度,從而充分利用多個小客群的長尾效應(yīng),對客戶進行更全面的風險識別。 隨機森林產(chǎn)出的大量分群規(guī)則需要按照確保客群“群內(nèi)同質(zhì)、群間異構(gòu)”原則進行篩選,一方面需要保證對應(yīng)客群內(nèi)的審批率高或逾期率高,另一方面需要減少不同客群規(guī)則之間的相似程度[8]。 GAS算法步驟示意圖如圖3所示,該算法迭代地應(yīng)用Grover Search來找到目標函數(shù)的最佳值,通過使用前一次運行中的已知最優(yōu)值作為閾值。GAS算法中使用自適應(yīng)預言機,識別所有高于或低于當前閾值的值(分別為最大值和最小值),每次迭代閾值更新時都會減小搜索空間的大小,直到找到最優(yōu)值。 圖3 GAS算法步驟示意圖 針對客群組合的可能性多的難點,本文不會遍歷所有的規(guī)則組合可能性,而是采用超啟發(fā)式優(yōu)化算法、進行優(yōu)化計算。超啟發(fā)式優(yōu)化算法是一種具有頂層策略的啟發(fā)式優(yōu)化算法,能夠識別不同階段的優(yōu)化計算瓶頸,從而調(diào)用不同的、有針對性的優(yōu)化算法,最終快速、高效地找到最優(yōu)的規(guī)則組合。 本文方案的模型框架如圖4所示。 圖4 混合量子-經(jīng)典優(yōu)化算法框架 基本思路:采用混合量子-經(jīng)典算法,作為求解優(yōu)化問題的算法架構(gòu),在借助經(jīng)典計算機力量的同時,盡可能發(fā)揮量子計算機的能力去解決具體優(yōu)化問題。經(jīng)典計算部分的作用主要有兩方面:(1) 用于串聯(lián)業(yè)務(wù)數(shù)據(jù)與量子算法、記錄最優(yōu)結(jié)果、確定優(yōu)化路徑、識別最優(yōu)規(guī)則組合;(2) 串聯(lián)量子算法與經(jīng)典運籌算法的輸入和輸出,形成經(jīng)典算法與量子算法閉環(huán)回路,并結(jié)合經(jīng)典運籌算法,利用量子算法的輸出數(shù)據(jù),對業(yè)務(wù)場景問題進行優(yōu)化求解。 主要步驟有:(1) 制定超啟發(fā)式算法策略,超啟發(fā)式算法提供了某種高層策略(High-Level Strategy,HLS),通過操縱或管理一組低層啟發(fā)式算法(Low-Level Heuristics,LLH)[10],以獲得新啟發(fā)式算法。(2) 量子數(shù)據(jù)轉(zhuǎn)換,使用變分嵌入方法將組合數(shù)據(jù)轉(zhuǎn)化為量子數(shù)據(jù),將經(jīng)典數(shù)據(jù)作為量子線路的參數(shù),將數(shù)據(jù)歸一化處理到[0,π/2]區(qū)間,再作為量子線路的部分參數(shù)進行量子寫入,使用固定的變分線路編碼數(shù)據(jù)。(3) 利用量子貝葉斯網(wǎng)絡(luò)計算關(guān)鍵指標(逾期率和審批率)。通過業(yè)務(wù)目標確定具體目標函數(shù),并通過設(shè)計數(shù)學中的等價變化,調(diào)整目標函數(shù)形式,保證函數(shù)的可以在量子計算機上通過測量高效計算[7,11]。(4) 對比不同迭代結(jié)果所對應(yīng)的指標值,保留更優(yōu)客群組合,最終獲取審批策略的近似最優(yōu)組合。 從線下客戶申請的歷史數(shù)據(jù)中抽樣,形成客群組合樣本及該樣本對應(yīng)的審批率與逾期率,樣本數(shù)量共有20萬條。原始歷史數(shù)據(jù)共包含509 095條客戶樣本數(shù)據(jù),其中386 997條樣本為審批通過樣本,審批通過的樣本中包含294條逾期樣本。基于22 bit超導量子計算機完成量子計算實驗。 通過使用歷史數(shù)據(jù)訓練隨機森林模型,并將隨機森林中的多決策樹拆解為客群規(guī)則,共生成超過10 000個風險同質(zhì)客群。 在量子真機的輔助下,規(guī)則篩選速度呈指數(shù)級大幅提升。在20 bit量子真機下,僅需1 253次即可完成有效規(guī)則篩選,而經(jīng)典計算需要220次搜索。 4.3.1貝葉斯網(wǎng)絡(luò)訓練 根據(jù)篩選規(guī)則組合的可能性進行抽樣,對每種可能性對應(yīng)的客群審批率與逾期率進行統(tǒng)計,得到20萬條數(shù)據(jù)。使用該數(shù)據(jù)集訓練貝葉斯網(wǎng)絡(luò),學習每個節(jié)點的概率分布,同時開發(fā)量子態(tài)的概率幅與概率幅進行加減乘除運算的量子電路。表1為訓練樣本示例。 表1 貝葉斯網(wǎng)絡(luò)訓練樣本數(shù)據(jù) 4.3.2量子貝葉斯網(wǎng)絡(luò)構(gòu)建 圖5展示了最終搭建的量子貝葉斯網(wǎng)絡(luò)電子線路的4個節(jié)點。 圖5 量子貝葉斯網(wǎng)絡(luò)電路 4.3.3量子貝葉斯網(wǎng)絡(luò)拓展 由于目前量子真機僅支持20 bit,而本文研究最終需要使用的規(guī)則數(shù)高達180條,故需要將貝葉斯網(wǎng)絡(luò)進行拓展。拓展思路如下:將180個節(jié)點的量子貝葉斯網(wǎng)絡(luò),切分為若干個子網(wǎng)絡(luò),每個子網(wǎng)絡(luò)的節(jié)點數(shù)量控制在20個之內(nèi),利用量子真機單獨計算每個子網(wǎng)絡(luò);然后將每個子網(wǎng)絡(luò)輸出的結(jié)果作為虛擬節(jié)點,即中間概率;最后將這些虛擬節(jié)點和“審批率”“逾期率”作為最終的結(jié)果網(wǎng)絡(luò),從而進行最終的計算。圖6為貝葉斯網(wǎng)絡(luò)拆分的示意圖,該拓展方案的目標是在盡可能保證180節(jié)點的模型效果的前提下,盡最大可能發(fā)揮量子真機優(yōu)勢。 圖6 貝葉斯網(wǎng)絡(luò)拆分示意圖 4.3.4量子貝葉斯算法效果 在20個客群(量子貝葉斯子網(wǎng)絡(luò))下,以全局遍歷算法為基準,量子貝葉斯算法準確率達到了99.5%。 基于20 bit超導量子計算機,對客群數(shù)量為20和180個分別進行驗證,如表2、表3所示,最終得到的審批率、逾期率與傳統(tǒng)方法的對比??梢钥吹皆陲L險降低的情況下,實現(xiàn)了審批率的提升。規(guī)則數(shù)越多,效果提升越明顯,預估隨著量子計算機bit位越來越高,時間性能和業(yè)務(wù)效果增益將更加明顯。 表2 20個客群的效果對比 表3 180個客群的效果對比 量子計算機與量子算法憑借獨有的優(yōu)勢在金融行業(yè)的各領(lǐng)域展現(xiàn)出巨大的應(yīng)用前景。本文引入量子貝葉斯網(wǎng)絡(luò)能夠支持更多節(jié)點的大規(guī)模網(wǎng)絡(luò)模型,而且能夠充分發(fā)揮量子計算并行計算的優(yōu)勢。研究量子算法和經(jīng)典計算機算法相結(jié)合的混合算法,探索出一條量子計算機應(yīng)用于金融業(yè)務(wù)場景的有效路徑?;?0 bit超導量子計算機,完成優(yōu)化方法的效果驗證,提升計算性能,實現(xiàn)審批率的提升和逾期率的下降,達到了預期的目的。通過實踐證明量子計算在金融業(yè)務(wù)有較好的應(yīng)用前景,值得深入研究和應(yīng)用。 受限于當前量子比特數(shù)目有限,本文研究的混合算法暫時難以處理成千上萬級別的客群組合優(yōu)化。然而,隨著量子計算機的快速發(fā)展、量子比特數(shù)的不斷增加,本文方法將進一步在信用卡等金融領(lǐng)域的各組合優(yōu)化場景相結(jié)合,為金融機構(gòu)在價值分析、風險防控等方面提供更高效的解決方案。2.2 面臨的難點分析
3 基于量子計算的貸前審批決策方案
3.1 隨機森林產(chǎn)出分群規(guī)則
3.2 分群規(guī)則初篩
3.3 尋找近似最優(yōu)客群組合
4 基于量子計算的審批決策驗證分析
4.1 隨機森林生成規(guī)則效果
4.2 GAS規(guī)則篩選效果
4.3 量子貝葉斯效果
4.4 整體方案優(yōu)化效果
5 結(jié) 語