文 凱,馬 寅,王 鵬,朱德立
(1.北京玻色量子科技有限公司,北京 100016;2.光大科技有限公司,北京 100083)
目前,量子計(jì)算是未來(lái)的計(jì)算發(fā)展趨勢(shì),全球各主要研究機(jī)構(gòu)和公司選用不同的物理方案來(lái)制造量子計(jì)算機(jī),主流的技術(shù)路線包括超導(dǎo)量子計(jì)算、光量子計(jì)算等。超導(dǎo)量子計(jì)算系統(tǒng)對(duì)環(huán)境要求苛刻,要求在絕對(duì)零度附近的超低溫下才能工作;光量子計(jì)算其原理是使用光量子的疊加態(tài)對(duì)組合優(yōu)化問(wèn)題進(jìn)行指數(shù)級(jí)求解加速。基于光量子系統(tǒng)的相干伊辛計(jì)算架構(gòu)(Coherent Ising Machine,CIM)[1],具有光量子常溫下編碼操控和其在相干時(shí)間、室溫工作、全聯(lián)接等方面的技術(shù)優(yōu)勢(shì)。目前,國(guó)內(nèi)北京玻色量子科技有限公司等企業(yè),已完成第一臺(tái)全國(guó)產(chǎn)光量子計(jì)算原型機(jī)的設(shè)計(jì)制造。
CIM可以充分利用光量子常溫下編碼操控的技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)100~100 000量子比特的量子計(jì)算的有效應(yīng)用和算法優(yōu)越性驗(yàn)證[2],并且可以廣泛地應(yīng)用于生物制藥、交通、人工智能[3-7]等領(lǐng)域。在金融風(fēng)控領(lǐng)域,特別是在信貸業(yè)務(wù)場(chǎng)景下,需要利用客戶(hù)多維度的特征,對(duì)客戶(hù)未來(lái)的違約行為做出預(yù)測(cè),從而進(jìn)行風(fēng)險(xiǎn)控制決策。因此好的風(fēng)控評(píng)估模型能為銀行風(fēng)控業(yè)務(wù)提供從資產(chǎn)負(fù)債、信用風(fēng)險(xiǎn)、反欺詐、反洗錢(qián)等全方位完整的風(fēng)險(xiǎn)控制方案。在建立風(fēng)控模型的過(guò)程中,隨著大數(shù)據(jù)時(shí)代的到來(lái),客戶(hù)數(shù)據(jù)維度呈指數(shù)型增長(zhǎng),傳統(tǒng)的特征篩選方法需要人工經(jīng)驗(yàn)的參與,對(duì)大維度數(shù)據(jù)的處理顯得較為吃力,亟需創(chuàng)新式的解決方案。量子計(jì)算作為超強(qiáng)算力的代表,在此領(lǐng)域擁有極大的潛力。
在信用評(píng)分的建模場(chǎng)景中[8],特征選擇在整個(gè)過(guò)程起著至關(guān)重要的作用,通過(guò)篩選后續(xù)入模的特征從而提高模型的準(zhǔn)確率和效率,并具有更好的泛化能力。尤其是在特征數(shù)較大時(shí),不同特征的選擇將決定最后信用評(píng)分模型的整體效果。本文將采用傳統(tǒng)信用評(píng)分的建模邏輯,對(duì)于特征篩選這一環(huán)節(jié),采用量子計(jì)算的方式進(jìn)行優(yōu)化,從而對(duì)整體模型效果進(jìn)行提升(并與傳統(tǒng)方式的特征選擇進(jìn)行對(duì)比)。通過(guò)建立相應(yīng)的二次無(wú)約束二值優(yōu)化(Quadratic Unbounded Binary Optimization,QUBO)[9]模型來(lái)實(shí)現(xiàn)特征選擇,該模型理想情況下選擇既獨(dú)立又有影響力的特征。此次研究主要通過(guò)量子計(jì)算解決QUBO模型來(lái)實(shí)現(xiàn)特征選擇,相比傳統(tǒng)信用評(píng)分的特征選擇,在不犧牲準(zhǔn)確率的前提下,量子計(jì)算效率更高而且人工干擾更少,并在特征數(shù)很大時(shí),解決了人工篩選難度大的問(wèn)題。
本文采用的數(shù)據(jù)是德國(guó)信用數(shù)據(jù),其中包括20個(gè)特征(7個(gè)數(shù)字特征,13個(gè)分類(lèi)特征)和1個(gè)二元分類(lèi)特征(良好信用或不良信用)。在此基礎(chǔ)上,本文采用了兩種數(shù)據(jù)預(yù)處理的方式。
方式A:將分類(lèi)特征進(jìn)行one-hot編碼[10],使得特征數(shù)增加為48個(gè);
方式B:采用傳統(tǒng)信用評(píng)分業(yè)務(wù)中的建模邏輯,對(duì)原始數(shù)據(jù)進(jìn)行WOE分箱處理,不改變?cè)械奶卣鲾?shù)。
將處理后的數(shù)據(jù)作為QUBO模型的輸入,用量子計(jì)算機(jī)求解QUBO模型,輸出選擇后的特征子集。
經(jīng)過(guò)預(yù)處理后,得到一個(gè)m行,n列的矩陣U,每一列代表一個(gè)特征,每一行表示信用申請(qǐng)人的相應(yīng)數(shù)據(jù)值。
歷史信用記錄表示為m個(gè)元素的向量V:
其中原始數(shù)據(jù)中代表信用credit的數(shù)據(jù)值(vi)為01變量,0表示接受,1表示拒絕信貸申請(qǐng)。
在建立QUBO模型時(shí),需要計(jì)算特征之間的相關(guān)性及每個(gè)特征對(duì)信用V的相關(guān)性,而實(shí)驗(yàn)A、B也采用了不同的處理方式:
實(shí)驗(yàn)A:用斯皮爾曼相關(guān)性計(jì)算方法
實(shí)驗(yàn)B:沿用斯皮爾曼相關(guān)性計(jì)算特征之間的相關(guān)性,用信息變量(Information Value,IV)值替換特征與信用數(shù)據(jù)之間的相關(guān)性。
特征選取作為一種數(shù)據(jù)預(yù)處理策略,已被證明可以適用在各種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)問(wèn)題上,且對(duì)最終模型效果起到顯著的作用。特征選擇的目標(biāo)包括構(gòu)建更簡(jiǎn)單、更容易理解的模型,提高數(shù)據(jù)挖掘性能,以及準(zhǔn)備干凈、可理解的數(shù)據(jù)。從方法論上講,為了強(qiáng)調(diào)傳統(tǒng)數(shù)據(jù)現(xiàn)有特征選擇算法的異同,一般分為四類(lèi)[11]:基于相關(guān)性[12]、基于信息理論[13]、基于稀疏學(xué)習(xí)和基于統(tǒng)計(jì)的方法[14]。本文主要討論了兩種特征選取策略:基于相關(guān)性的傳統(tǒng)特征選取;基于量子計(jì)算的特征選取。
假設(shè)從n個(gè)特征的原始集合中想要選擇具有m個(gè)特征的一個(gè)子集,用于做出信用決策。首先,通過(guò)IV值篩選掉對(duì)結(jié)果影響不大的冗余特征,在此基礎(chǔ)上選擇出相關(guān)性較高的特征對(duì)。
從數(shù)學(xué)上講,特征選取的目標(biāo)將是找到與向量V相關(guān),但彼此不相關(guān)的矩陣U的列。令ρij表示矩陣U的第i列與第j列的相關(guān)性,ρVj表示U的第j列與V的單列的相關(guān)性。為了找到“最佳”子集,本文引入了n個(gè)二進(jìn)制變量xj,它們具有如下數(shù)學(xué)含義:
將這些元素共同組成向量X,形如:
篩選最佳特征子集,求解最小化目標(biāo)函數(shù)對(duì)應(yīng)的X的值,目標(biāo)函數(shù)由兩部分組成:第一個(gè)部分表示特征對(duì)被標(biāo)記的類(lèi)的影響為:
第二個(gè)組成部分代表了獨(dú)立性為:
引入?yún)?shù)α(0≤α≤1)以表示獨(dú)立性(在α=0時(shí)最大)和影響性(在α=1時(shí)最大)的相對(duì)權(quán)重并得到如下的目標(biāo)函數(shù)為:
QUBO模型的數(shù)學(xué)表達(dá)式為:
其中xi為待求二進(jìn)制變量,取值為{0,1},qij為二次項(xiàng)系數(shù),為已知量,當(dāng)i=j時(shí),將簡(jiǎn) 化 為xi。將f(x)寫(xiě)成線性代數(shù)的形式:
通過(guò)CIM求解向量X*,從而得到篩選后的特征子集為:
固定超參數(shù)α的值后篩選的特征結(jié)果如下:
(1)超參數(shù)α的值為0.977時(shí),特征選擇從48個(gè)特征中得到的特征數(shù)量是24個(gè),使得模型的預(yù)測(cè)準(zhǔn)確率達(dá)到極大值。由于其中的分類(lèi)特征經(jīng)過(guò)one-hot編碼之后沒(méi)有直觀的意義,在此不再與傳統(tǒng)篩選的特征進(jìn)行比對(duì),只在后續(xù)的準(zhǔn)確率計(jì)算中進(jìn)行比對(duì)。
(2)超參數(shù)α的值為0.97時(shí),特征選擇從20個(gè)特征中選取12個(gè)特征,統(tǒng)手工篩選出13個(gè)特征,如表1所示。
表1 傳統(tǒng)篩選和量子篩選特征結(jié)果對(duì)比
信用評(píng)分模型的評(píng)估是通過(guò)未加權(quán)精度,即正確分類(lèi)的數(shù)量除以分類(lèi)的總數(shù),對(duì)訓(xùn)練集和測(cè)試集的預(yù)測(cè)結(jié)果進(jìn)行評(píng)分。
零規(guī)則:德國(guó)信用數(shù)據(jù)有700個(gè)0類(lèi)樣本(“良好信用”)和300個(gè)1類(lèi)樣本(“不良信用”)。因此,將所有樣本分配給0類(lèi)的“盲猜模型”將獲得70%的成功率。
本文希望量子特征選擇比零規(guī)則和隨機(jī)選擇的子集更好,結(jié)果可以媲美甚至超過(guò)傳統(tǒng)的特征選擇模型。在進(jìn)行特征選擇之前,首先確定邏輯回歸模型在整個(gè)特征集上的表現(xiàn),平均精度取決于數(shù)據(jù)被打亂的次數(shù),以及數(shù)據(jù)如何在訓(xùn)練集和測(cè)試集之間進(jìn)行分割。
選擇1 000次洗牌和20%的測(cè)試份額的組合作為初始性能比較的標(biāo)準(zhǔn)。其他研究表明在德國(guó)信用數(shù)據(jù)上使用傳統(tǒng)的特征選擇準(zhǔn)確性得分通常在70%~75%之間,標(biāo)準(zhǔn)差在5%左右。以下的實(shí)驗(yàn)結(jié)果均是基于1 000次洗牌和20%的測(cè)試份額的初始設(shè)置進(jìn)行,并且根據(jù)K-S、ROC以及LR評(píng)判模型判斷算法的好壞。
實(shí)驗(yàn)A:用one-hot編碼對(duì)原始數(shù)據(jù)處理后獲得的實(shí)驗(yàn)結(jié)果
圖1中,圖1(a)展示了K-S指標(biāo),其表示隨著樣本數(shù)(% of population)的增加,樣本數(shù)中好的百分比和壞的百分比之間的差值的最大值;圖1(b)展示了ROC曲線,陰影部分為AUC面積,代表了隨著FPR的增加TPR的變化,AUC越接近1越好。這兩個(gè)值經(jīng)常用來(lái)評(píng)判模型區(qū)分樣本好壞的程度。表2為具有48個(gè)特征的LR模型的準(zhǔn)確率,表3為不同的超參數(shù)進(jìn)行量子特征選擇的結(jié)果。
圖1 48個(gè)特征的LR模型的K-S和ROC
表2 具有48個(gè)特征的LR模型的準(zhǔn)確率
表3 不同的超參數(shù)進(jìn)行量子特征選擇的結(jié)果
不同的超參數(shù)進(jìn)行量子特征選擇的測(cè)試集結(jié)果如圖2所示,考慮α≥0.9,精度高于零規(guī)則結(jié)果,從圖2可以看到測(cè)試集的效果在α=0.98時(shí)達(dá)到較好的結(jié)果之后開(kāi)始下降。α=0.98時(shí)模型的K-S和ROC如圖3所示,α=0.98時(shí)進(jìn)行量子特征選擇后的模型準(zhǔn)確率如表4所示。
圖2 不同的超參數(shù)進(jìn)行量子特征選擇的測(cè)試集結(jié)果
圖3 α=0.98時(shí)模型的K-S和ROC
表4 α=0.98時(shí)進(jìn)行量子特征選擇后的模型準(zhǔn)確率
實(shí)驗(yàn)B:用WOE分箱策略預(yù)處理數(shù)據(jù),獲得的實(shí)驗(yàn)結(jié)果如圖4所示,全20個(gè)特征代入LR模型的模型準(zhǔn)確率如表5所示,不同的超參數(shù)進(jìn)行量子特征選擇的結(jié)果如表6所示。
圖4 全20個(gè)特征代入LR模型的K-S和ROC
表5 全20個(gè)特征代入LR模型的模型準(zhǔn)確率
表6 不同的超參數(shù)進(jìn)行量子特征選擇的結(jié)果
更進(jìn)一步得到α=0.98時(shí),測(cè)試集的結(jié)果表現(xiàn)令人滿意(如圖5所示),之后的精度增長(zhǎng)趨于平緩。將選擇的特征放入LR模型進(jìn)行訓(xùn)練,結(jié)果如圖6所示,20個(gè)特征用量子計(jì)算特征選擇之后的模型準(zhǔn)確率如表7所示。
表7 α=0.98時(shí)進(jìn)行量子特征選擇的結(jié)果
圖5 不同的超參數(shù)進(jìn)行量子特征選擇的結(jié)果
圖6 α=0.98時(shí)特征篩選后模型的K-S和ROC
在與傳統(tǒng)的特征篩選方式進(jìn)行對(duì)比后發(fā)現(xiàn),本文采用的WOE策略與傳統(tǒng)的one-hot編碼相比,結(jié)果展示更為直觀。通過(guò)量子計(jì)算方法篩選得到的特征與傳統(tǒng)方法篩選的特征相比差別極小,在不降低準(zhǔn)確率的情況下,基于量子計(jì)算的特征選取策略可以減少人為的參與,提高效率并降低對(duì)業(yè)務(wù)人員的依賴(lài),從而減少操作風(fēng)險(xiǎn)。而在K-S以及ROC這兩個(gè)評(píng)價(jià)模型中,量子計(jì)算策略是優(yōu)于傳統(tǒng)篩選策略;在LR評(píng)價(jià)模型中,量子計(jì)算策略和傳統(tǒng)篩選策略效果近似。本文展示了量子計(jì)算應(yīng)用于特征篩選該類(lèi)特定問(wèn)題上的可行性,尤其是面對(duì)特征數(shù)巨大的情況下,量子計(jì)算更顯優(yōu)勢(shì),其超越并替代傳統(tǒng)方法的潛力巨大。
隨著量子計(jì)算機(jī)和量子計(jì)算算法的發(fā)展,傳統(tǒng)業(yè)務(wù)中的一些難題將迎來(lái)新的技術(shù)解決方案,例如計(jì)算成本較大、傳統(tǒng)計(jì)算機(jī)的并行計(jì)算能力不高以及問(wèn)題最優(yōu)解優(yōu)化不夠等問(wèn)題,都可以通過(guò)量子計(jì)算來(lái)解決。將量子計(jì)算運(yùn)用到金融傳統(tǒng)業(yè)務(wù)場(chǎng)景中的特定問(wèn)題上,將是現(xiàn)階段重點(diǎn)探討和未來(lái)努力的方向。