張 耐,張晨亮,柳永翔,陳 聰,黃艷婷
(1.華東師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 200062;2.上海華鑫股份有限公司,上海 200032)
長久以來,金融領(lǐng)域發(fā)展與社會進(jìn)步息息相關(guān),諸如貿(mào)易、借貸、投資和金融風(fēng)險(xiǎn)管理等均是金融領(lǐng)域的重點(diǎn)研究對象。金融領(lǐng)域每天產(chǎn)生大量數(shù)據(jù),例如股票交易數(shù)據(jù)、用戶借貸數(shù)據(jù)等。如何從這些數(shù)據(jù)中自動(dòng)挖掘有價(jià)值信息,對于降低金融領(lǐng)域從業(yè)人員人力成本將有重大意義。人工智能技術(shù)的崛起為金融智能化的開展帶來了契機(jī)[1]。作為智能金融的重要體現(xiàn)之一,基于交易軟件的智能化交易在國內(nèi)金融市場方興未艾,越來越多的傳統(tǒng)投資模式在向智能化交易轉(zhuǎn)型,這其中既有資本市場快速發(fā)展的原因,也有金融科技蓬勃發(fā)展的強(qiáng)力助推。
然而,智能化交易在金融券商平臺中的部署和實(shí)施也帶來了一些實(shí)際問題。其中具有一定規(guī)模的不同用戶往往采用自身的智能交易軟件,因此交易軟件類型往往較多。由于不同軟件涉及的交易策略、設(shè)計(jì)思路等各不相同,因而交易軟件存在異常、不合規(guī)風(fēng)險(xiǎn)。參差不齊的安全性降低了證券行業(yè)信息系統(tǒng)的運(yùn)行安全和合規(guī)程度。目前,針對智能交易行為的異常檢測在行業(yè)內(nèi)是一大缺失,這限制了券商評估交易對象安全性的能力,制約了金融科技創(chuàng)新的步伐。因此,研究面向智能交易行為的異常檢測方法具有實(shí)際應(yīng)用需求,也為智能交易在國內(nèi)的下一步發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。
交易數(shù)據(jù)本身的復(fù)雜性和專業(yè)性決定了異常檢測方法需要結(jié)合對證券業(yè)務(wù)的深度理解進(jìn)行設(shè)計(jì),這仍是一個(gè)新興的研究問題,未形成系統(tǒng)、完整的研究體系。同時(shí),由于不同國家的證券交易規(guī)則存在差別,針對中國證券市場中的異常檢測及相應(yīng)安全性評估是有待研究的問題。為此,本文針對智能交易場景中的交易行為序列異常檢測展開研究。需要說明的是,本文異常主要是根據(jù)證券交易所的異常交易監(jiān)控細(xì)則等相關(guān)文件設(shè)定。
為此,本文提出了一種模型混合的智能交易異常行為檢測模型。針對交易數(shù)據(jù)蘊(yùn)含的時(shí)序性和合規(guī)性,從序列表征學(xué)習(xí)和融入領(lǐng)域特征規(guī)則的角度出發(fā),分別利用深度神經(jīng)網(wǎng)絡(luò)捕捉交易行為的序列性和規(guī)則集成樹模型LightGBM(Light Gradient Boosting Machine)[2]融入領(lǐng)域特征,并將兩部分模型的異常預(yù)測結(jié)果進(jìn)行整合,得到最終的異常評估結(jié)果。特別地,針對交易數(shù)據(jù)存在的雙序列,本文設(shè)計(jì)了相應(yīng)的注意力計(jì)算機(jī)制來提升序列表征能力。本文的主要工作如下:
(1)提出了面向智能交易的異常檢測新問題,并進(jìn)行了數(shù)據(jù)集的收集和整理,為后續(xù)相關(guān)研究工作的開展做好鋪墊。
(2)提出了融合深度學(xué)習(xí)方法和集成樹方法的混合模型,從交易數(shù)據(jù)的序列性和合規(guī)性2方面進(jìn)行針對性考慮。
(3)在收集的數(shù)據(jù)集上進(jìn)行了多方面實(shí)驗(yàn),證明了所提方法相比于一些代表性基準(zhǔn)方法更有優(yōu)勢,并進(jìn)行了規(guī)則重要性分析。
人工智能和數(shù)據(jù)挖掘在金融領(lǐng)域扮演著日益重要的角色,其旨在從大量金融相關(guān)數(shù)據(jù)中透過表象構(gòu)建業(yè)務(wù)相關(guān)模型,開展模型學(xué)習(xí),并提取出隱藏在其中的規(guī)律和事務(wù)間的聯(lián)系。在金融市場中,以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為代表的新興數(shù)據(jù)挖掘技術(shù)得到了多方面的創(chuàng)新應(yīng)用[3]。在銀行業(yè)務(wù)方面,數(shù)據(jù)挖掘技術(shù)可以幫助銀行對用戶進(jìn)行信用評級,調(diào)整貸款額度[4];可以對客戶進(jìn)行細(xì)分,提供差異化的服務(wù)[5,6];可以對信用卡等業(yè)務(wù)進(jìn)行風(fēng)險(xiǎn)評估[7]。在證券市場中,數(shù)據(jù)挖掘技術(shù)可以用來設(shè)計(jì)量化策略自動(dòng)交易[8],通過時(shí)序模型進(jìn)行股票預(yù)測[9],為投資者交易提供一定的參考;通過風(fēng)險(xiǎn)-收益模型評估,可以推薦出最適合的投資方案。在保險(xiǎn)行業(yè),數(shù)據(jù)挖掘技術(shù)可以幫助保險(xiǎn)公司規(guī)避保險(xiǎn)欺詐[10],更好地管理客戶關(guān)系[11]、實(shí)現(xiàn)精確營銷[12]。然而,目前針對智能交易行為的異常檢測工作還相對較為匱乏,這也是本文展開研究的動(dòng)機(jī)所在。
異常檢測的主要目的是發(fā)現(xiàn)與大部分?jǐn)?shù)據(jù)模式不同的數(shù)據(jù)實(shí)例,在學(xué)術(shù)界得到了長期的關(guān)注,面臨的主要挑戰(zhàn)是數(shù)據(jù)不平衡,即正常樣本的數(shù)量遠(yuǎn)大于異常樣本的數(shù)量。傳統(tǒng)的異常檢測方法包括基于重構(gòu)的方法[13]、基于聚類分析的方法[14,15]和基于支持向量機(jī)的方法[16,17]。這些方法的性能往往依賴于專家設(shè)計(jì)的領(lǐng)域特征。近年來,深度學(xué)習(xí)技術(shù)逐漸興起,并在諸如自然語言處理、計(jì)算機(jī)視覺等多個(gè)領(lǐng)域取得成功。在異常檢測領(lǐng)域,深度學(xué)習(xí)也得到了相應(yīng)應(yīng)用,主要涉及特征抽取、正常態(tài)特征表示和端到端異常分值計(jì)算3個(gè)方面[18]。
例如,生成對抗網(wǎng)絡(luò)異常檢測AnoGAN(Anomaly detection with Generative Adversarial Network)[19]等基于生成對抗模型的方法認(rèn)為在生成對抗網(wǎng)絡(luò)的隱空間中相較于異常樣本,正常樣本會被更準(zhǔn)確地生成;卷積長短期記憶ConvLSTM (Convolutional Long Short-Term Memory)[20]網(wǎng)絡(luò)等基于預(yù)測模型的異常檢測方法通過使用時(shí)間窗口內(nèi)的歷史數(shù)據(jù)預(yù)測當(dāng)前樣本,認(rèn)為正常樣本能良好地保持時(shí)序數(shù)據(jù)間的依賴關(guān)系,而異常樣本常常會違背這些關(guān)系,預(yù)測結(jié)果與實(shí)際樣本間的差距定義為異常指數(shù)。針對智能交易行為的特點(diǎn),本文考慮通過結(jié)合深度網(wǎng)絡(luò)表征學(xué)習(xí)和集成樹模型融入領(lǐng)域特征的優(yōu)勢,實(shí)現(xiàn)交易行為的異常檢測。
智能交易行為異常檢測框架如圖1所示。該框架以交易報(bào)單數(shù)據(jù)作為輸入,通過神經(jīng)網(wǎng)絡(luò)模塊和機(jī)器學(xué)習(xí)模塊后得到異常檢測結(jié)果。其中,輸入的交易報(bào)單分為用戶通過智能交易軟件委托證券公司下單的委托報(bào)單數(shù)據(jù)及在證券市場中成功交易后產(chǎn)生的成交報(bào)單數(shù)據(jù)。這2類數(shù)據(jù)針對每個(gè)用戶都具有時(shí)序性。在證券公司的系統(tǒng)中還存有持倉報(bào)單和資產(chǎn)報(bào)單的數(shù)據(jù),此類數(shù)據(jù)對于智能交易的安全性不造成影響,故不對其建模。
Figure 1 Framework of intelligent trading behavior anomaly detection
基于交易行為序列的時(shí)序特性,本文使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[21]建模交易行為間的依賴性,并通過注意力機(jī)制捕捉成交序列和委托序列的內(nèi)部相關(guān)性。具體地,用2個(gè)RNN模型分別學(xué)習(xí)成交報(bào)單序列和委托報(bào)單序列中的隱含信息,并利用注意力機(jī)制從每條報(bào)單隱藏層的表示中提取成交序列和委托序列內(nèi)部的相關(guān)性因子。這2條對應(yīng)序列再次經(jīng)過注意力層后輸入到多層感知機(jī)MLP(MultiLayer Perceptron),得到神經(jīng)網(wǎng)絡(luò)模塊的檢測結(jié)果。由于交易行為異常的界定一部分取決于交易所的規(guī)則規(guī)定,本文將相應(yīng)指標(biāo)進(jìn)行特征提取后,使用LightGBM模型可以很好地進(jìn)行相應(yīng)判定。最后,本文將神經(jīng)網(wǎng)絡(luò)模塊的結(jié)果和機(jī)器學(xué)習(xí)模塊的結(jié)果加權(quán)求和,得到最終的智能交易行為異常檢測結(jié)果。
機(jī)器學(xué)習(xí)模塊主要包含特征提取、特征構(gòu)建和LightGBM模型3個(gè)部分,主要負(fù)責(zé)從合規(guī)性的角度對交易行為進(jìn)行建模。
3.2.1 集成樹模型輸入
集成樹模型LightGBM需要的特征是數(shù)據(jù)單元整體的統(tǒng)計(jì)信息。以股票為例,特征包括集合競價(jià)階段和連續(xù)競價(jià)階段的申報(bào)數(shù)量、申報(bào)金額、撤銷申報(bào)數(shù)量比例、快速撤銷、成交數(shù)量和成交金額等。
3.2.2 LightGBM模型
LightGBM是一種使用基于梯度的單側(cè)采樣和互斥特征捆綁的GBDT(Gradient Boosting Decision Tree)框架。相比于其他GBDT框架,LightGBM縮短了特征選擇和分割的時(shí)間;另外LightGBM直接支持高申買低申賣、低申買高申賣等類別特征。針對本文所采用的上百萬條交易行為數(shù)據(jù),集成樹模型LightGBM采用基于直方圖的決策樹計(jì)算、帶深度限制的葉子生長策略、高效并行和Cache命中率優(yōu)化,為海量數(shù)據(jù)提供更低的內(nèi)存消耗、更快的訓(xùn)練速度和更高的準(zhǔn)確率。因此,本文選擇集成樹模型LightGBM作為基于領(lǐng)域特征的分類模型。
神經(jīng)網(wǎng)絡(luò)模塊主要從交易行為的序列性角度建模,其具體結(jié)構(gòu)如圖2所示。本文將交易報(bào)單數(shù)據(jù)處理成委托報(bào)單序列SO(o1,o2,…,on)和成交報(bào)單序列SD(d1,d2,…,dm),然后通過2個(gè)不共享參數(shù)的循環(huán)神經(jīng)網(wǎng)絡(luò)獲得每條報(bào)單序列的隱變量表示,并通過序列內(nèi)的注意力機(jī)制對中間信息進(jìn)行匯總得到成交報(bào)單序列表示BD和委托報(bào)單序列表示BO。2個(gè)序列表示再次經(jīng)過序列間注意力網(wǎng)絡(luò)處理得到融合表示,依次經(jīng)過多層感知機(jī)、線性分類層和Sigmoid歸一化后得到預(yù)測為異常的概率。
Figure 2 Structure of neural network model in intelligent trading behavior detection
3.3.1 GRU模型
交易行為報(bào)單序列具有時(shí)序性,循環(huán)神經(jīng)網(wǎng)絡(luò)可以很好地挖掘出交易行為間的依賴關(guān)系,從而進(jìn)行建模。由于傳統(tǒng)RNN會逐漸丟失序列間的長期依賴關(guān)系,導(dǎo)致交易序列中的早期重要信息。GRU(Gated Recurrent Unit)[22]和LSTM(Long Short-Term Memory)模型,作為RNN的變體,是目前廣泛使用的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,可以通過門控機(jī)制更好地保留長期信息。由于本文所處理的是大量交易行為數(shù)據(jù),出于性能考慮,本文使用GRU模型。相較LSTM,GRU模型結(jié)構(gòu)更簡單,在計(jì)算復(fù)雜度方面更適配本文的數(shù)據(jù)集;另外,GRU模型在訓(xùn)練過程中更容易收斂且效果與LSTM相差無幾,可保證本文模型實(shí)際工業(yè)落地的時(shí)效性。GRU有一個(gè)重置門rt和一個(gè)更新門zt,在本文中下標(biāo)t表示時(shí)序編號。重置門決定了前一時(shí)刻的隱藏層狀態(tài)有多少比例更新到當(dāng)前候選隱藏層狀態(tài)中;更新門決定了前一時(shí)刻的隱藏層狀態(tài)有多少比例更新到當(dāng)前隱藏層狀態(tài)。本文所用的GRU模型的公式如式(1)~式(4)所示:
rt=δ(Wr·[ht-1,xt])
(1)
zt=δ(Wz·[ht-1,xt])
(2)
(3)
(4)
其中,Wr、Wz和W是待訓(xùn)練的參數(shù),T(·)和δ(·)是激活函數(shù),輸入值xt在本文中為成交報(bào)單dt或委托報(bào)單ot。
3.3.2 注意力網(wǎng)絡(luò)
近年來,Transformer 模型[23]及其變體在許多自然語言處理任務(wù)中取得了較佳表現(xiàn),其使用的注意力機(jī)制也隨之被大量應(yīng)用于序列建模任務(wù)中。本文為了學(xué)習(xí)到成交報(bào)單序列和委托報(bào)單序列中隱含的異常信息,使用注意力機(jī)制提取循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層輸出及序列表示中的有用信息。本文所使用的2個(gè)不同序列內(nèi)注意力網(wǎng)絡(luò),結(jié)構(gòu)相同,參數(shù)不共享。具體而言,本文所使用的注意力機(jī)制定義如式(5)所示:
(5)
(1)委托/成交報(bào)單序列內(nèi)注意力。
下文以委托報(bào)單序列為例,具體展示序列內(nèi)注意力模塊的應(yīng)用,成交報(bào)單序列的操作與之相同。本文使用GRU來對用戶委托報(bào)單序列SO(o1,o2,…,on)進(jìn)行編碼,得到oi,i∈[1,n],對應(yīng)的隱藏狀態(tài)hi∈Rl(l表示單個(gè)GRU的隱藏狀態(tài)單元數(shù)),如式(6)所示:
hi=GRU(oi)
(6)
所有GRU輸出的隱藏狀態(tài)HO∈Rn×l如式(7)所示:
HO=[h1,h2,…,hn]
(7)
直觀來看,用戶委托序列中每條報(bào)單造成異常交易的風(fēng)險(xiǎn)是不同的,因此本文選取注意力機(jī)制對HO中不同GRU的隱藏狀態(tài)進(jìn)行加權(quán)融合,得到注意力向量αO∈R1×n如式(8)所示:
(8)
其中,w1∈R1×b,w2∈Rb×l,b為人為設(shè)置的參數(shù)。
注意力向量的權(quán)重大小反映了不同報(bào)單對于用戶交易行為異常風(fēng)險(xiǎn)的不同貢獻(xiàn)。將每個(gè)用戶行為的隱藏狀態(tài)hi加權(quán)求和,得到委托報(bào)單序列的表示BO∈R1×l,如式(9)所示:
BO=αOHO
(9)
同理可得,成交報(bào)單序列的表示BD∈R1×l,如式(10)所示:
BD=αDHD
(10)
其中,HD表示成交報(bào)單序列在GRU中的隱藏狀態(tài)矩陣,αD表示相應(yīng)的注意力權(quán)重。
(2)委托及成交報(bào)單序列間注意力。
如上文所示,本文存在成交報(bào)單SD和委托報(bào)單SO2個(gè)用戶交易序列。注意力機(jī)制輸入委托報(bào)單表示BO∈R1×l和成交報(bào)單表示BD∈R1×l,輸出Hmix∈R1×d融合了2個(gè)表示的信息。注意力機(jī)制聚合2個(gè)行為序列表示的方法如式(11)所示:
Hmix=aDBD+(1-aD)BO
(11)
權(quán)重系數(shù)aD可通過softmax函數(shù)計(jì)算得到,如式(12)所示:
(12)
其中,eD和eO分別表示成交報(bào)單序列和委托報(bào)單序列的相關(guān)性系數(shù)。
相關(guān)性系數(shù)eD可以通過式(13)計(jì)算得到:
(13)
其中,Wq∈R1×d和Wk∈Rl×d分別表示可學(xué)習(xí)的參數(shù)向量。同理可得eO。
3.3.3 多層感知機(jī)
由于注意力機(jī)制的本質(zhì)是線性模型,本文為了增強(qiáng)其在不同維度的交互性和模型的非線性能力,在注意力層后使用3層前饋神經(jīng)網(wǎng)絡(luò),如式(14)所示:
pi=σ2((HmixW1+b1)W2+b2)W3+b3
(14)
其中,W1∈Rd×d,W2∈Rd×d,W3∈Rd×d,b1∈Rd,b2∈Rd,b3∈Rd為可學(xué)習(xí)的參數(shù);σ2(·)表示對輸入向量中的每個(gè)元素利用ReLU進(jìn)行激活。前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的多層感知機(jī)輸出定義為P=[p1,p2,…,pn]∈Rn×d。
3.3.4 序列預(yù)測
(15)
其中,Linear(·)表示多維向量到標(biāo)量的映射函數(shù),sigmoid表示歸一化操作。
本文提出的交易行為檢測方法可以看做是一個(gè)對序列數(shù)據(jù)進(jìn)行異常檢測的二分類任務(wù),故使用均方誤差損失作為損失函數(shù),其計(jì)算如式(16)所示:
(16)
本文將以上模塊組合為數(shù)據(jù)與知識雙驅(qū)動(dòng)的混合模型,通過結(jié)合多種特征來提高異常檢測能力。其中,神經(jīng)網(wǎng)絡(luò)模塊利用深度學(xué)習(xí)在訓(xùn)練過程中促進(jìn)模型自動(dòng)學(xué)習(xí)特征,機(jī)器學(xué)習(xí)模塊利用領(lǐng)域?qū)<胰斯?gòu)建特征。在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)模型和LightGBM模型分別對交易報(bào)單序列進(jìn)行訓(xùn)練,各自達(dá)到收斂。具體預(yù)測時(shí),由于不同模型存在不同的誤差,本文考慮根據(jù)深度學(xué)習(xí)網(wǎng)絡(luò)模型和集成樹的誤差來賦值,給誤差平方和小的模型賦予較大的權(quán)重,相反給誤差平方和大的模型賦予較小的權(quán)重。通過這種組合方式的模型進(jìn)行組合預(yù)測,誤差會減小,預(yù)測準(zhǔn)確度會提高,異常預(yù)測結(jié)果如式(17)所示:
(17)
實(shí)驗(yàn)所用數(shù)據(jù)集為智能交易場景中的交易行為數(shù)據(jù),包括股票數(shù)據(jù)集、期貨數(shù)據(jù)集,以及融合了股票、期貨、期權(quán)、融資融券場景的混合數(shù)據(jù)集。 其中,部分?jǐn)?shù)據(jù)由華鑫證券公司提供,部分?jǐn)?shù)據(jù)基于正常和異常的交易策略使用回測工具生成。由于真實(shí)數(shù)據(jù)未覆蓋所有類型的異常交易行為,本文針對交易所認(rèn)定的所有異常交易行為,利用基于正常和異常的交易策略使用回測工具生成相同異常占比的交易行為,其中包括了所有異常情況。在所有類型的數(shù)據(jù)中,華鑫證券公司提供的真實(shí)數(shù)據(jù)和使用回測工具生成的數(shù)據(jù)比例為3∶7,異常數(shù)據(jù)占各自數(shù)據(jù)0.54%。此外,交易所的異常交易行為判定是基于單個(gè)賬戶每日對單支股票的交易行為,故本文按相應(yīng)要求將數(shù)據(jù)條目組織成數(shù)據(jù)單元,處理后數(shù)據(jù)集規(guī)模和異常情況如表1所示。
Table 1 Statistics of dataset
在評價(jià)指標(biāo)方面,本文選取了針對異常樣本的召回率(Recall)、精確率(Precision)、F1分?jǐn)?shù)(F1-score)及全數(shù)據(jù)的準(zhǔn)確率(Accuracy)。由于在異常檢測中,異常樣本漏檢的代價(jià)成本更高,本文傾向于在保證模型準(zhǔn)確率的前提下,盡量提高異常樣本的召回率。模型的召回率、精確率和準(zhǔn)確率都依賴于混淆矩陣(如表2所示)的4個(gè)基本屬性,其中TP表示被正確預(yù)測異常的異常樣本數(shù)量,FP表示被錯(cuò)判為異常的正常樣本數(shù)量,FN表示被錯(cuò)判為正常的異常樣本數(shù)量,TN表示被正確預(yù)測正常的正常樣本數(shù)量。異常樣本的召回率Recall=TP/TP+FN,異常樣本的精確率Precision=TP/TP+FP,全樣本的準(zhǔn)確率Accuracy=(TP+TN)/(TP+FP+FN+TN)。
Table 2 Confusion matrix
本文選擇以下3種基線模型進(jìn)行對比實(shí)驗(yàn):
(1)SVM(Support Vector Machine):針對有監(jiān)督的二分類異常檢測問題,SVM是最基本和最常用的模型之一,輸入特征與針對LightGBM模型構(gòu)造的特征相同。
(2)RNN:使用GRU模型對交易行為的成交報(bào)單序列和委托報(bào)單序列分別進(jìn)行建模,聯(lián)合預(yù)測。
(3)LGB(LightGBM):使用LightGBM模型基于交易行為序列的特征進(jìn)行異常檢測。
本文所提模型和基線模型的最優(yōu)超參數(shù)組合均根據(jù)模型通過網(wǎng)格搜索法在驗(yàn)證集上的表現(xiàn)確定。對于LightGBM模型,學(xué)習(xí)率從集合{0.000 1,0.001,0.01,0.05,0.1}中選擇,弱學(xué)習(xí)器最大個(gè)數(shù)從集合{50,100,125,150,200,500,1 000}中選擇,葉節(jié)點(diǎn)最大個(gè)數(shù)從集合{31,63,127,255,511,1 023}中選擇,數(shù)據(jù)子采樣概率和列采樣概率均從集合{0.5,0.6,…,1.0}中選擇;對于GRU的層數(shù)從集合{1,2,3,4}中選擇,隱藏層維度從集合{5,10,15,25}中選擇,訓(xùn)練批次從集合{10,20,50,100}中選擇,序列最大長度從集合{5,6,7,8,9,10}中選擇;MLP的參數(shù)從集合{1,2,3,4}中選擇,學(xué)習(xí)率從集合{0.000 1,0.001,0.01,0.05,0.1}中選擇;本文使用的注意力層均從集合{1,2,3,4}中選擇。
本文實(shí)驗(yàn)確定使用如下參數(shù):對于LightGBM,學(xué)習(xí)率為0.1,弱學(xué)習(xí)器最大個(gè)數(shù)為1 000,葉節(jié)點(diǎn)最大個(gè)數(shù)為255,數(shù)據(jù)子采樣概率和列采樣概率均為0.8;對于GRU,層數(shù)為1,隱藏層維度為10,訓(xùn)練批次為10,序列最大長度為10,MLP的參數(shù)為3層,學(xué)習(xí)率為0.01;本文使用的注意力層均為1層;另外,對于SVM基準(zhǔn)方法,核函數(shù)采用sigmoid,懲罰系數(shù)為2,核系數(shù)為10。
本文模型在智能交易數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示,可以發(fā)現(xiàn)融合LightGBM和GRU的組合模型在各種類型數(shù)據(jù)上的全部指標(biāo)均取得了最佳結(jié)果。在這些金融異常檢測的數(shù)據(jù)集中,單個(gè)LightGBM或者GRU也可以取得不錯(cuò)的準(zhǔn)確率,而SVM在多類數(shù)據(jù)上表現(xiàn)欠佳。與文獻(xiàn)[21]中提到的情況相同,SVM對于復(fù)雜的序列數(shù)據(jù)缺乏良好的建模能力,神經(jīng)網(wǎng)絡(luò)的隱藏單元可以更好地捕獲其中的異常信息。
Table 3 Anomaly detection performance of each model under different types of data
4.3.1 LightGBM模型特征影響分析
本節(jié)通過消融實(shí)驗(yàn)來驗(yàn)證所設(shè)計(jì)的數(shù)據(jù)特征在模型中的作用,實(shí)驗(yàn)結(jié)果如表4所示,其中,-1代表累計(jì)申報(bào)/成交金額類特征,-2代表累計(jì)申報(bào)/成交數(shù)量類特征,-3代表撤銷申報(bào)數(shù)量比例類特征,-4代表是否快速撤銷類。由于篇幅限制,表4只展示在全類型數(shù)據(jù)集上的結(jié)果。從表4可以看到,無論是單個(gè)LightGBM還是組合模型,每種特征的減少都會對模型性能造成負(fù)面影響。單個(gè)LightGBM雖然有訓(xùn)練快、簡單易用的優(yōu)點(diǎn),但其更依賴于先驗(yàn)知識的特征工程,累積申報(bào)/成交金額數(shù)量和金額影響相對更大。而本文使用的LightGBM和神經(jīng)網(wǎng)絡(luò)的混合模型性能雖然同樣會受到特征缺失的影響,但是深度神經(jīng)網(wǎng)絡(luò)可以學(xué)到部分特征中隱含的知識,性能影響的幅度更小。
Table 4 Ablation experimental results with different features
4.3.2 序列模型注意力機(jī)制影響分析
為了驗(yàn)證本文提出的用戶行為序列間注意力機(jī)制和用戶行為序列內(nèi)注意力機(jī)制的有效性,本節(jié)在序列模型中對用戶行為序列間注意力機(jī)制和用戶行為序列內(nèi)注意力機(jī)制進(jìn)行消融實(shí)驗(yàn)。表5給出了不同網(wǎng)絡(luò)結(jié)構(gòu)在全類型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中,-Ⅰ表示缺失用戶行為序列間注意力機(jī)制, -Ⅱ表示缺失用戶行為序列內(nèi)注意力機(jī)制,-Ⅲ表示缺失用戶行為序列間注意力機(jī)制和用戶行為序列內(nèi)注意力機(jī)制。
Table 5 Ablation experimental results with different attention mechanisms
由表5可以看出,當(dāng)去掉用戶行為序列間注意力機(jī)制或用戶行為序列內(nèi)注意力機(jī)制時(shí),模型效果均有所下降,一方面說明了注意力機(jī)制對模型異常檢測的重要影響,另外也驗(yàn)證了融合用戶行為序列內(nèi)行為和融合委托序列和成交序列的必要性。
4.3.3 序列模型不同用戶行為序列影響分析
本節(jié)主要討論所提出的序列模型中涉及的2種用戶行為序列,即成交序列和委托序列對模型效果的影響。表6給出了不同模型在全類型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中,-Ⅳ表示缺失成交序列,-Ⅴ表示缺失委托序列。
Table 6 Ablation experimental results with different user behavior sequences
由表6可以看出,當(dāng)去掉成交序列或委托序列后,模型效果在F1-score指標(biāo)上分別下降了4.17%和1.04%,在Accuracy指標(biāo)上分別下降了4.52%和0.86%。這一方面說明了成交序列和委托序列都對序列模型的異常檢測有重要影響,另外也看到成交序列對于模型效果的影響要遠(yuǎn)大于委托序列的,說明用戶在成交序列上更容易出現(xiàn)異常交易行為。
上述實(shí)驗(yàn)說明本文模型滿足交易所異常檢測的需求,但是反欺詐部門可能還需要了解一些用戶為什么會被判斷為異常。因此,本文在關(guān)注智能金融交易效率的同時(shí),也針對智能金融領(lǐng)域的異常情況種類繁多、深度學(xué)習(xí)模型可解釋性差的問題,利用自注意力機(jī)制結(jié)合LightGBM模型給出的特征重要性,通過以下案例說明本文提出的模型是如何判斷出具體的用戶異常行為的。
如前文所述,用戶行為序列包括成交報(bào)單序列和委托報(bào)單序列,其中委托報(bào)單序列的每種行為包括以下7個(gè)特征:類型(股票或融資融券0、期貨1、期權(quán)2)、階段(不區(qū)分階段0、開盤集合競價(jià)1、連續(xù)競價(jià)2、收盤集合競價(jià)3)、組合開平標(biāo)志(開倉0、平倉1、強(qiáng)平2、平今3、平昨4)、價(jià)格、數(shù)量、方向(買0、賣1)和撤銷(未撤銷0、非快速撤銷1、快速撤銷2);而成交報(bào)單序列的每種行為包括以下6個(gè)特征:類型(股票或融資融券0、期貨1、期權(quán)2)、階段(不區(qū)分階段0、開盤集合競價(jià)1、連續(xù)競價(jià)2、收盤集合競價(jià)3)、組合開平標(biāo)志(開倉0、平倉1、強(qiáng)平2、平今3、平昨4)、價(jià)格、數(shù)量和方向(買0、賣1)。
選取如圖3所示的一個(gè)異常的用戶行為序列說明注意力機(jī)制的可解釋性。圖3中加黑數(shù)字代表注意力的權(quán)重大。
Figure 3 A case of abnormal user behavior sequence
如圖3所示,正常的交易行為中不應(yīng)該出現(xiàn)大量申報(bào)并撤銷的情況,尤其是快速撤銷申報(bào),這種行為將引誘、誤導(dǎo)或影響其他投資者的正常交易行為。本文基于注意力機(jī)制,會重點(diǎn)關(guān)注到委托報(bào)單數(shù)據(jù)的“撤銷”特征,識別出其連續(xù)出現(xiàn)的“快速撤銷”屬性,注意力機(jī)制會賦予序列中相應(yīng)位置的報(bào)單更高的權(quán)重,并最終作出該數(shù)據(jù)屬于異常交易行為的判定。
智能交易的普及給券商平臺帶來了運(yùn)營合規(guī)風(fēng)險(xiǎn)性。本文著重研究了智能交易行為的異常檢測這一新問題并收集了多類型的智能交易數(shù)據(jù)集。針對智能交易行為數(shù)據(jù)中蘊(yùn)含的序列性和合規(guī)性特點(diǎn),本文提出了簡單而有效的模型混合方法,將深度神經(jīng)網(wǎng)絡(luò)的序列表征能力和集成樹模型LightGBM的規(guī)則融入能力相結(jié)合。交易數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的模型優(yōu)于有代表性的基線模型且具有合理性和可解釋性。