蔡元海,宋甫元,黎 凱,陳彥宇,付章杰
1.南京信息工程大學(xué)數(shù)字取證教育部工程研究中心,南京 210044
2.西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,西安 710071
隨著區(qū)塊鏈技術(shù)的快速發(fā)展,以比特幣為代表的加密數(shù)字貨幣受到了廣泛的關(guān)注。在擁有龐大活躍用戶數(shù)量與超萬億美元總市值的繁榮景象之下,大量不法活動也涌現(xiàn)出來,如恐怖主義資助、洗錢、詐騙等。不法分子很容易利用加密貨幣的用戶匿名性、交易去中心化等不穩(wěn)定的特性,進(jìn)行金融犯罪活動。然而在區(qū)塊鏈新環(huán)境下的監(jiān)管制度還處于初步階段,傳統(tǒng)的中心化監(jiān)管方式不再起效,而鏈上非法活動數(shù)量卻在與日俱增。因此,如何有效利用區(qū)塊鏈上交易數(shù)據(jù)公開透明的有利條件,進(jìn)行鏈上交易的合法性檢測對于加密數(shù)字貨幣的監(jiān)管具有重大意義。
目前,根據(jù)分類方式的不同,交易合法性檢測方法大致可以分為如下四類:基于可視化分析的方法[1-3]、基于聚類[4-6]的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[7-8]以及基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法[8-11]。
(1)基于可視化分析的方法。McGinn等人[1]構(gòu)建了一個自上而下的比特幣交易活動可視化系統(tǒng),能夠輔助分析人員直觀地發(fā)現(xiàn)特定的交易模式。Bistarelli等人[2]設(shè)計了一種可視化分析工具BlockchainVis,支持對無用信息的過濾,并可視化分析比特幣中的特定特征。然而該類方法只能輔助人工分析,并不能滿足在交易密度極大的比特幣等公鏈上的實(shí)時性分析需求。
(2)基于聚類的方法。Conti等人[4]從比特幣支付角度研究勒索軟件這類特定類型的非法活動,并結(jié)合多輸入交易信息與找零地址信息,提出了兩種基于啟發(fā)式規(guī)則的聚類方法。Pham等人[5]使用傳統(tǒng)無監(jiān)督聚類方法,如K均值聚類、無監(jiān)督支持向量機(jī)等對在無標(biāo)簽的情況下,檢測鏈上的異常交易行為。該類方法對于樣本標(biāo)簽的需求不高,但普遍導(dǎo)致了檢測結(jié)果的高假陽性率與低檢出率,不具備可靠性。
(3)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法。Harlev 等人[7]使用經(jīng)典機(jī)器學(xué)習(xí)算法如隨機(jī)森林、梯度提升決策樹來進(jìn)行比特幣網(wǎng)絡(luò)的去匿名化與分類任務(wù)。Weber等人[8]在Elliptic數(shù)據(jù)集上驗(yàn)證了邏輯回歸、隨機(jī)森林與多層感知機(jī)三類經(jīng)典算法的性能,并從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)隨機(jī)森林在交易分類任務(wù)上有著良好的表現(xiàn)。
(4)基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。朱會娟等人[9]設(shè)計了一種挖掘特征隱含關(guān)系的多特征融合交易檢測模型BATDet,有效融合了高層抽象特征與原始特征,具備良好的檢測精度。然而該算法整體設(shè)計僅關(guān)注交易本征信息,未能將交易連接的拓?fù)浣Y(jié)構(gòu)融入判斷,因此損失了大量有效信息。此外,圖神經(jīng)網(wǎng)絡(luò)作為分析交易圖數(shù)據(jù)的一種最具潛力的方案,也吸引學(xué)者進(jìn)行了相關(guān)研究。如Chai等人[10]提出了一種多頻圖神經(jīng)網(wǎng)絡(luò)AMNet,它能夠高效的捕獲低頻與高頻信號并進(jìn)行自適應(yīng)的組合,因此取得了較好的異常檢測性能。然而由于圖網(wǎng)絡(luò)的聚合機(jī)制帶來的過平滑問題限制了網(wǎng)絡(luò)的深度,使得網(wǎng)絡(luò)提取到的信息較為淺層,所以這類算法的檢測精度仍存在不足。
本文針對上述檢測方法存在的檢測精度不足以及未充分利用交易本身與拓?fù)浣Y(jié)構(gòu)兩方面信息的問題,提出基于可信生成特征的深度森林TForest,引入基于Transformer 的圖神經(jīng)網(wǎng)絡(luò)并結(jié)合深度殘差網(wǎng)絡(luò)在雙階段集成策略下進(jìn)行高效融合,得出多角度分析結(jié)果,主要貢獻(xiàn)如下:
(1)設(shè)計基于基尼指數(shù)的特征重排序方法,在此基礎(chǔ)上構(gòu)建基于可變滑動窗口的可信特征生成階段,解決了深度森林多粒度掃描中存在的特征采樣不均衡與子樣本混淆的問題。在大幅減少生成特征維度的同時有效提升了深度森林的檢測性能。
(2)引入基于Transformer 的圖神經(jīng)網(wǎng)絡(luò),以更高效的多頭自注意力機(jī)制,將鏈上交易前后鏈接的拓?fù)浣Y(jié)構(gòu)信息融入判斷。并且添加緩解特征過平滑問題的跳躍連接,避免了圖中同一連通分量內(nèi)的節(jié)點(diǎn)隱層表征過于相似進(jìn)而導(dǎo)致難以區(qū)分的弊端。
(3)提出一種雙階段集成策略,以可信深度森林為主導(dǎo),逐層優(yōu)化,有效融合不同基類模型得出的交易本征信息與拓?fù)溥B接信息兩方面判斷的結(jié)果,提升了整體多角度分析模型T2Rnet的綜合性能,取得了可靠的交易合法性檢測結(jié)果。
深層神經(jīng)網(wǎng)絡(luò)近年來在各項任務(wù)下都表現(xiàn)出優(yōu)秀的性能。然而深度網(wǎng)絡(luò)還存在著一些缺陷,例如需使用大量標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練、模型內(nèi)部組合結(jié)構(gòu)需精心設(shè)計等。為了避免上述問題,Zhou等人[12]探索了基于不可微模塊構(gòu)建深度模型的可能性,提出了深度森林(multi-grained cascade forest,gcForest),整體包含多粒度掃描與級聯(lián)森林兩部分,其中多粒度掃描對原始輸入進(jìn)行轉(zhuǎn)換生成,級聯(lián)森林在轉(zhuǎn)換特征之上進(jìn)行判斷,結(jié)構(gòu)如圖1所示。
圖1 深度森林結(jié)構(gòu)圖Fig.1 Deep forest architecture diagram
級聯(lián)結(jié)構(gòu)讓模型具備了逐層處理與模型內(nèi)特征轉(zhuǎn)換的特性,從而可以通過森林進(jìn)行表示學(xué)習(xí)。級聯(lián)森林內(nèi)每層包含多組隨機(jī)森林與極端隨機(jī)樹,對輸入進(jìn)行判別并生成類向量作為增強(qiáng)特征,再結(jié)合原始輸入一起輸入到下一層當(dāng)中,當(dāng)下一層性能不再提升時便停止級聯(lián)森林的生長。多粒度掃描結(jié)構(gòu)以多樣性的方式在原始輸入特征的基礎(chǔ)上構(gòu)造出轉(zhuǎn)換特征向量,提升了整體模型的表示學(xué)習(xí)能力。具體而言,對輸入采用滑動窗口依次提取出大量與窗口大小相同的子樣本,將所有子樣本標(biāo)簽設(shè)置為輸入樣本標(biāo)簽,再送入隨機(jī)森林與極端隨機(jī)數(shù)這兩種生成模型中進(jìn)行訓(xùn)練并構(gòu)造出轉(zhuǎn)換類向量。所有子樣本生成出的轉(zhuǎn)換類向量最終拼接起來形成整體轉(zhuǎn)換向量,作為后續(xù)級聯(lián)森林的輸入。
然而由于多粒度掃描過程中使用固定的滑動窗口與滑動步長,使得生成的特征維度相比原始輸入大幅提升。此外,由于滑動的局限性,原始輸入的兩端特征只能被少量子樣本覆蓋,而中部特征則至多可以被采樣到與滑動窗口大小相同的次數(shù),這種不均衡的特征采樣操作將導(dǎo)致模型忽略位于樣本兩端的部分重要特征從而影響模型精度。同時提取出的維度一致的子樣本之間也存在著非一致性,而在多粒度掃描中并未采取增加區(qū)分度的操作即給所有子樣本打上了與源樣本相同的標(biāo)簽,給生成特征帶來了混淆干擾,在本身具有一定不可區(qū)分度的任務(wù)下將會導(dǎo)致整體檢測性能的降低。為解決上述問題,本文設(shè)計基于特征重排序與可變滑動窗口的可信特征生成方法,以均衡可區(qū)分的方式提取子樣本并進(jìn)一步構(gòu)造出維度大幅降低的可信特征,以此得到更好的檢測精度。
圖神經(jīng)網(wǎng)絡(luò)對于處理如社交網(wǎng)絡(luò)、交易網(wǎng)絡(luò)、引用關(guān)系網(wǎng)絡(luò)等圖類型數(shù)據(jù)有著強(qiáng)大的能力。Welling等人[13]從空間角度定義節(jié)點(diǎn)的權(quán)重矩陣,利用卷積核的參數(shù)化方法設(shè)計出圖卷積模型(graph convolutional network,GCN),解決了譜空間圖卷積方法的時空復(fù)雜度較高的問題。
然而每個節(jié)點(diǎn)無偏聚合周邊節(jié)點(diǎn)特征的方式導(dǎo)致了在同一連通分量中的節(jié)點(diǎn)表征類似,進(jìn)而產(chǎn)生了過平滑的問題。本文針對此問題,利用多頭自注意力機(jī)制[14-15]有選擇的聚合節(jié)點(diǎn)周邊的有效信息,同時添加跳躍連接來關(guān)注原始信息,減少過平滑問題帶來的精度降低。
神經(jīng)網(wǎng)絡(luò)利用卷積操作在不斷加深的網(wǎng)絡(luò)層中逐步提取到更抽象的高層特征,因此為了更好的模型表征能力,往往會選擇層數(shù)更深的網(wǎng)絡(luò);然而隨著深度增加,由多層反向傳播帶來的梯度消失會導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練進(jìn)而影響模型精度。為了解決該問題,He等人[16]提出了殘差結(jié)構(gòu),在每個殘差模塊的輸入與輸出之間增加一條殘差路徑,解決了深度網(wǎng)絡(luò)性能退化的問題。本文將深度殘差網(wǎng)絡(luò)作為基判別器之一,利用其深度結(jié)構(gòu)充分挖掘交易本身信息。
本文提出了基于可信深度森林與雙階段集成策略的多角度交易合法性檢測模型,整體結(jié)構(gòu)如圖2 所示,由基類模型判別模塊、雙階段集成模塊兩部分組成。交易數(shù)據(jù)輸入至三種基類判別模型中得到對應(yīng)的類概率分布輸出,再將類概率分布輸入至雙階段集成模塊中進(jìn)行融合得出最終預(yù)測結(jié)果。在基類模型判別模塊中,用于交易本征信息分析的兩種基模型分別為基于構(gòu)造可信生成特征的可信深度森林與深度殘差網(wǎng)絡(luò),用于拓?fù)浣Y(jié)構(gòu)分析的基模型為基于Transformer 的圖神經(jīng)網(wǎng)絡(luò);在雙階段集成模塊中,設(shè)計一種雙階段策略,結(jié)合不同基模型對于正負(fù)樣本的識別能力,融合多角度分析結(jié)果,保證最終預(yù)測結(jié)果的準(zhǔn)確性。
圖2 整體結(jié)構(gòu)圖Fig.2 Overall framework
本文針對深度森林中多粒度掃描模塊存在的特征采樣不均衡、子樣本混淆以及生成特征維度過度增長的問題,設(shè)計基于特征重排序與可變滑動窗口的可信生成特征構(gòu)造方法,結(jié)構(gòu)如圖3所示。
圖3 可信特征生成模塊Fig.3 Trustworthy feature generation module
特征重排序作為提取可區(qū)分子樣本與構(gòu)造可信生成特征的前序步驟,將區(qū)分度較高的特征放置于整體樣本數(shù)據(jù)的首部,相對不易區(qū)分的特征則被移至樣本尾部。其中每個特征的區(qū)分度采用基尼指數(shù)Gini_index來確定,計算公式如下:
其中,D指整體數(shù)據(jù)集,pk指k類別的出現(xiàn)概率,a代表樣本中的某一特征,Dv指根據(jù)特征a劃分后的子數(shù)據(jù)集,a的基尼指數(shù)越小代表Dv內(nèi)部確定性越高,即特征a對樣本的區(qū)分度越高。
得到依據(jù)區(qū)分度高低重新排序的特征樣本后,本文設(shè)計基于可變滑動窗口與可變滑動步長的子樣本提取過程。為了保證每個子樣本具有一定的可信度,本文根據(jù)區(qū)分度相對較低的特征結(jié)合使用的原則,讓窗口每進(jìn)行一次滑動過后都依據(jù)膨脹系數(shù)進(jìn)行尺寸擴(kuò)張,滑動窗口尺寸的計算公式為:
其中,wi指滑動窗口的大小,W指窗口初始大小,E指膨脹系數(shù),F(xiàn)in指原始特征維度;Fi指滑動至第i步時已提取到的特征總維數(shù),計算公式如式(4);當(dāng)剩余特征數(shù)量不足以完成下一步滑動操作時將上一窗口尺寸擴(kuò)大至可容納所有剩余特征的大小??勺兊幕瑒哟翱谂浜咸卣鞯膬?nèi)部有序性,合理地提取出大小不一但均具可區(qū)分性的子樣本,有效解決了子樣本混淆影響模型訓(xùn)練與生成不可信雜質(zhì)特征的問題。
為了避免產(chǎn)生原始多粒度掃描中的采樣不均衡的缺陷,本文將滑動步長與窗口尺寸進(jìn)行動態(tài)綁定,進(jìn)而提取出互相之間無交叉的子樣本,公平地遍歷樣本中的所有特征,滑動步長計算公式為:
其中,si指第i步時對應(yīng)的滑動步長,wi指第i步對應(yīng)的滑動窗口大小。隨著窗口擴(kuò)張而逐步增大的滑動步長設(shè)計大幅減少了生成特征的維度,原始多粒度掃描的生成特征維度Fm與可信生成特征維度Fg分別為:
其中,c為總類別數(shù)。兩種生成特征的維度都依賴于子樣本的總數(shù),亦即窗口的總滑動次數(shù),本文與窗口大小動態(tài)綁定的滑動步長大幅減少了所需的滑動次數(shù)繼而減小了生成特征的維度。
對于生成模型,本文采用XGBoost[17]取代多粒度掃描中的隨機(jī)森林與極端森林作為生成器,增加了生成過程的多樣性。前序步驟提取出的具有區(qū)分度的子樣本輸入到生成模型之后即可得到對應(yīng)的可信生成特征。為了避免出現(xiàn)過擬合的現(xiàn)象,本文將用于訓(xùn)練生成模型的數(shù)據(jù)單獨(dú)劃分出來。此外,為了減少冗余度并進(jìn)一步減少生成維度,本文設(shè)計維度裁剪方法,具體而言,取生成模型得出的所有互補(bǔ)二維向量中的第一維構(gòu)成可信生成特征。最后為保留原始特征中的細(xì)節(jié),避免丟失整體有效信息,將可信生成特征與原始輸入向量進(jìn)行拼接得到整體轉(zhuǎn)換向量。將其輸入到級聯(lián)森林中即可得到最后的預(yù)測向量??傮w稱為可信深度森林(trustworthy deep forest,TForest),整體轉(zhuǎn)換流程如下:
其中,xin指輸入樣本,xi指提取到的子樣本,xg指整體可信生成特征,y指輸出的類概率分布,xgb(·) 指XGBoost生成模型轉(zhuǎn)換,concat(·) 指拼接操作,caforest(·)指級聯(lián)森林判別。
為將交易前后連接的拓?fù)浣Y(jié)構(gòu)信息融入判斷,本文引入基于Transformer 的圖神經(jīng)網(wǎng)絡(luò)(transformer graph neural network,TGNN)[15]。TGNN 基于多頭自注意力機(jī)制,具備高效的從周邊節(jié)點(diǎn)聚合信息的能力,能夠關(guān)注到節(jié)點(diǎn)連接關(guān)系內(nèi)重要的交易,同時在數(shù)據(jù)標(biāo)注不全時也可以充分利用到交易圖中的無標(biāo)簽樣本。此外,為了緩解特征過平滑的問題,本文在每層卷積激活操作前后添加跳躍連接,整體結(jié)構(gòu)如圖4所示。
圖4 基于Transformer的圖神經(jīng)網(wǎng)絡(luò)Fig.4 Graph neural network based on Transformer
其中,||指對不同注意力頭的拼接操作。為了避免特征過平滑的問題,本文在每層圖卷積前后添加跳躍連接,計算公式為:
其中,ELU(·) 指elu 激活操作,Ws與bs指跳躍連接對應(yīng)的權(quán)重矩陣與偏置。
為進(jìn)一步對交易本征信息進(jìn)行分析,同時也為雙階段集成提供必要的一類基模型,本文進(jìn)一步利用深度模型的優(yōu)勢,彌補(bǔ)TGNN層數(shù)較少導(dǎo)致的深層抽象信息提取能力方面的不足,構(gòu)建了一個18 層結(jié)構(gòu)的深層殘差網(wǎng)路,結(jié)構(gòu)如圖5所示。
圖5 深度殘差網(wǎng)絡(luò)Fig.5 Deep residual network
每個基本殘差單元的計算公式為:
其中,ReLU(·) 指relu 激活操作,fin指輸入維度,fout指輸出維度。
為融合基類判別模塊中得出的交易本征信息判斷與交易前后連接的拓?fù)浣Y(jié)構(gòu)判斷,并進(jìn)一步提升交易合法性的檢測精度,本文設(shè)計了一種雙階段的集成策略,充分考慮了各模型對于正負(fù)樣本的不同區(qū)分性能,以可信深度森林TForest為主導(dǎo),采用優(yōu)勢互補(bǔ)原則,層層優(yōu)化,得出綜合性能最佳的整體集成模型T2Rnet。雙階段集成效果示意如圖6所示。
圖6 雙階段集成效果示意圖Fig.6 Effect diagram of two-stage ensemble
其中第一層的三類基類判別器分別為從交易本征信息角度進(jìn)行分析的TForest、ResNet 與從交易連接拓?fù)浣Y(jié)構(gòu)角度進(jìn)行分析的TGNN,輸出表示為:
其中,x表示輸入樣本,yi,j表示第i層第j個基判別器得出的預(yù)測二維結(jié)果向量。
第二層首先延用基類判別器中性能最強(qiáng)的Tforest。其次利用對負(fù)樣本具有良好識別能力的TForest 與ResNet 進(jìn)行“OR”集成,即當(dāng)兩者中有一方認(rèn)為某交易為合法則輸出合法的預(yù)測標(biāo)簽,該集成將大幅減少假陽率。最后采用帶調(diào)和系數(shù)的軟投票方法,得出Prob_ESM 判別器,以合理的調(diào)和系數(shù)β的設(shè)置從而更多地關(guān)注對正樣本的識別。第二層各判別器的計算公式為:
其中,k指交易類別,0代表合法交易,1代表非法交易,指對應(yīng)判別器對第k個類別的預(yù)測概率,指取二維向量中較大者對應(yīng)的標(biāo)簽,指連乘函數(shù),指累加函數(shù),β指調(diào)和系數(shù),本文設(shè)置為0.75。此階段結(jié)束得到各判別器的預(yù)測標(biāo)簽。
第三層采用相對多數(shù)投票法對第二層的子判別器預(yù)測結(jié)果進(jìn)行再一次的融合,進(jìn)而得到最終的雙階段集成模型T2Rnet,計算公式為:
其中,δ(·) 代表指示函數(shù),當(dāng)預(yù)測標(biāo)簽y2,i與類別標(biāo)簽k相等時函數(shù)值為1,否則為0。該階段取第二層輸出預(yù)測結(jié)果的多數(shù)類別為預(yù)測標(biāo)簽,進(jìn)一步融合優(yōu)化了整體模型性能。
本文在Elliptic 數(shù)據(jù)集上對所提方法進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集由真實(shí)比特幣交易網(wǎng)絡(luò)中提取出的交易子圖構(gòu)成,是當(dāng)下最大的真實(shí)區(qū)塊鏈交易合法性分類數(shù)據(jù)集。
數(shù)據(jù)集中每個樣本對應(yīng)一筆交易,包含166 維特征,其中前94 維為交易本地信息,包括時間步、交易費(fèi)用等;其余72維為交易前后一跳路徑的聚合信息,包括交易費(fèi)用的最大值、標(biāo)準(zhǔn)差等。整體數(shù)據(jù)集按照時間順序共劃分為49 個交易時間步,各時間步間的交易無交集;總計包含203 769筆交易以及234 355條代表交易流向的連接邊,其中42 019筆為合法交易,4 545筆為非法交易,其余交易未標(biāo)記。本文采用該數(shù)據(jù)集上常用的留出法對所設(shè)計的模型進(jìn)行評估,以交易先后時間步7∶3的比例劃分?jǐn)?shù)據(jù)集,即1~34 個時間步內(nèi)的交易數(shù)據(jù)用于訓(xùn)練整體模型,35~49個時間步內(nèi)的交易數(shù)據(jù)用于測試評估模型的性能。
此外,為了降低可信生成特征帶來的過擬合風(fēng)險,本文在訓(xùn)練可信森林的過程中以隨機(jī)降采樣的方式將訓(xùn)練集的10%,即1 500 對正負(fù)樣本提取出來作為生成專用數(shù)據(jù)集,不再用于級聯(lián)森林的訓(xùn)練。
在可信深度森林中,本文將初始窗口大小設(shè)置為2,膨脹系數(shù)設(shè)置為2,生成模型內(nèi)部子樹數(shù)量設(shè)置為10。
在深度學(xué)習(xí)模型訓(xùn)練中,ResNet的初始學(xué)習(xí)率設(shè)置為1×10-4,權(quán)重衰減設(shè)置為5×10-4,訓(xùn)練輪數(shù)設(shè)置為100,批次大小設(shè)置為256,采用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,使用Adam 隨機(jī)梯度下降算法進(jìn)行參數(shù)的迭代優(yōu)化;TGNN的初始學(xué)習(xí)率設(shè)置為5×10-4,權(quán)重衰減設(shè)置為5×10-4,訓(xùn)練輪數(shù)設(shè)置為1 000,逐時間步整圖訓(xùn)練,采用加權(quán)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,正負(fù)樣本權(quán)重比例6∶4,同樣使用Adam 隨機(jī)梯度下降算法進(jìn)行參數(shù)的迭代優(yōu)化。
在雙階段集成模塊中,以提升模型對正樣本的識別能力為目的,將超參數(shù)β設(shè)置為0.75。
本文實(shí)驗(yàn)平臺為:Win10 系統(tǒng)、i7-10875H 處理器、NVⅠDⅠA Quadro T2000顯卡。
3.3.1 模型有效性
為了驗(yàn)證本文設(shè)計方法的有效性,將本文方法與基準(zhǔn)圖卷積網(wǎng)絡(luò)GCN[13]、基于多特征融合的高性能深度網(wǎng)絡(luò)BATDet[9]與當(dāng)下合法性檢測領(lǐng)域最先進(jìn)的圖網(wǎng)絡(luò)AMNet[10]的方法進(jìn)行對比。采用精確度、召回率、F1-score以及準(zhǔn)確率作為衡量指標(biāo)。在Elliptic數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。實(shí)驗(yàn)表明,本文設(shè)計方案在四項指標(biāo)上均優(yōu)于其他方法,相比于GCN在綜合衡量指標(biāo)F1-score 上提升了31.6%,整體準(zhǔn)確率超過了98%,說明本文方法T2Rnet 對于合法樣本與非法樣本都有著良好的識別能力,具備高可靠性,能夠有效用于區(qū)塊鏈上的交易合法性檢測任務(wù)。
表1 交易合法性檢測結(jié)果對比Table 1 Comparison of transaction legitimacy discrimination results
3.3.2 可信深度森林相關(guān)對比
為了驗(yàn)證本文設(shè)計的可信深度森林的有效性,將TForest與經(jīng)典機(jī)器學(xué)習(xí)模型:支持向量機(jī)(SVM)、邏輯回歸(LR)、K-最近鄰(KNN)、多層感知機(jī)(MLP)、Adaboost、GBDT、XGBoost以及深度森林方法進(jìn)行對比,結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計的可信深度森林優(yōu)于其他經(jīng)典機(jī)器學(xué)習(xí)方法,并且相比于原始深度森林在精確度即對負(fù)樣本的識別方面獲得顯著提升。此外,在本實(shí)驗(yàn)中以提升原始深度森林的檢測準(zhǔn)確率為目的,采用大小分別為20、50、100的三個滑動窗口進(jìn)行多粒度掃描,最終得到的轉(zhuǎn)換向量維度為1 324;而本文設(shè)計的可信生成模塊在采用初始窗口大小為2、膨脹系數(shù)為2的設(shè)置之下得到的整體轉(zhuǎn)換向量維度僅172維。實(shí)驗(yàn)結(jié)果表明,TForest 在大幅減少訓(xùn)練成本的同時有效地提升了整體合法性檢測性能。
表2 TForest與機(jī)器學(xué)習(xí)模型對比Table 2 Comparison of TForest and machine learning models
為了更直觀地顯示本文對于深度森林中多粒度掃描的改進(jìn)效果,使用t-SNE(t-distributed stochastic neighbor embedding)[18]進(jìn)行二維映射,可視化了原始輸入特征、多粒度掃描生成特征與本文構(gòu)造的可信生成特征,如圖7所示。
圖7 生成特征對比圖Fig.7 Comparison of generated feature
圖中綠色圓點(diǎn)表示合法交易,紅色圓點(diǎn)表示非法交易。圖7(a)、(b)、(c)依次為原始特征、多粒度掃描特征與可信特征。由圖7可得,原始輸入中合法交易與非法交易的混雜情況較為明顯,難以有效區(qū)分;多粒度掃描生成特征相比于原始特征有了一定的類間間距,但仍有少部分合法樣本參雜在非法樣本群落之中;而本文設(shè)計的可信生成特征不僅具有一定的類間間距,而且有更小的類內(nèi)間距,分簇明顯,不存在合法樣本混雜在非法群落當(dāng)中的情況,有更加良好的區(qū)分度,證明了本文提出的可信特征構(gòu)造方法的有效性。
3.3.3 圖網(wǎng)絡(luò)方法對比
圖網(wǎng)絡(luò)方法的對比如表3。實(shí)驗(yàn)表明,本文設(shè)計的基于多頭自注意力機(jī)制的TGNN 全面優(yōu)于圖注意力網(wǎng)絡(luò)GAT[19],在綜合指標(biāo)F1-score上最佳。此外,跳躍連接的添加也提升了召回率,這對于雙階段集成而言具有更好的效果。
表3 圖網(wǎng)絡(luò)方法對比Table 3 Comparison of graph network methods
3.3.4 雙階段集成的內(nèi)部對比
為了驗(yàn)證本文設(shè)計的雙階段集成策略的有效性,將集成內(nèi)部各階段的子模型進(jìn)行對比,結(jié)果如表4。實(shí)驗(yàn)結(jié)果表明,對負(fù)樣本進(jìn)行專門識別的OR集成模型具備最高的精確度;而調(diào)和系數(shù)β設(shè)置為0.75下的軟投票集成模型Prob_ESM具備最好的召回率。此外,結(jié)果顯示,將雙階段集成策略中第二層的軟投票子模型替換成硬投票之后,得到的最終集成模型Vote_ESM 的綜合性能低于T2Rnet。
表4 雙階段集成內(nèi)部對比Table 4 Ⅰnternal comparison of two-stage ensemble
為驗(yàn)證本文方法的有效性,并對本文方法中的可信深度森林內(nèi)部的特征重排序、可變滑動窗口、維度裁剪、數(shù)據(jù)集不交叉等部分,以及雙階段集成模塊的調(diào)和比例超參β的效果有進(jìn)一步了解,本文進(jìn)行五類消融實(shí)驗(yàn)。
3.4.1 特征重排序的效果
如表5 所示,在LGBoost[20]與XGBoost 兩種不同生成模型的設(shè)置之下,采用特征重排序的檢測結(jié)果始終優(yōu)于不采用特征重排的結(jié)果。該實(shí)驗(yàn)表明,將特征按區(qū)分度重新排序后結(jié)合使用的操作有效減少了提取子樣本的混淆性,增強(qiáng)了生成特征的質(zhì)量,提升了合法性檢測的精度。
表5 特征重排序的消融實(shí)驗(yàn)Table 5 Ablation experiments for feature reordering
3.4.2 可變滑動窗口的影響
如表6所示,該實(shí)驗(yàn)測試的生成模型為:LGBoost與XGBoost,初始窗口大小分別為2、3、4、5,膨脹系數(shù)分別為2、3,共計八組不同設(shè)置下的檢測結(jié)果??梢钥吹讲煌瑒釉O(shè)置間的性能差異并不明顯,表明本文設(shè)計的可信深度森林對滑動窗口初始大小與膨脹系數(shù)的參數(shù)設(shè)置具有一定魯棒性。
表6 不同滑動設(shè)置的效果Table 6 Effect of different slide settings
3.4.3 維度裁剪的效果
如表7 所示,在隨機(jī)森林(RF)、極端隨機(jī)樹(EX)、LGBoost與XGBoost四種不同生成模型的設(shè)置之下,采用維度裁剪的檢測精度均有了一定程度的提升。該實(shí)驗(yàn)表明,維度裁剪對于降低生成特征的冗余度與避免后續(xù)級聯(lián)森林的過擬合起到有效的作用。
表7 維度裁剪的消融實(shí)驗(yàn)Table 7 Ablation experiments for dimension crop
3.4.4 數(shù)據(jù)集不交叉的影響
如表8 所示,該實(shí)驗(yàn)分別從訓(xùn)練集中抽取出1 500、2 000、2 500、3 000個樣本作為生成模型專用數(shù)據(jù)集,由結(jié)果可知將用于訓(xùn)練生成模型的數(shù)據(jù)與用于訓(xùn)練級聯(lián)森林的數(shù)據(jù)區(qū)分開來可以有效提升可信深度森林的整體性能。這是因?yàn)橛?xùn)練生成模塊的樣本再投入生成模塊進(jìn)行特征生成時會得到與數(shù)據(jù)標(biāo)簽高度一致的生成特征,繼而使得級聯(lián)森林過度依賴該部分特征,導(dǎo)致產(chǎn)生過擬合的現(xiàn)象。因此只需單獨(dú)劃分出少量數(shù)據(jù)用以生成模塊的訓(xùn)練即可解決該問題。
表8 數(shù)據(jù)集不交叉的影響Table 8 Effect of no-crossover dataset division
3.4.5 雙階段集成超參數(shù)β 的影響
如表9所示,雙階段第二層最后一個子模型使用帶調(diào)和系數(shù)β的軟投票方法的最終集成結(jié)果始終優(yōu)于使用相對多數(shù)硬投票的結(jié)果,并且當(dāng)設(shè)置β為0.75時性能最佳。因?yàn)樵撛O(shè)置更多關(guān)注對正樣本的識別,當(dāng)與關(guān)注負(fù)樣本的OR_ESM以及能力均衡的TForest一起結(jié)合使用時,將得出更優(yōu)秀的集成結(jié)果。
表9 不同β 對檢測精度的影響Table 9 Effect of different β on detection accuracy
本文提出了一個融合可信深度森林與雙階段集成策略的多角度高性能的區(qū)塊鏈交易合法性檢測方法。結(jié)合特征重排序與可變滑動窗口實(shí)現(xiàn)可信特征的構(gòu)造,解決了多粒度掃描中存在的采樣不均衡、樣本易混淆與維度爆發(fā)式增長的問題,獲得了更高的交易檢測精度;同時引入具備交易連接關(guān)系分析能力的TGNN 與深度挖掘交易本征信息的ResNet,并基于上述三類子模型對于正負(fù)樣本的識別能力差異,設(shè)計逐層優(yōu)化的雙階段集成策略,取得更優(yōu)的綜合檢測性能。實(shí)驗(yàn)結(jié)果表明,本文方法在精確度、召回率、F1-score以及準(zhǔn)確率等各項指標(biāo)上均都優(yōu)于當(dāng)下先進(jìn)方法,具備可靠的鏈上交易合法性檢測能力。后續(xù)研究將重點(diǎn)考慮提高動蕩交易環(huán)境下的模型魯棒性,并進(jìn)一步加強(qiáng)模型對于非法交易的檢測能力。