• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于并行的區(qū)塊鏈異常交易檢測(cè)隨機(jī)森林模型研究

    2022-01-24 08:04:22趙永斌尤軍考
    關(guān)鍵詞:決策樹進(jìn)程邏輯

    趙永斌,陳 苗,李 濤,尤軍考

    (1.石家莊鐵道大學(xué)信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043;2.中國鐵路北京局集團(tuán)有限公司石家莊電務(wù)段,河北 石家莊 050000;3.中國移動(dòng)通信集團(tuán)河北有限公司,河北 石家莊 050000)

    0 引言

    比特幣作為區(qū)塊鏈的首個(gè)廣泛應(yīng)用,伴隨著區(qū)塊鏈技術(shù)發(fā)展逐漸成為區(qū)塊鏈研究的重點(diǎn)。作為第一個(gè)公開使用的私人數(shù)字貨幣,其具有去中心化、匿名性、轉(zhuǎn)賬成本低、全球流通便捷等特性,降低了人們踏入金融行業(yè)的門檻[1]。但是,由于加密貨幣不受政府控制,允許個(gè)人和組織繞過法律及監(jiān)管部門的監(jiān)管,由此導(dǎo)致洗錢等一些非法交易逐漸猖獗。根據(jù)美國聯(lián)邦調(diào)查局(FBI)的報(bào)告稱,從2015年到2017年,與虛擬貨幣相關(guān)的案件增長了近6倍,僅在2018年上半年中,加密貨幣犯罪就在2017年全年數(shù)量的基礎(chǔ)上增長了3倍。2020年,Mirror Trading International在南非實(shí)施了世界上最大的加密貨幣騙局,數(shù)十萬受害者被騙走了價(jià)值5.88億美元的比特幣。2021年4月,南非再次出現(xiàn)了更大一起的加密貨幣案件,一家名為Africrypt公司的兩位創(chuàng)始人,在幾個(gè)小時(shí)內(nèi)從投資者那里竊取了36億美元。Chainalysis發(fā)布的最新加密犯罪報(bào)告指出,俄羅斯、中國、美國、英國、法國、烏克蘭、韓國、越南、土耳其和南非是從非法地址接收加密貨幣數(shù)量最多的國家[2]。因此,對(duì)以比特幣為代表的區(qū)塊鏈異常交易行為檢測(cè)刻不容緩。

    異常交易檢測(cè)方法主要分為無監(jiān)督、有監(jiān)督兩類。無監(jiān)督學(xué)習(xí)技術(shù)包括自組織映射[3]和Peer Group Analysis[4];監(jiān)督學(xué)習(xí)技術(shù)有決策樹[5]、邏輯回歸[6]、貝葉斯信念網(wǎng)絡(luò)(貝葉斯網(wǎng)絡(luò))[7]、關(guān)聯(lián)規(guī)則[8]、支持向量機(jī)[6]、遺傳算法[9]。近年來,發(fā)展起來的基于多學(xué)習(xí)器組合的集成學(xué)習(xí)方法,在欺詐檢測(cè)領(lǐng)域取得良好的效果。2018年,Navanushu Khare等人在高度傾斜的欺詐數(shù)據(jù)集上進(jìn)行了邏輯回歸、隨機(jī)森林、決策樹、SVM對(duì)比實(shí)驗(yàn),指出隨機(jī)森林效果明顯優(yōu)于其他算法[10]。同年,Massimo Bartoletti等人進(jìn)行了多組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)同樣表明隨機(jī)森林方法是檢測(cè)龐氏騙局最為有效且通用的方法[11]。2019年,Mark Weber等人指出:邏輯回歸具有較強(qiáng)的可解釋性,隨機(jī)森林具有較強(qiáng)的準(zhǔn)確性,能有效用于比特幣反洗錢檢測(cè)[12]。隨機(jī)森林準(zhǔn)確性較高但訓(xùn)練時(shí)間較長,邏輯回歸雖然訓(xùn)練時(shí)間較短但準(zhǔn)確性較差,因此本文提出了一種并行隨機(jī)森林訓(xùn)練模型的方法,通過創(chuàng)建多個(gè)進(jìn)程并行處理計(jì)算任務(wù),提升數(shù)據(jù)計(jì)算的效率,有效解決了隨機(jī)森林訓(xùn)練時(shí)間較長的問題。

    1 相關(guān)技術(shù)與研究

    1.1 邏輯回歸

    目前邏輯回歸主要用于解決二分類問題,其內(nèi)容主要包含假設(shè)函數(shù)、決策邊界、代價(jià)函數(shù)和參數(shù)優(yōu)化[13]。

    (1)假設(shè)函數(shù)。構(gòu)造假設(shè)函數(shù)以多變量線性回歸為基礎(chǔ),綜合考慮多個(gè)變量得到其線性組合。二分類采用非線性函數(shù) Sigmoid將線性回歸計(jì)算的結(jié)果映射到[0,1]區(qū)間。計(jì)算邏輯回歸的假設(shè)函數(shù)為式(1)所示。

    (1)

    其中x為多維輸入變量,θ為多維輸入變量對(duì)應(yīng)的權(quán)值。

    (2)決策邊界。經(jīng)過sigmoid非線性函數(shù)可以將任意連續(xù)值映射為 [0,1] 區(qū)間內(nèi)的值,但并不是二值映射,為得到二分類問題的最終結(jié)果,可以通過設(shè)定決策邊界來將連續(xù)值轉(zhuǎn)化為離散的二值。例如設(shè)定的邊界為0.5,函數(shù)的輸出大于0.5時(shí),即將該結(jié)果視為1,否則視為0。

    (3)代價(jià)函數(shù)。代價(jià)函數(shù)用于評(píng)判對(duì)實(shí)際問題擬合效果的好壞。代價(jià)函數(shù)越小代表模型在實(shí)際問題上的適應(yīng)性越好,反之則越差。邏輯回歸的代價(jià)函數(shù)計(jì)算訓(xùn)練集中每一個(gè)樣本的偏差值并取平均,為更好地適應(yīng)二分類問題會(huì)對(duì)每個(gè)樣本的偏差進(jìn)行對(duì)數(shù)運(yùn)算,代價(jià)函數(shù)的計(jì)算如公式(2)所示,代價(jià)函數(shù)的向量化表示見公式(3)。

    (2)

    (3)

    其中x為多維輸入變量,θ為多維輸入變量對(duì)應(yīng)的權(quán)值,h為樣本對(duì)應(yīng)的實(shí)際輸出。

    (4)參數(shù)優(yōu)化方法。不斷修改權(quán)值使代價(jià)函數(shù)減小的過程即為參數(shù)優(yōu)化。采用梯度下降算法更新邏輯回歸參數(shù)[14],通過不斷計(jì)算代價(jià)函數(shù)關(guān)于權(quán)值的梯度,并利用梯度負(fù)方向?yàn)楹瘮?shù)下降速度最快的方向這一準(zhǔn)則更新權(quán)值,使代價(jià)函數(shù)能隨梯度的更新不斷下降。對(duì)式(2)所示代價(jià)函數(shù)的構(gòu)造形式,可得到其相對(duì)于各個(gè)權(quán)值的梯度,從而得出權(quán)值的更新規(guī)則,如公式(4)所示,權(quán)值更新規(guī)則的向量化表達(dá)公式(5)所示。

    (4)

    (5)

    其中α為學(xué)習(xí)率,其大小代表了參數(shù)更新的速度。

    1.2 隨機(jī)森林

    隨機(jī)森林由多棵決策樹組成,決策樹是一種非常典型的分類方法,其形狀像一棵樹,其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)則代表一種類別。目前經(jīng)典的決策樹算法有ID3、C4.5和CART[15]。決策樹中的相關(guān)概念如下:

    (1)信息。香農(nóng)指出信息是事物運(yùn)動(dòng)狀態(tài)或存在方式的不確定的描述[16]。在決策樹中,集合分類后,某類中事件xi的信息量定義為:

    I(X=xi)=-log2(p(xi))

    (6)

    其中I(x)用來表示隨機(jī)變量的信息量,p(xi)為隨機(jī)事件xi發(fā)生時(shí)的概率。

    (2)信息熵。信息熵用于衡量事件集合的不確定性,當(dāng)熵越大,集合的不確定性越大,反之則越小。事件集合X熵的定義如下:

    (7)

    對(duì)于機(jī)器學(xué)習(xí)中的分類問題,熵越大表示該類別的不確定性越大,反之則越小。

    (3)信息增益。ID3決策樹算法中使用信息增益作為選擇特征的指標(biāo),增益越大,則代表這個(gè)特征的選擇性越好。信息增益的具體定義如下:

    Gain(X,A)=H(X)-H(X|A)

    (8)

    其中H(X)是事件集的熵,H(X|A)是按照屬性A劃分后的條件熵。

    (4)信息增益率。在C4.5決策樹算法中使用信息增益率作為選擇特征的指標(biāo),優(yōu)化了信息增益偏向值個(gè)數(shù)多的屬性的缺陷。具體公式如下:

    (9)

    (5)基尼指數(shù)。CART決策樹算法中基尼指數(shù)作為選擇特征的指標(biāo),代表數(shù)據(jù)的純度?;嶂笖?shù)越大,則代表數(shù)據(jù)越不純,也就說明不確定性越大,進(jìn)行分類也就越困難。

    (10)

    其中p(x)表示樣本屬于某個(gè)類別的概率。

    隨機(jī)森林屬于集成算法中的Bagging類型,訓(xùn)練多個(gè)弱分類器,各自獨(dú)立做出預(yù)測(cè),將弱分類器的結(jié)果進(jìn)行投票得到最后結(jié)果,使模型得到的最終結(jié)果擁有較高的泛化能力和精確度。隨機(jī)森林之所以能具有較好的效果,是因?yàn)椤半S機(jī)”使模型具有抗過擬合能力,“森林”使模型更加準(zhǔn)確。

    1.3 區(qū)塊鏈異常交易檢測(cè)數(shù)據(jù)集

    Elliptic數(shù)據(jù)集[17]進(jìn)行區(qū)塊鏈異常交易檢測(cè),數(shù)據(jù)集包含合法的真實(shí)實(shí)體和非法實(shí)體。合法實(shí)體有礦工、錢包提供商、交易所等。非法實(shí)體有恐怖組織、詐騙、龐氏騙局、惡意軟件、勒索軟件等,共計(jì)203769個(gè)節(jié)點(diǎn)交易以及234355條邊,其中4545筆交易被標(biāo)記為非法,42019筆交易被標(biāo)記為合法,其余未被標(biāo)記,其中合法與非法標(biāo)記過程是由基于啟發(fā)式的推理過程決定。根據(jù)時(shí)間戳,此數(shù)據(jù)集將交易劃分為49個(gè)時(shí)間步長。每筆交易具有166個(gè)交易相關(guān)特征,其中有原生特征94個(gè),如時(shí)間步長、手續(xù)費(fèi)等;聚合特征72個(gè),如從中心節(jié)點(diǎn)向前/向后一跳聚合事務(wù)信息計(jì)算得出的最小值、最大值、相關(guān)系數(shù)和標(biāo)準(zhǔn)差等[12]。

    本文采用Elliptic數(shù)據(jù)集中的前26個(gè)特征,隨機(jī)選取21000條已標(biāo)記數(shù)據(jù),按照7∶3劃分訓(xùn)練集,測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)集各類別數(shù)量如表1所示。

    表1 樣本數(shù)量分布

    1.4 基于邏輯回歸的區(qū)塊鏈異常交易檢測(cè)

    Mark Weber等人曾采用邏輯回歸進(jìn)行區(qū)塊鏈異常交易檢測(cè),其采用Elliptic數(shù)據(jù)集中帶標(biāo)簽的全部數(shù)據(jù)按照7∶3劃分訓(xùn)練集,測(cè)試集[12]。首先對(duì)Elliptic數(shù)據(jù)集進(jìn)行預(yù)處理,然后訓(xùn)練得到邏輯回歸模型,最后通過模型檢測(cè)異常交易。使用邏輯回歸進(jìn)行區(qū)塊鏈異常交易檢測(cè)流程如圖1所示。

    圖1 基于邏輯回歸的區(qū)塊鏈異常交易檢測(cè)

    1.5 基于隨機(jī)森林的區(qū)塊鏈異常交易檢測(cè)

    Mark Weber等人曾采用隨機(jī)森林進(jìn)行區(qū)塊鏈異常交易檢測(cè),其采用Elliptic數(shù)據(jù)集中帶標(biāo)簽的全部數(shù)據(jù)按照7∶3劃分訓(xùn)練集,測(cè)試集[12]。過程中采用Bootstrap抽樣的方法得到各棵決策樹的訓(xùn)練集,通過各棵決策樹得出測(cè)試結(jié)果,最終再通過投票得出區(qū)塊鏈異常交易檢測(cè)的結(jié)果。訓(xùn)練測(cè)試m棵決策樹的隨機(jī)森林異常交易檢測(cè)過程如圖2所示。

    圖2 隨機(jī)森林模型

    此方法沒有利用好每棵決策樹都相互獨(dú)立的特點(diǎn),導(dǎo)致訓(xùn)練時(shí)間過長,所以完全可以開啟多個(gè)進(jìn)程,讓每個(gè)進(jìn)程并行生成決策樹進(jìn)行異常交易檢測(cè),優(yōu)化訓(xùn)練耗時(shí)較長的弊端。

    2 基于并行隨機(jī)森林的區(qū)塊鏈異常交易檢測(cè)

    2.1 并行隨機(jī)森林檢測(cè)模型

    并行隨機(jī)森林進(jìn)行區(qū)塊鏈異常交易檢測(cè)的過程中采用預(yù)處理后的Elliptic數(shù)據(jù)集,生成多個(gè)進(jìn)程,由各個(gè)進(jìn)程共同承擔(dān)建樹的任務(wù),運(yùn)用Bootstrap抽樣的方法得到各棵決策樹的訓(xùn)練集,生成決策樹后預(yù)測(cè)結(jié)果,各進(jìn)程檢測(cè)結(jié)果通過投票得出,最后再通過各進(jìn)程檢測(cè)結(jié)果投票得出最終結(jié)果,n個(gè)進(jìn)程并行訓(xùn)練m棵決策樹的隨機(jī)森林異常交易檢測(cè)過程如圖3所示。訓(xùn)練多進(jìn)程隨機(jī)森林模型的具體過程為:

    Step1計(jì)算每個(gè)進(jìn)程應(yīng)生成決策樹的個(gè)數(shù), tree_nums←隨機(jī)森林中決策樹的數(shù)量(n_estimators)/進(jìn)程數(shù)(n_processes)。

    Step2生成n_processes個(gè)進(jìn)程,再分別將訓(xùn)練集、標(biāo)簽集、決策樹參數(shù)等信息傳入單進(jìn)程訓(xùn)練函數(shù)進(jìn)行訓(xùn)練。

    進(jìn)程代碼如下:

    #detree_queue,決策樹隊(duì)列;i, 進(jìn)程號(hào);tree_nums,進(jìn)程中需生成決策樹的個(gè)數(shù);Tr,訓(xùn)練集;Te,標(biāo)簽集;detr_args,決策樹參數(shù);processes,進(jìn)程列表

    for i in range(self. n_processes):

    p =Process(target=signal_train, args=(self.detree_queue, i, tree_nums , Tr, Te, detr_args))

    p.start()

    processes.append(p)

    for p in processes:

    p.join()

    Step3單進(jìn)程訓(xùn)練函數(shù)(signal_train)訓(xùn)練tree_nums棵樹,每棵樹用bootstrap方法生成的訓(xùn)練集訓(xùn)練決策樹,最后將決策樹存入隊(duì)列(隨機(jī)森林)。

    圖3 并行隨機(jī)森林模型

    2.2 實(shí)驗(yàn)環(huán)境

    實(shí)驗(yàn)采用聯(lián)想LiCO智能超算平臺(tái),單節(jié)點(diǎn)16核進(jìn)行訓(xùn)練,本地計(jì)算機(jī)配置為Intel(R) Core(TM) i5-4210M CPU @ 2.60GHz,8.00 GB內(nèi)存。編程語言為python3.6.8,編程中采用scikit-learn庫,隨機(jī)森林與并行隨機(jī)森林實(shí)驗(yàn)中參數(shù)n_estimators設(shè)置為500,其他參數(shù)選取為默認(rèn)值。

    2.3 實(shí)驗(yàn)結(jié)果分析

    2.3.1 評(píng)價(jià)指標(biāo)

    區(qū)塊鏈異常交易檢測(cè)采用precision,recall和F1三個(gè)指標(biāo)衡量實(shí)驗(yàn)效果,具體定義如下:

    (11)

    (12)

    (13)

    實(shí)驗(yàn)中異常交易為正例(positive),正常交易為負(fù)例(negative)。TN代表實(shí)際與檢測(cè)結(jié)果皆為異常交易的個(gè)數(shù)。FP代表實(shí)際為異常交易,但檢測(cè)結(jié)果為正常交易的個(gè)數(shù)。FN代表實(shí)際為正常交易,但檢測(cè)結(jié)果為異常交易的個(gè)數(shù)。TP代表實(shí)際與檢測(cè)結(jié)果皆為正常交易的個(gè)數(shù)。

    2.3.2 邏輯回歸實(shí)驗(yàn)

    表2列出了基于邏輯回歸的區(qū)塊鏈異常交易檢測(cè)結(jié)果。雖然訓(xùn)練時(shí)間僅為0.163s,但其較低的precision、recall、F1表明邏輯回歸不適合成為檢測(cè)區(qū)塊鏈異常交易的方法。

    表2 邏輯回歸異常交易檢測(cè)結(jié)果

    2.3.3 并行隨機(jī)森林實(shí)驗(yàn)

    表3列出了隨機(jī)森林與2-8進(jìn)程并行隨機(jī)森林模型的異常交易檢測(cè)結(jié)果。在采用同樣環(huán)境和數(shù)據(jù)集的情況下,結(jié)果表明隨機(jī)森林和不同進(jìn)程數(shù)并行訓(xùn)練出的隨機(jī)森林模型在precision,recall,F1上保持一致,且具有較高的分類準(zhǔn)確性。

    表3 隨機(jī)森林及多進(jìn)程并行隨機(jī)森林的異常交易檢測(cè)結(jié)果比較

    為了進(jìn)一步驗(yàn)證實(shí)驗(yàn)結(jié)論,分別進(jìn)行了14000條和7000條樣本的對(duì)比實(shí)驗(yàn),并行隨機(jī)森林模型的訓(xùn)練時(shí)間均明顯下降,如圖4、圖5所示。

    圖4 不同樣本量數(shù)據(jù)集進(jìn)程數(shù)與訓(xùn)練時(shí)長的關(guān)系圖

    圖5 不同樣本量數(shù)據(jù)集訓(xùn)練時(shí)間下降率圖

    從實(shí)驗(yàn)結(jié)果看,不同樣本量數(shù)據(jù)集的并行隨機(jī)森林在訓(xùn)練時(shí)間下降率上并沒有明顯差異。隨著進(jìn)程數(shù)取值越大,訓(xùn)練時(shí)長下降的效果也越來越好,當(dāng)八進(jìn)程并行訓(xùn)練隨機(jī)森林時(shí),時(shí)間下降率可達(dá)到85%左右,但整體并不是呈線性趨勢(shì),時(shí)間下降先快后慢,當(dāng)進(jìn)程數(shù)逐漸增多時(shí),出現(xiàn)時(shí)間下降不明顯的現(xiàn)象。因此如何能更好地平衡運(yùn)算時(shí)間和通信時(shí)間極為重要。當(dāng)運(yùn)算時(shí)間所占比例越多,通信時(shí)間所占比例越少的時(shí)候并行運(yùn)算效率達(dá)到最大。仿真實(shí)驗(yàn)表明基于多進(jìn)程并行隨機(jī)森林的區(qū)塊鏈異常交易檢測(cè)在不降低準(zhǔn)確性的同時(shí),節(jié)省了大量訓(xùn)練時(shí)間。

    3 結(jié)論

    針對(duì)以比特幣為代表的區(qū)塊鏈異常交易檢測(cè),在分析隨機(jī)森林與邏輯回歸訓(xùn)練模型的特點(diǎn)基礎(chǔ)上,提出了并行隨機(jī)森林訓(xùn)練模型,此模型在不降低準(zhǔn)確性的前提下,大幅減少了訓(xùn)練時(shí)間,為區(qū)塊鏈異常交易檢測(cè)技術(shù)提供了新的解決方案。在今后的研究工作中,將深入優(yōu)化基于并行隨機(jī)森林的異常交易檢測(cè)算法,提高檢測(cè)的效率與準(zhǔn)確性。

    猜你喜歡
    決策樹進(jìn)程邏輯
    刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
    法律方法(2022年2期)2022-10-20 06:44:24
    邏輯
    創(chuàng)新的邏輯
    債券市場(chǎng)對(duì)外開放的進(jìn)程與展望
    中國外匯(2019年20期)2019-11-25 09:54:58
    一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    女人買買買的神邏輯
    37°女人(2017年11期)2017-11-14 20:27:40
    基于決策樹的出租車乘客出行目的識(shí)別
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    社會(huì)進(jìn)程中的新聞學(xué)探尋
    句容市| 奉节县| 尉犁县| 综艺| 措勤县| 徐水县| 兴安盟| 徐汇区| 诏安县| 泗水县| 体育| 黄陵县| 延边| 加查县| 邻水| 隆回县| 泌阳县| 宿松县| 大丰市| 长治县| 台东市| 那曲县| 浦县| 中阳县| 大渡口区| 中山市| 南皮县| 曲水县| 贡山| 揭西县| 扶余县| 黄大仙区| 眉山市| 巴彦淖尔市| 邯郸市| 枝江市| 石嘴山市| 桓台县| 梁平县| 临桂县| 碌曲县|