林郅睿 虞宇翔 胡林偉 王青林 李翔 張浩東
摘要:近年來網(wǎng)絡(luò)交易詐騙案件眾多,給人們的財(cái)產(chǎn)安全帶來極大的隱患,間接帶來大量的社會問題。機(jī)器學(xué)習(xí)算法的設(shè)計(jì)并不能完全學(xué)習(xí)網(wǎng)絡(luò)交易的時(shí)序問題。針對以上問題本文提出基于卷積神經(jīng)網(wǎng)絡(luò)模型。其次針對網(wǎng)絡(luò)交易中正常交易和詐騙交易的樣本分布不均衡的問題以及用用戶交易模式中時(shí)序關(guān)系系數(shù)的問題,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的詐騙檢測模型。
關(guān)鍵詞:網(wǎng)絡(luò)交易;卷積神經(jīng)網(wǎng)絡(luò);神經(jīng)網(wǎng)絡(luò)
1.背景概述
近年來我國互聯(lián)網(wǎng)金融業(yè)發(fā)展迅猛,互聯(lián)網(wǎng)金融消費(fèi)增長亮眼。數(shù)據(jù)顯示我國2015年互聯(lián)網(wǎng)金融消費(fèi)為0.1萬億元,截止2018年我國物聯(lián)網(wǎng)金融消費(fèi)規(guī)模增長至1.5萬億元。此外2016年互聯(lián)網(wǎng)金融消費(fèi)增速達(dá)到頂峰,增長約225%??梢钥闯霭殡S著網(wǎng)絡(luò)交易的持續(xù)性增長,客觀上也帶來了巨大的金融風(fēng)險(xiǎn)。那么傳統(tǒng)的反欺詐技術(shù)諸如專家規(guī)則檢測系統(tǒng)被應(yīng)用于多數(shù)的欺詐檢測鄰域。對已存在的詐騙行為模式可以精準(zhǔn)識別。但是網(wǎng)絡(luò)詐騙交易具有主觀性強(qiáng)、欺詐種類多、發(fā)生頻率高、欺詐手段更快等特征,傳統(tǒng)的系統(tǒng)無法適應(yīng)網(wǎng)絡(luò)交易的諸多特征,面臨著維度單一效率低下的問題?;谠诖吮尘?,近年來深度學(xué)習(xí)模型逐漸被應(yīng)用與詐騙模型當(dāng)中,那么相較于傳統(tǒng)的技術(shù),基于卷積神經(jīng)網(wǎng)絡(luò)詐騙模型可以用海量的數(shù)據(jù)來發(fā)現(xiàn)未被發(fā)現(xiàn)的交易。針對以上問題本文對互聯(lián)網(wǎng)上相關(guān)的詐騙現(xiàn)象進(jìn)行相關(guān)研究。
2.卷積神經(jīng)網(wǎng)絡(luò)原理
卷積神經(jīng)網(wǎng)絡(luò)是一種基于深度學(xué)習(xí)并帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),解決了在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)所存在的具有大量參數(shù),大量權(quán)值以及在運(yùn)行過程中易發(fā)生擬合,巡訓(xùn)練時(shí)間長的缺點(diǎn)。對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù),卷積神經(jīng)網(wǎng)絡(luò)所具有的良好的信息處理能力和自學(xué)能力,可以面對容量大、干擾因素多的復(fù)雜情況,推理模型的情況不明下依然可以有較好的表現(xiàn)。在輸入數(shù)據(jù)為圖象時(shí)表現(xiàn)更加明顯,使得圖像可以直接輸入,避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法中對于復(fù)雜的圖像提取器特征圖以及數(shù)據(jù)重建的過程。CNN各個(gè)層次之間的緊密相關(guān)性使得其對目標(biāo)獲取的數(shù)據(jù)具有高度相關(guān)性,同時(shí)在深度學(xué)習(xí)之下更加善于獲取數(shù)據(jù)的局部特征。
卷積神經(jīng)網(wǎng)絡(luò)主要使用局部鏈接、權(quán)值共享、多卷積核以及池化四個(gè)關(guān)鍵技術(shù)對于除多卷積核以外的三種技術(shù),其目的都是為了減少參數(shù)量,簡化其模型訓(xùn)練的同時(shí)防止模型的擬合。只不過所采取的方式方法大同小異和所依靠的原理不同,而多卷積核其目的則是為了讓特征提取也就是對于目標(biāo)的獲取更加充分,從而提高其模型的精準(zhǔn)度。
(1)局部鏈接
對于局部鏈接,模仿了生物學(xué)的特點(diǎn)。對于每個(gè)神經(jīng)元來說不需要獲取所有的信息,而是只對局部的信息進(jìn)行感知,之后在最高處進(jìn)行信息的整合類似于神經(jīng)網(wǎng)絡(luò)中的輸出層通過對已感知的數(shù)據(jù)信息整合從而做出預(yù)測。因此,兩層之間完全沒有必要采用全鏈接的方式。對于隱藏層的感受域只需要劃分好局部的圖像相連即可。但展現(xiàn)出來的問題是其相較于人們對于想要盡可能的簡化算法,所需要訓(xùn)練的參數(shù)依然很多。此時(shí)便需要權(quán)值共享技術(shù)以及池化技術(shù)。
(2)權(quán)值共享技術(shù)
所謂權(quán)值共享技術(shù),從其名字中就可以了解到,就是對于目標(biāo)全部使用同一個(gè)權(quán)值參數(shù)。設(shè)定每一個(gè)神經(jīng)元和n*n個(gè)像素相連,那么每個(gè)神經(jīng)元則具有n2個(gè)鏈接的權(quán)值參數(shù),若每個(gè)權(quán)值參數(shù)都不相同那么其形成的數(shù)據(jù)量將會非常龐大,如果其權(quán)值相同則會大大減少參數(shù)量。那么我們設(shè)計(jì)以一個(gè)m*m的模板所有的區(qū)域都使用這一模板來進(jìn)行計(jì)算。但事實(shí)上多卷積技術(shù)還是存在較高的參數(shù)量,這顯然與我們的初衷所違背,此時(shí)我們則需要采用池化技術(shù)進(jìn)行再次優(yōu)化。
(3)池化技術(shù)
在實(shí)際應(yīng)用當(dāng)中,分配內(nèi)存,創(chuàng)建內(nèi)存等等都會調(diào)用設(shè)備系統(tǒng),那么當(dāng)重復(fù)進(jìn)行這些操作時(shí)大大消耗計(jì)算機(jī)運(yùn)行速度,時(shí)非常耗時(shí)的操作,由此人們便迫切需要一種能夠解決方法。池化技術(shù)是為了提前保存出大量的資源,從而建立出進(jìn)程池,線程池,內(nèi)存池,鏈接池避免重復(fù)的創(chuàng)建。線程池執(zhí)行原理如下
第一:如果線程池中線程數(shù)少于 coreThreadCount 時(shí),處理新任務(wù)時(shí)會創(chuàng)建新線程。
第二:如果線程池中線程數(shù)大于 coreThreadCount 則把任務(wù)丟到一個(gè)隊(duì)列里面,由當(dāng)前空閑的線程執(zhí)行
第三:當(dāng)隊(duì)列中的任務(wù)堆積滿時(shí),則繼續(xù)創(chuàng)建線程,直到達(dá)到 maxThreadCount。
第四:當(dāng)線程數(shù)達(dá)到 maxTheadCount 時(shí)還有新的任務(wù)提交,那么就將它們丟棄。
3.詐騙交易檢測模型
基于卷積神經(jīng)網(wǎng)絡(luò)的詐騙交易檢測模型主要由用戶數(shù)據(jù)采集(例如用戶電話號,銀行賬戶號等等)、用戶數(shù)據(jù)輸入、數(shù)據(jù)篩選(防止無效數(shù)據(jù)的輸入)、構(gòu)建特征圖(一部分用于構(gòu)建模型,另一部分用于模型的檢測)、得出數(shù)據(jù)可視化結(jié)果。
如圖2所示,整個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)道德詐騙交易檢測模型由數(shù)據(jù)采集層以及模型訓(xùn)練優(yōu)化層組成,上一層由用戶數(shù)據(jù)采集、篩選用戶數(shù)據(jù)、構(gòu)建特征圖三大模塊構(gòu)成。數(shù)據(jù)采集獲取對于用戶有潛在被詐騙的相關(guān)數(shù)據(jù)。用戶特征圖構(gòu)造模塊用來構(gòu)建用戶的聚合特征,生成以縱軸為時(shí)間段、橫軸為特征的展示用戶通話特征的特征圖,其中一部分作為訓(xùn)練數(shù)據(jù)可輸入進(jìn)入訓(xùn)練模塊,另一部分可作為預(yù)測數(shù)據(jù)輸入行為識別模塊。下一層由構(gòu)建模型、檢測模型及可視化模型三大模塊組成。
4.數(shù)據(jù)統(tǒng)計(jì)分析與處理
數(shù)據(jù)統(tǒng)計(jì)分析就是運(yùn)用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法,對收集到的大量數(shù)據(jù)進(jìn)行分析,從中提取有用的信息,從中提取有用的信息、形成結(jié)論、對數(shù)據(jù)進(jìn)行細(xì)致的研究和歸納。統(tǒng)計(jì)領(lǐng)域中,數(shù)據(jù)分析被分成描述統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析和驗(yàn)證性數(shù)據(jù)分析,探索性數(shù)據(jù)分析側(cè)重于發(fā)現(xiàn)數(shù)據(jù)中的新特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的確認(rèn)或證實(shí)。主要包括為確定需求、收集數(shù)據(jù)、分析數(shù)據(jù)等幾種方法。
在大多數(shù)情況下原始的數(shù)據(jù)從生產(chǎn)環(huán)境中被獲取后,是不能直接用于分析建模的。因?yàn)榇藭r(shí)的數(shù)據(jù)是不規(guī)則的,需要經(jīng)過大量的數(shù)據(jù)清洗工作,是數(shù)據(jù)變?yōu)橐?guī)整的、具有明確含義的、沒有重復(fù)性、可以入模的數(shù)據(jù)。原始的數(shù)據(jù)通常具有不一致性、重復(fù)性、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約的幾種方式。。
5.結(jié)束語
在社會互聯(lián)網(wǎng)金融信息的高速發(fā)展之下,網(wǎng)絡(luò)交易體量也在不斷的上升,這對于傳統(tǒng)的網(wǎng)絡(luò)詐騙檢測工作產(chǎn)生了巨大的困擾,若不及時(shí)的提升技術(shù)水平那么勢必將造成巨大的經(jīng)濟(jì)損失,從而本文基于這樣的背景下提出了基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)交易詐騙檢測模型的相關(guān)技術(shù)及其研究,為其提供了很好的技術(shù)方向,通過引入卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)一步提高檢測網(wǎng)絡(luò)交易詐騙的能力。
參考文獻(xiàn):
[1]蘇振宇,宋桂香.服務(wù)器管理控制系統(tǒng)威脅建模與應(yīng)用[J].??計(jì)算機(jī)應(yīng)用.?2019(07)
[2]王琎.我國網(wǎng)絡(luò)可信身份的互通互認(rèn)研究[J].網(wǎng)絡(luò)空間安全.?2018(10)
[3]周余陽,程光,郭春生.?基于貝葉斯攻擊圖的網(wǎng)絡(luò)攻擊面風(fēng)險(xiǎn)評估方法[J].?網(wǎng)絡(luò)與信息安全學(xué)報(bào).?2018(06)
作者簡介:林郅睿,衢州學(xué)院電氣信息學(xué)院2020級物聯(lián)網(wǎng)工程專業(yè)本科學(xué)生。資助項(xiàng)目:國家級大學(xué)科技創(chuàng)新項(xiàng)目(基于Spark的校園網(wǎng)蜜罐系統(tǒng)的研究與設(shè)計(jì),基于神經(jīng)網(wǎng)絡(luò)的詐騙識別分類器設(shè)計(jì)與實(shí)現(xiàn))。