孔繁盛,蔣周良,胡斌,張歡
(中移互聯(lián)網(wǎng)有限公司,廣州 510640)
基于PCA融合神經(jīng)網(wǎng)絡(luò)的移動設(shè)備威脅研究
孔繁盛,蔣周良,胡斌,張歡
(中移互聯(lián)網(wǎng)有限公司,廣州 510640)
為了提高移動設(shè)備存在威脅風(fēng)險分析的準(zhǔn)確率和抗干擾能力,進而降低投訴率,提出一種基于PCA融合BP神經(jīng)網(wǎng)絡(luò)風(fēng)險分析模型。通過核主成分分析將設(shè)備威脅類型從10個特征量降低到3個主特征量,提取了原始數(shù)據(jù)的主信息,并以降維后的特征量作為BP神經(jīng)網(wǎng)絡(luò)的輸入特征量,建立設(shè)備威脅風(fēng)險分析模型。最后通過實驗對比了多種模型算法, 結(jié)果表明采用PCA結(jié)合BP神經(jīng)網(wǎng)絡(luò)的風(fēng)險分析模型具有更好的風(fēng)險識別準(zhǔn)確率。
主成分分析法;BP神經(jīng)網(wǎng)絡(luò);風(fēng)險分析模型
隨著電子商務(wù)技術(shù)的發(fā)展,電商促使用戶對移動支付的便捷性更為認(rèn)可,傳統(tǒng)的支付工具正逐步被電子化的支付方式取代[1]。在我國,電子支付也進入快速增長期,據(jù)CNNIC發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2015年,我國電子支付用戶規(guī)模達到3.59億[2]。但是隨著電子支付的發(fā)展,交易安全顯得尤為重要[3]。根據(jù)《2006電子支付產(chǎn)業(yè)調(diào)查報告》顯示,在選擇電子支付考慮的諸多因素中,64.5%的用戶首選安全??梢?,安全性成為制約電子支付發(fā)展的主要原因。
隨著移動支付的快速普及,話費收入作為移動支付的一種重要形式,收入不容小覷。據(jù)統(tǒng)計僅2016年中國移動話費支付收入已達24億元。然而巨額收入下,交易投訴率也在攀升,2016年全年投訴量達90萬次,面對海量用戶投訴,傳統(tǒng)的人工分析方式無法為網(wǎng)絡(luò)建設(shè)維護提供準(zhǔn)確有效的分析支撐[4]。本文通過對用戶使用的移動設(shè)備威脅數(shù)據(jù)進行采集,并構(gòu)建分析模型,預(yù)測用戶設(shè)備的威脅程度。
主成分分析方法(PCA)[5]是通過降維技術(shù)把多個變量化為少數(shù)幾個主成分的統(tǒng)計方法,該模型的基本原理及主要步驟如下:
假設(shè)原始分析指標(biāo)數(shù)據(jù)構(gòu)成的矩陣為:X=( xij)n×m(0≤i≤n, 0≤j≤m)。
其中:n為評價對象個數(shù);m為所要分析的指標(biāo)個數(shù);xij為第i個評價對象第j個指標(biāo)的數(shù)值。
步驟1:原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理。由于所采集得到的各指標(biāo)數(shù)值的量綱表現(xiàn)形式不一,因此首先將原始數(shù)據(jù)進行歸一化處理,消除量綱影響。其中本文采用標(biāo)準(zhǔn)差歸一化方法,如式2所示:
步驟2:建立相關(guān)系數(shù)矩陣,求相關(guān)系數(shù)矩陣的特征值,確定主成分個數(shù)即新指標(biāo)個數(shù)k。計算相關(guān)矩陣R的特征值和方差貢獻率,且R的特征值按照從大到小的排列方式為λ1>λ2>…>λp≥0。然后選擇合適的主成分個數(shù)來代替原始變量,并計算各主成分的貢獻率,如式3所示。
其中: λj為第j個特征值; CPV( j)為λj對應(yīng)的主成分的貢獻率;
步驟3:求取各特征值所對應(yīng)的特征向量P,其中特征矩陣可以通過計算矩陣X的協(xié)方差矩陣得到,且得到的特征向量間相互正交,如式4所示。
其中:pi為第i個主成份所對應(yīng)的特征向量。
步驟4:計算各特征向量pi所對應(yīng)的主成分系數(shù)qj,并將主成份的方差貢獻率CPV(j)為權(quán)重,對各指標(biāo)所對應(yīng)的各主成份系數(shù)進行線性加權(quán),并將其歸一化得到各指標(biāo)的最終權(quán)重值,如式5所示。
其中:wj為第j個指標(biāo)的最終權(quán)重值;其中CPV( j)以累計貢獻率為原則來確定主成分系數(shù)的加權(quán)個數(shù)。
BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中采用誤差反傳算法作為其學(xué)習(xí)算法的前饋網(wǎng)絡(luò),該網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
其中:xj表示輸入層第j個節(jié)點的輸入信息,j=1,…M; wij表示隱含層第i個節(jié)點到輸入層第j個節(jié)點之間的權(quán)值; θi表示隱含層第i個節(jié)點的閾值;φ(x)表示隱含層的激勵函數(shù);wki表示輸出層第k個節(jié)點到隱含層第i個節(jié)點之間的權(quán)值,i=1,…q;ak表示輸出層第k個節(jié)點的閾值,k=1,…L;Ψ(x)表示輸出層的激勵函數(shù);ok表示輸出層第k個節(jié)點的輸出。
通過以上的BP網(wǎng)絡(luò)結(jié)構(gòu)圖可知,如果在一個簡單的三層BP網(wǎng)絡(luò)中,假設(shè)輸入向量為X (x1, x2, …, xn)T,輸出層輸出向量為O (o1, o2, …, on)T,隱含層輸出向量為Y (y1, y2, …, yn)T,目標(biāo)輸出向量為D (d1, d2,…, dn)T,輸入層到隱含層的連接權(quán)值為V (v1, v2, …,vn)T,隱含層到輸出層的連接權(quán)值為W (w1, w2, …,wn)T,其對應(yīng)的網(wǎng)絡(luò)迭代步驟分別如下。
步驟1:以隨機的方式初始化網(wǎng)絡(luò)的權(quán)值矩陣W與V,并設(shè)定相應(yīng)的學(xué)習(xí)率η,及目標(biāo)誤差值Emin,同時還將樣本模式計數(shù)器p與訓(xùn)練次數(shù)計數(shù)器q置為1。
步驟2:通過依次輸入訓(xùn)練樣本X與D,并分別計算隱含層輸出向量Y與目標(biāo)輸出向量O。計算表達式如式6所示:
其中:netj,netk分別表示隱含層與輸出層使用的傳遞函數(shù)。
步驟3:若共有P對訓(xùn)練樣本,針對每一個不同的學(xué)習(xí)樣本p,其網(wǎng)絡(luò)均對應(yīng)不同的誤差Ep,并以其均方根作為網(wǎng)絡(luò)的總誤差。計算表達式如式7所示:
步驟4:計算各層的誤差信號,其中計算表達式如式8所示:
步驟5:調(diào)整網(wǎng)絡(luò)各層的權(quán)重值,其中計算表達式如式9所示:
步驟6:當(dāng)完成針對所有樣本的一次訓(xùn)練時,檢查網(wǎng)絡(luò)訓(xùn)練是否滿足終止條件。若ERME<Emin或當(dāng)訓(xùn)練達到設(shè)定最大次數(shù)時,則算法結(jié)束。否則返回步驟2。
通過以上BP神經(jīng)網(wǎng)絡(luò)的信息輸入迭代過程可以看出,該網(wǎng)絡(luò)具有高度非線性的特征。同時網(wǎng)絡(luò)的每一次迭代均會由誤差值反向逐層傳回,并按算法規(guī)定的學(xué)習(xí)規(guī)則修改每一層的權(quán)重,進行反向調(diào)整權(quán)重系數(shù),使得網(wǎng)絡(luò)的輸出逐漸逼近實際值,因此BP網(wǎng)絡(luò)完全可以應(yīng)用于具有高度非線性特征的模式識別上。
由前面的主成分與支持向量機模型的計算過程可以看出,由于主成分僅僅考慮了指標(biāo)之間的相關(guān)性,合理的實現(xiàn)了指標(biāo)體系由多到少的降維和簡化。在不丟失大量關(guān)鍵指標(biāo)信息的前提下,又剔除了樣本指標(biāo)中存在的干擾信息。因此,可以在樣本數(shù)據(jù)進入核心模型訓(xùn)練的過程時,預(yù)先將其進行壓縮提取,可以有效的增加各樣本指標(biāo)的有效性,進而提高識別模型的預(yù)測準(zhǔn)確度。通過以上的模型算法分析,因此本文基于主成分分析法融合BP神經(jīng)網(wǎng)絡(luò)的模型算法,并將其應(yīng)用于移動設(shè)備威脅識別的構(gòu)建步驟如下:
將數(shù)據(jù)進行標(biāo)準(zhǔn)差歸一化,剔除數(shù)據(jù)之間不同量綱問題。
對歸一化后的數(shù)據(jù)進行主成分分析,得到累計貢獻率滿足 的成分矩陣系數(shù)。
將以上提取的成分矩陣系數(shù)與歸一化后的數(shù)據(jù)加權(quán)得到提取后的指標(biāo)壓縮值。計算公式如式10所示。
式中:Fij為第i個對象的第j項主成分的指標(biāo)值,p(i,j)為第i個對象的第j項指標(biāo)值的主成分系數(shù),xj為對象的第j項指標(biāo)。
建立三層BP神經(jīng)網(wǎng)絡(luò)模型,且網(wǎng)絡(luò)的最后一層使用邏輯斯蒂推廣傳遞函數(shù),將所有壓縮后的樣本指標(biāo)值作為模型的訓(xùn)練樣本,對建立好的模型進行訓(xùn)練,進而構(gòu)建完整的移動設(shè)備威脅識別系統(tǒng)。
本文根據(jù)實際的移動設(shè)備存在的較為常見的威脅信息,所建立的相關(guān)評價指標(biāo)如表1所示。
表1 相關(guān)輸入指標(biāo)
基于上述關(guān)于主成分分析方法的介紹,將各設(shè)備樣本的指標(biāo)進行提取,并通過計算壓縮提取后的指標(biāo)值,進而作為下一步的分析數(shù)據(jù)。其中本文總共使用的樣本為:存在風(fēng)險的(投訴數(shù)據(jù))樣本有21 993個,不存在風(fēng)險的(非投訴數(shù)據(jù))樣本有15 982,共合計樣本數(shù)有37 975。其中通過PCA模型求解,其中累計貢獻率隨主成分的個數(shù)變化結(jié)果如圖2所示。
圖2 累計貢獻率隨主成分的個數(shù)變化結(jié)果
由累計貢獻率可以看出,前3個特征根所對應(yīng)的累計貢獻率達到了97.68%,由于前3個主成分可以反映原指標(biāo)97%以上的信息量,滿足主成分的累計方差貢獻率CPV>95%。故可以將所有的樣本原始數(shù)據(jù)指標(biāo)壓縮成前3個主成分。
將各主成分系數(shù)對所有樣本進行加權(quán)計算,并將得到的3個主成分指標(biāo)值作為BP神經(jīng)網(wǎng)絡(luò)模型的輸入信息。其中,不存在風(fēng)險的樣本編碼為[1;0],存在風(fēng)險的樣本編碼為 [0;1]。其中所建立的神經(jīng)網(wǎng)絡(luò)框架參數(shù)如表2所示,并將所有樣本以70%為訓(xùn)練樣本、15%為控制樣本、15%為測試樣本的分配對所建立好的網(wǎng)絡(luò)模型進行訓(xùn)練。
表2 BP網(wǎng)絡(luò)的相關(guān)參數(shù)
表3 各模型預(yù)警識別準(zhǔn)確率對比
將全部樣本對所建立好的神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,其中,當(dāng)模型訓(xùn)練結(jié)束時,得到的各類型樣本的識別準(zhǔn)確率和模型的整體ROC曲線變化如圖3所示。
由圖3得到的模型ROC曲線可以看出,模型具有較高的識別精度,在控制不錯誤識別無風(fēng)險移動設(shè)備的情況下,模型對存在風(fēng)險的移動設(shè)備的識別準(zhǔn)確率達到了79.6%,而整體模型的綜合識別準(zhǔn)確率達到了91.0%。由此可知,經(jīng)由PCA特征提取后的指標(biāo)訓(xùn)練出來的BP神經(jīng)網(wǎng)絡(luò)模型具有較高的識別精度。但為了對比本文模型的優(yōu)越性,表3中分別給出了將原始數(shù)據(jù)直接使用主成分、Logistic模型、與SVM等模型的識別準(zhǔn)確率對比結(jié)果。
圖3 模型整體識別準(zhǔn)確率和模型的ROC曲線變化
從表3的結(jié)果可知,本文使用了PCA模型對指標(biāo)進行了特征提取,將多余干擾信息進行了剔除,發(fā)現(xiàn)提出的模型算法對于移動設(shè)備是否存在風(fēng)險情況的識別準(zhǔn)確率均優(yōu)于其它模型算法,同時,通過將原始數(shù)據(jù)在不同角度下進行特征提取挖掘,最后作為新的特征信息訓(xùn)練識別模型,得到的準(zhǔn)確率比單一模型識別率高,更適用于實際的移動設(shè)備威脅識別監(jiān)控。
通過主成分分析法能有效地降低設(shè)備威脅維度,提取主要的設(shè)備威脅特征。因此用主要特征量作為分析模型特征量, 建立BP神經(jīng)網(wǎng)絡(luò)診斷模型, 能夠充分利用風(fēng)險樣本自身特性。實驗結(jié)果說明結(jié)合PCA的BP神經(jīng)網(wǎng)絡(luò)分析模型具有更高的準(zhǔn)確率。
[1] 黃力. 電子支付現(xiàn)狀與發(fā)展趨勢綜述[J]. 時代經(jīng)貿(mào), 2012(20):17-17.
[2] 劉罡, 楊堅爭. 我國電子支付發(fā)展現(xiàn)狀、面臨問題與對策研究[J]. 電子商務(wù), 2015(11):47-48.
[3] 計晨曉,霍旺,包森成. 基于多維度數(shù)據(jù)分析的移動威脅感知平臺建設(shè)[J]. 中國新通信,2016(24):39-43.
[4] 章蕾,陳婷. 基于客戶感知的移動數(shù)據(jù)業(yè)務(wù)分析平臺建設(shè)探討[J]. 移動通信,2011,35(9):71-74.
[5] 征容,嚴(yán)瀟然. PCA在智能感知解決方案中的應(yīng)用[J]. 通信與信息技術(shù),2014(06):59-61.
Study of mobile device risk base on PCA and neural network
KONG Fan-sheng, JIANG Zhou-liang, HU Bin, ZHANG Huan
(China Mobile Internet Co., Ltd., Guangzhou 510640, China)
To improve the accuracy and anti-interference ability for risk analysis of mobile device, and reduce the complaint rate,this paper proposed a model of risk analysis base on PCA and BP neural network.The feature vectors of device risk types are reduces from 10 to 3 and main information of raw data can be got by PCA. And then built a device risk analysis model using BP neural network which the input data is the low dimension feature vectors got from PCA. Experiments compared performances of our model and some other models, the results show the model combine PCA and BP neural network can identify risks accurately.
PCA; BP neural network; risk analysis model
TN918
A
1008-5599(2017)11-0026-05
2017-10-11