李 娟,李海瑛,邊 玲,劉秋紅
(河北醫(yī)科大學(xué),河北 石家莊 050031)
時序數(shù)據(jù)在不同的環(huán)境中會涵蓋諸多相關(guān)信息與屬性,譬如網(wǎng)絡(luò)數(shù)據(jù)流量節(jié)點類別、社交媒體的個人信息、注冊時間等數(shù)據(jù)都可以作為時序數(shù)據(jù)的屬性[1,2]。研究時序數(shù)據(jù)對定義人體或物品的活動規(guī)律具備很強的現(xiàn)實意義,消除異常數(shù)據(jù)干擾也變得尤為關(guān)鍵[3],也是本文研究的中心內(nèi)容。
針對異常檢測問題,文獻[4]采用長短期記憶網(wǎng)絡(luò)預(yù)測數(shù)據(jù),推算預(yù)測值與真實值的差值,挑選恰當(dāng)滑動窗口分布建模,按照各差值在現(xiàn)階段分布概率密度,獲得數(shù)據(jù)異常概率,但該方法不適用于具有周期性變化的數(shù)據(jù),適用性差。文獻[5]采用多元高斯模型擬合兩元特征概率密度分布,引入小時窗口構(gòu)建修正數(shù)據(jù)集,在各修正窗口內(nèi),利用灰色馬爾可夫模型完成數(shù)據(jù)異常檢測過程。因該方法需要定義時間窗口,精準(zhǔn)性依賴于參數(shù)設(shè)置,運算結(jié)果容易受到影響。
總結(jié)以上內(nèi)容,根據(jù)時序數(shù)據(jù)異常檢測現(xiàn)實需求,本文提出一種基于跨模態(tài)深度度量學(xué)習(xí)的時序數(shù)據(jù)異常檢測方法。組建跨模態(tài)深度度量學(xué)習(xí)模型,運用均值中心度量完善特征空間分布,劃分不同數(shù)據(jù)形態(tài)的時序數(shù)據(jù),運用核主成分分析方法,檢測計算檢測數(shù)據(jù)集主成分方向矢量分布概率,依照概率值大小評估是否包含異常數(shù)據(jù),仿真結(jié)果表明本文方法具有一定的應(yīng)用價值。
網(wǎng)絡(luò)數(shù)據(jù)中包含了多類時序特征,為簡化時序數(shù)據(jù)異常檢測復(fù)雜度,增強檢測效率與精度,設(shè)計基于跨模態(tài)深度度量學(xué)習(xí)的時序數(shù)據(jù)特征聚類方法,跨模態(tài)深度度量學(xué)習(xí)模型如圖1所示。
圖1 模型整體架構(gòu)
在特征空間內(nèi),不同場景時序數(shù)據(jù)的間距越大,相似場景混淆的概率越小,優(yōu)化深度度量學(xué)習(xí)模型輸出特征空間分布形態(tài),對增強數(shù)據(jù)特征聚類正確率具有積極影響[6]。下面利用均值中心度量策略,優(yōu)化特征空間分布。
假設(shè)d是每個聚類中心之間歐式距離的平方,計算過程描述為
(1)
其中,i、j表示數(shù)據(jù)類型編碼,N是樣本點,cik是第i類均值聚類中心矢量的第k維,cjk為第j類均值聚類中心矢量的第k維。
深度度量學(xué)習(xí)特征分類模型損失函數(shù)共有四個部分[7],即交叉熵?fù)p失項Ls、均值中心度量損失項Lcm、權(quán)重項W和偏置項b。不同項的中心含義依次為:交叉熵?fù)p失項可以分離不同類別的樣本時序數(shù)據(jù);中心度量損失項可在匯聚同類別數(shù)據(jù)的同時,增大聚類中心之間的最小間距;權(quán)重項和偏置項可以避免模型產(chǎn)生過度擬合。將模型損失函數(shù)表示成
(2)
其中,λ1、λ2均表示權(quán)重指數(shù)。若時序數(shù)據(jù)集合中包含N個樣本類別,記作
(3)
xi=[xi1,xi2,…,xia]
(4)
yi=[yi1,yi2,…,yiK]
(5)
其中,a是模型輸出特征的維數(shù),xi為輸出特征矢量,yi表示和xi相對應(yīng)的標(biāo)簽矢量。
將式(2)中的交叉熵?fù)p失項Ls與均值中心度量損失項Lcm進一步解釋為
(6)
(7)
其中,m表示一次訓(xùn)練的樣本數(shù)量。
為增強式(2)模型特征分類精度,利用隨機梯度下降策略進行模型優(yōu)化[8],Lcm項的xi偏導(dǎo)數(shù)和均值聚類中心的更新梯度解析式分別表示成
(8)
(9)
其中,δ(·)為更新函數(shù),n是樣本類型序號。
按照時序數(shù)據(jù)特征歸類后,接下來要對不同類型時序數(shù)據(jù)中的異常部分進行檢測分析,提出基于核主成分分析的時序數(shù)據(jù)異常檢測方法。
主成分分析是一種線性特征提取方案,通過協(xié)方差矩陣分解初始樣本[9,10],挑選前M個最大特征值對應(yīng)矢量,構(gòu)成最佳投影矩陣,把數(shù)據(jù)映射于矩陣內(nèi)部,可壓縮、去噪、消除樣本相關(guān)性。若輸入空間數(shù)據(jù)為線性不可分狀態(tài),就要利用非線性映射把數(shù)據(jù)安置在線性可分特征空間,再進行主成分分析,同時因為計算過程中,會使用核函數(shù)內(nèi)積運算高維特征空間向量,也可稱為核主成分分析。
設(shè)定xi∈Rp是p維輸入空間的N個樣本點,若利用非線性變換φ把Rp投射至特征空間F(Rf),那么φ:Rp→F(Rf),φ(xi)是空間F內(nèi)相對的樣本點。在高維特征空間內(nèi)進行核主成分分析時,需要計算特征空間內(nèi)樣本協(xié)方差矩陣的特征值與特征矢量[11]。如果φ(xi)是被中心化處理后的高維特征空間矢量,則把特征空間的協(xié)方差矩陣描述成
(10)
協(xié)方差矩陣與特征矢量之間的關(guān)聯(lián)解析式為
Cφv=ov
(11)
其中,o、v依次為矩陣Cφ的特征值與相對的特征矢量。
因為協(xié)方差矩陣為實對稱[12],所以具備r個標(biāo)準(zhǔn)正交特征矢量,即式(11)擁有r個非零解。但變換策略的多變量,導(dǎo)致無法直接獲得式(11)的特征矢量。按照再生核定理,特征矢量v可通過空間F內(nèi)的樣本構(gòu)成,記作
(12)
將核矩陣描述成
Kα=nλα
(13)
其中,α表示矩陣轉(zhuǎn)換系數(shù)。
核矩陣K要通過推算高維特征空間內(nèi)的向量內(nèi)積獲得,挑選恰當(dāng)?shù)暮撕瘮?shù),就能計算核矩陣的特征值與特征矢量。如果選擇與特征值相對的特征向量構(gòu)成主成分方向矢量,那么時序數(shù)據(jù)集合的主成分方向矢量為
v=λ1v1+…+λmvm
(14)
其中,λ代表歸一化特征值,歸一化能確保主成方向矢量的正確性。
根據(jù)高維特征空間的主成分分析結(jié)果,認(rèn)定不同狀況下時序數(shù)據(jù)的主成分方向矢量要維持統(tǒng)一,運用主成分方向矢量內(nèi)積,衡量不同類型時序數(shù)據(jù)之間的差別,得到
θ=|〈v1,v2〉|
(15)
其中,θ表示不同時序數(shù)據(jù)之間的差異特征,數(shù)字1、2表示數(shù)據(jù)集編碼。
將異常檢測算法劃分成兩部分:訓(xùn)練階段與檢測階段。訓(xùn)練階段關(guān)鍵是利用歷史時序數(shù)據(jù)得到數(shù)據(jù)分布特性,評估分布模型參變量;檢測階段是推算檢測數(shù)據(jù)集合的主成分方向矢量分布概率,按照概率值高低判斷是否具備異常數(shù)據(jù)。
為簡化計算步驟,本文僅將首個特征向量看作數(shù)據(jù)的主成分方向矢量,此刻時序數(shù)據(jù)集的主成分方向矢量的內(nèi)積是
(16)
由式(16)可知,主成分方向矢量之間的內(nèi)積運算同樣能夠利用核函數(shù)方法獲得。在數(shù)據(jù)異常檢測時,可把真實時序數(shù)據(jù)分割為長度是e的數(shù)據(jù)子集合,各子集相對應(yīng)一個主成分方向矢量,將其主成分方向矢量均值表示成
(17)
針對時序性數(shù)據(jù),一般使用的高維空間分布方法為von Mises Fisher(vMF)分布,能夠很好地處理數(shù)據(jù)的方向特征,完成異常數(shù)據(jù)篩查。本文采用該方法完成時序數(shù)據(jù)方向性特征歸類,將p維vMF分布的任意向量的概率密度函數(shù)記作
Mp(v|k,μ)=cp(k)ekμTv
(18)
式中,μ代表平均向量方向,該值能直接決定數(shù)據(jù)分布的核心方位,也被稱作位置參變量;cp(k)是固定值的系數(shù),具體的計算過程為
(19)
式中,Ip(·)代表修正的p階貝塞爾函數(shù)。
(20)
確定vMF參數(shù)后,可利用式(21)算出內(nèi)積值是η時的主成分矢量,并和門限值ε進行對比,如果p<ε,認(rèn)定時序數(shù)據(jù)內(nèi)包含異常數(shù)據(jù)。
(21)
為證明本文提出時序數(shù)據(jù)異常檢測方法的優(yōu)越性,將其與文獻[4]滑動窗口法及文獻[5]二元特征法進行對比實驗,實驗平臺為深度學(xué)習(xí)的tensorflow框架,仿真時間周期設(shè)定為800ms。
實驗分為兩部分:時序數(shù)據(jù)分類和時序數(shù)據(jù)異常檢測性能。時序數(shù)據(jù)集中包含12463條數(shù)據(jù),其中有6792條為訓(xùn)練集數(shù)據(jù),用于完成網(wǎng)絡(luò)訓(xùn)練,有5671條數(shù)據(jù)作為測試集。
采用均方根誤差(Root Mean Square Error,RMSE)與平均絕對誤差(Mean Absolute Error,MAE)兩個指標(biāo)作為實驗評估標(biāo)準(zhǔn)。RMSE表示觀測值和真實值誤差的平方和與觀測數(shù)量比值的平方根,展現(xiàn)出輸出值和實際值間的偏差。MAE表示絕對誤差均值。
將兩個指標(biāo)計算過程表示為
(22)
(23)
其中,yt、ft依次表示時序數(shù)據(jù)在t時段的真實值與預(yù)測值。
圖2是本文方法與兩個對比方法的時序數(shù)據(jù)分類仿真結(jié)果。從圖中看出,訓(xùn)練集樣本從400條增多至3200條時,滑動窗口法的分類精度從76%上升至93%,二元特征法分類精度從78%上升至94%,本文方法分類精度從88%上升至96%。伴隨訓(xùn)練集樣本個數(shù)的增長,本文方法分類精度始終大于兩個文獻方法,證明本文方法對不同數(shù)據(jù)形態(tài)的時序數(shù)據(jù),都具備優(yōu)秀的分類效果。樣本數(shù)量處于400~1200條時,本文方法和兩個文獻方法的精度差值最高,證明訓(xùn)練樣本較少時,本文方法依舊能維持較高的分類精度;兩個文獻方法在訓(xùn)練網(wǎng)絡(luò)中產(chǎn)生了過度擬合,致使分類精度較低,無法保證算法應(yīng)用的穩(wěn)定性。
圖2 三種方法時序數(shù)據(jù)分類準(zhǔn)確率對比
下面對三種方法的異常檢測精度進行對比實驗,把數(shù)據(jù)集從600條按一定規(guī)律增加至6000條。將不同訓(xùn)練集大小下,數(shù)據(jù)異常檢測均方根誤差與平均絕對誤差實驗結(jié)果記作表1。
表1 三種方法數(shù)據(jù)異常檢測誤差對比/%
從表1看出,三種方法在樣本數(shù)量較少時的檢測精度并不高,均方根誤差與平均絕對誤差都很大,但伴隨訓(xùn)練樣本個數(shù)的不斷遞增,三種方法的檢測訓(xùn)練誤差均呈現(xiàn)出先高后低的局面,本文方法無論在何種訓(xùn)練數(shù)據(jù)量情況下,誤差水準(zhǔn)都低于兩個對比方法,顯示出其檢測性能的可靠性。原因在于,本文方法采用核主成分分析方法,利用主成分方向矢量內(nèi)積評估不同類型時序數(shù)據(jù)之間的差異,并運用vMF分布實現(xiàn)異常數(shù)據(jù)篩查任務(wù)。
圖3 三種方法異常檢測耗時對比
圖3是三種方法異常檢測的時間消耗,橫坐標(biāo)是訓(xùn)練數(shù)據(jù)個數(shù),縱坐標(biāo)是實現(xiàn)異常檢測損耗的時間。由圖3可知,本文方法的檢測耗時最少,滑動窗口法檢測過程中的時間函數(shù)跳躍性較大,二元特征法的檢測時間較為平穩(wěn),但耗時量依舊要高于本文方法。
綜合以上實驗結(jié)果來看,本文方法可準(zhǔn)確識別不同的時序數(shù)據(jù)特征,在不同時序數(shù)據(jù)量下完成高質(zhì)量異常數(shù)據(jù)檢測,同時具備更優(yōu)的檢測效率,為現(xiàn)實場景下的時序數(shù)據(jù)研究提供有效參考。
面向傳統(tǒng)時序數(shù)據(jù)異常檢測的不足,提出一種基于跨模態(tài)深度度量學(xué)習(xí)的時序數(shù)據(jù)異常檢測方法。通過創(chuàng)建跨模態(tài)深度度量學(xué)習(xí)模型劃分?jǐn)?shù)據(jù)類型,運用核主成分分析策略得到數(shù)據(jù)的特征表達(dá),評估是否存在異常檢數(shù)據(jù)。該方法檢測時效性強、跨模態(tài)時序數(shù)據(jù)分類精度高,擁有廣泛的應(yīng)用空間。下一步會重點探究核函數(shù)的選擇對異常檢測結(jié)果準(zhǔn)確度的影響,深入完善算法性能。