孔 青,張建照,柳永祥
(國防科技大學(xué)第六十三研究所,南京 210007)
頻譜預(yù)測是一種從以往測量的頻譜數(shù)據(jù)推斷未來頻譜使用相關(guān)信息的方法,本質(zhì)上屬于時間序列預(yù)測問題[1]。隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[2-7]等深度學(xué)習(xí)技術(shù)在頻譜預(yù)測領(lǐng)域取得了超過統(tǒng)計學(xué)模型[8-9]的良好性能,但深度學(xué)習(xí)模型本身缺乏可解釋性,這極大限制了用戶對頻譜預(yù)測結(jié)果的理解與信任,可解釋問題因此成為智能頻譜預(yù)測實用化需要解決的一個關(guān)鍵問題[10]。
顯著圖通過突出輸入數(shù)據(jù)中對預(yù)測結(jié)果產(chǎn)生重要影響的部分,從而產(chǎn)生易于用戶理解的可視化解釋效果,近年來在圖像分類、自然語言處理和時間序列預(yù)測等領(lǐng)域得到了廣泛研究[11]。顯著圖的生成主要有基于梯度的解釋方法和基于擾動的解釋方法。文獻(xiàn)[12]提出了綜合梯度方法,利用反向傳播計算每個輸入相對于基準(zhǔn)值的重要性分?jǐn)?shù),但其基準(zhǔn)值選擇會對解釋效果產(chǎn)生重要影響。文獻(xiàn)[13]提出了Input X Gradient方法,與文獻(xiàn)[12]不同的是,該方法通過將輸入乘以梯度值來計算輸入的重要性分?jǐn)?shù)。文獻(xiàn)[14]提出了Gradient Shap方法,通過對輸入序列進(jìn)行有目的的排列,來估計輸入部分的沙普利加和解釋值(Shapley Additive Explanations,SHAP),但其SHAP值估計時間和計算資源開銷較大。與上述基于梯度計算的解釋方法不同,基于擾動的解釋方法通過對輸入序列實施擾動,將輸出與基準(zhǔn)值比較以生成重要性分?jǐn)?shù)。文獻(xiàn)[15-16]分別提出了特征遮擋和特征置換方法,區(qū)別在于其對輸出序列的擾動方式不同。文獻(xiàn)[17]提出了一個模型無關(guān)和可測試的通用解釋框架,分析了對圖像分類問題的解釋效果,其中可測試是指能夠通過替換圖像的重要性部分或者不重要性部分,以觀察模型性能的改變,從而生成對應(yīng)的輸出及解釋。這項工作在文獻(xiàn)[18]中得到了進(jìn)一步研究。文獻(xiàn)[18]首次提出了極值擾動的概念,給定輸入序列的擾動面積,對面積約束下所有可能的擾動排列方式,對模型輸出影響最大的擾動稱為極值擾動。
以上工作大都集中在圖像領(lǐng)域。圖像因其像素塊本身具有意義,解釋方法在圖像的定性解釋領(lǐng)域有其先天優(yōu)勢[19]。在時間序列預(yù)測領(lǐng)域,特別是頻譜預(yù)測領(lǐng)域,可解釋方法的應(yīng)用研究還未獲得重視,目前僅有文獻(xiàn)[6-7]對頻譜預(yù)測的可解釋性進(jìn)行了探討,但是也只是對相鄰頻段的相關(guān)性進(jìn)行了討論,其所提基于注意力機(jī)制的模型屬于內(nèi)在可解釋方法,無法應(yīng)用到更多的深度學(xué)習(xí)模型中。
與圖像領(lǐng)域不同的是,頻譜時序數(shù)據(jù)本身的含義并不明顯,同時頻譜數(shù)據(jù)具有相關(guān)性。如何解釋并體現(xiàn)頻譜預(yù)測中的相關(guān)性并生成有意義的解釋,是頻譜預(yù)測可解釋性研究需要解決的重點問題。同時,文獻(xiàn)[4-7]已經(jīng)驗證了相鄰信道相關(guān)數(shù)據(jù)的輸入有助于提高頻譜預(yù)測的精度。可解釋頻譜預(yù)測通過揭示輸入數(shù)據(jù)的相關(guān)性分布,對于提高用戶與預(yù)測模型的交互性以及幫助用戶調(diào)整預(yù)測模型的輸入維度,從而提升模型性能,具有實際應(yīng)用價值。
基于以上考慮,本文首先利用LSTM模型構(gòu)建頻譜預(yù)測的黑盒模型,然后結(jié)合掩碼和極值擾動方法提出一種適用于頻譜數(shù)據(jù)的有意義擾動方法,通過在優(yōu)化目標(biāo)中加入針對時間步跳躍的正則項,從而在掩碼解釋中體現(xiàn)頻譜數(shù)據(jù)中的時間相關(guān)性?;趯崪y頻譜數(shù)據(jù)的測試結(jié)果表明,本文提出的解釋方法在定性實驗中,不僅凸顯了中心頻點的相關(guān)性,也凸顯了相鄰頻點的相關(guān)性,且相關(guān)性在時間步上連續(xù)出現(xiàn);在性能變化實驗中,平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)顯著優(yōu)于基線方法。
實測頻譜數(shù)據(jù)由頻譜分析儀測量獲得,通常以一定聚合方式和時頻分辨率存儲為數(shù)據(jù)矩陣D。將時間和頻率維度上的頻譜數(shù)據(jù)D按照時隙進(jìn)行劃分,獲得某一頻點f處T′個連續(xù)時間序列,即St={x1,f,x2,f,…,xt,f,…,xT′,f}。類似地,用Sf={xt,1,xt,2,…,xt,f,…,xt,F′}表示t時刻在F′個連續(xù)頻點的頻譜狀態(tài)。大量測試已經(jīng)表明了頻譜數(shù)據(jù)在時-頻域存在較強(qiáng)相關(guān)性,并且這種相關(guān)性呈現(xiàn)聚集效應(yīng)[4-7,20]。
圖1 頻譜預(yù)測黑盒模型
顯著性方法是一種可視化解釋方法,用來突出時間序列中對模型輸出的重要部分。時間序列X的每個元素對應(yīng)一個解釋權(quán)重mij,就產(chǎn)生了與輸入頻譜序列X相同大小的掩碼矩陣M={mij}∈[0,1]T×F。解釋權(quán)重是非負(fù)的,因為其大小反映了時間序列中相關(guān)數(shù)據(jù)點的重要程度:mij=0時說明該位置元素對模型輸出的重要性為0;相對地,mij=1時說明該位置元素對模型輸出有重要影響。
(1)
提出極值掩碼方法的同時,文獻(xiàn)[18]給出了三個局部擾動算子π(M,X),當(dāng)利用高斯核作為擾動時,擾動算子可用如下公式計算:
(2)
文獻(xiàn)[17]重新定義了解釋的內(nèi)涵,將解釋與有意義的規(guī)則聯(lián)系起來。有意義的解釋是通過輸入有意義的擾動,觀察黑盒模型的輸出后產(chǎn)生解釋。以圖像分類為例,將圖像旋轉(zhuǎn)后并不影響其實際分類,此時圖像旋轉(zhuǎn)是有意義擾動。由于黑盒模型只是近似的非線性擬合,有意義擾動對應(yīng)的輸出也是近似的,因此存在擬合誤差,即L=E(1-ρQ(x;g))。其中,ρQ(x;g)表示對輸入x以及相應(yīng)的黑盒模型g應(yīng)用有意義擾動規(guī)則Q,黑盒模型g做出正確分類的概率,E(·)為統(tǒng)計算子。
有意義擾動暗含輸入分布,從而可以從輸入分布中探求并設(shè)計有意義擾動,獲得對黑盒模型的有效解釋。
在頻譜序列預(yù)測中,時間序列的動態(tài)特性更加豐富,每個頻點的狀態(tài)值都在更大范圍內(nèi)變化且相鄰元素存在相關(guān)性。在圖像領(lǐng)域,由于像素動態(tài)范圍固定,高斯核擾動能夠很容易地設(shè)定相應(yīng)參數(shù)。對頻譜序列預(yù)測模型的解釋而言,擾動必須適應(yīng)時間序列中的動態(tài)變化,并且體現(xiàn)出歷史頻譜數(shù)據(jù)中相關(guān)性的特點。為此,本文提出基于有意義擾動掩碼的頻譜預(yù)測解釋方法。
有意義擾動就是利用輸入中相關(guān)性分布的先驗知識,設(shè)計相應(yīng)的擾動模式。對于本文的頻譜預(yù)測模型:X→y,由于是利用中心頻點和周圍相鄰頻點的歷史數(shù)據(jù)X,預(yù)測中心頻點在下一時隙的頻譜狀態(tài)值y,由時間序列演化的先驗知識能夠得知,模型輸出y與輸入X的中心頻點接近時刻的頻譜狀態(tài)相關(guān)性更高,距離越遠(yuǎn)的時隙相關(guān)性越小?;谖墨I(xiàn)[21]提出的序列值變化、時間扭曲和序列切片三種擾動方式,本文提出頻譜預(yù)測中的有意義擾動方法如下:
π2(M,X;t,f)=mt,f·xt,f+(1-mt,f)·ut,f。
(3)
圖2 有意義擾動示意
極值掩碼方法通過引入如下正則項,實現(xiàn)了對掩碼元素的強(qiáng)制稀疏[18]:
(4)
同時,為避免掩碼重要性部分在時間步上的頻繁改變,體現(xiàn)頻譜序列預(yù)測的時間相關(guān)性,即相鄰時間步的重要性應(yīng)該相似,增加類似文獻(xiàn)[22]使用的時間步正則項,以懲罰掩碼元素的時域跳躍:
(5)
綜上所述,掩碼方案的損失函數(shù)如下式:
Ψa(M)=Le(M)+μaLa(M)+μpLp(M)。
(6)
式中:μa與μp是相應(yīng)正則項的正則系數(shù)。該函數(shù)表示在給定掩碼面積a下,通過最小化損失函數(shù)Ψa(M)來獲得有意義的極值掩碼。
與其他基于擾動的解釋方法一樣,掩碼方法的時間復(fù)雜度與黑盒模型的前向計算過程及迭代次數(shù)有關(guān),迭代次數(shù)的增加會大大增加解釋的時間開銷[23]。算法偽代碼如下:
輸入:黑盒預(yù)測模型g(·),待解釋測試集Γ,SGD優(yōu)化器設(shè)置,擾動方式設(shè)置,掩碼優(yōu)化最大輪數(shù)N,掩碼面積列表[a]。
輸出:預(yù)測精度指標(biāo)MAPE,解釋掩碼矩陣Mend。
1 對各個掩碼面積[a]遍歷
2 對所有集合Γ中的樣本X遍歷
3 按照式(3)進(jìn)行有意義擾動獲得擾動矩陣Xpert
4 初始化掩碼矩陣Mstart
5 進(jìn)行最大輪數(shù)N的迭代尋優(yōu)
6 按照式(6)進(jìn)行多目標(biāo)優(yōu)化
8 輸出樣本集在掩碼面積a下的解釋掩碼矩陣集合{Mend}和預(yù)測精度指標(biāo)MAPE
9 輸出樣本集在所有掩碼面積下的解釋掩碼矩陣集合{Mend;a}和預(yù)測精度指標(biāo){MAPE;a}
采用Electrosense網(wǎng)站的公開頻譜數(shù)據(jù)集[24]測試所提方法的有效性。實測頻譜數(shù)據(jù)由位于西班牙馬德里一處室外場地部署的傳感器獲得,頻率范圍為802~810 MHz,頻率分辨率為200 kHz,時間分辨率為3 min,時間跨度從2021年8月6日至2021年8月16日,所采集的頻譜矩陣為4 800行40列,對應(yīng)4 800個時隙40個頻點,每個頻點由信噪比(單位:dB)表征其功率水平。該頻帶為LTE無線通信業(yè)務(wù)頻帶,圖3和圖4分別是頻譜數(shù)據(jù)的時頻圖和頻域的相關(guān)性圖??梢钥闯鱿嚓P(guān)性不僅存在于時域,頻域也存在較強(qiáng)的相關(guān)性,并且相關(guān)性成塊狀分布。每一塊中的相關(guān)性聚集在中心頻點周圍,即中心頻點與相鄰頻點的演化規(guī)律呈現(xiàn)較強(qiáng)相關(guān)性,但是不同塊之間的相關(guān)性較弱。這是由于信號在傳輸過程中往往以固定中心頻率和傳輸帶寬進(jìn)行傳遞,而傳輸帶寬內(nèi)的信道會呈現(xiàn)高度的相關(guān)性。相鄰頻點的相關(guān)性已被驗證能夠提升頻譜預(yù)測的精度[4-7]。
圖3 實測頻譜數(shù)據(jù)時頻圖
圖4 實測頻譜數(shù)據(jù)頻域相關(guān)性圖
在測試集中選擇50個樣本,進(jìn)行掩碼解釋的定性實驗和性能變化實驗。掩碼解釋的對比方法選擇綜合梯度方法和沙普利值采樣方法[25]。性能變化實驗中,評估指標(biāo)選擇MAPE值,其計算方法如下:
(7)
黑盒模型與解釋實驗均由基于Python環(huán)境下的Pytorch庫實現(xiàn)。掩碼解釋的優(yōu)化器選擇SGD優(yōu)化器,單個樣本最大優(yōu)化輪數(shù)N為300次,有意義擾動中K=M=5。
定性實驗通過可視化掩碼圖像來分析輸入樣本的相關(guān)性分布。性能變化實驗中分為性能惡化和性能恢復(fù)兩個部分,若解釋方法突出的部分輸入是重要性部分,則對重要性部分或者非重要性部分進(jìn)行替換將對黑盒模型輸出產(chǎn)生重要影響[26]。
圖5從左到右分別是沙普利值采樣方法和綜合梯度方法對測試集中某一樣本的解釋效果??梢钥闯?由于沙普利值采樣方法只能關(guān)注到單一元素的重要性,其對頻譜預(yù)測的解釋效果并不好,重要性分布比較雜亂,用戶無法得知輸入數(shù)據(jù)的中心頻點和周圍頻點重要性的分布情況。而綜合梯度方法標(biāo)注的樣本重要性分布,可以明顯看出中間頻點的相關(guān)性較強(qiáng),但是對中心頻點的相鄰頻點的相關(guān)性標(biāo)注較弱,且易讀性較差,難以識別中心頻點與相鄰頻點相關(guān)性的聚集效應(yīng)。
圖5 沙普利值采樣與綜合梯度的單一樣本解釋效果
圖6給出了掩碼方案對同一樣本進(jìn)行解釋的顯著圖,掩碼面積從0.1以0.05步長變化至0.3,對應(yīng)產(chǎn)生5組顯著圖。掩碼方案由于將重要性分?jǐn)?shù)強(qiáng)制在0或1兩種指標(biāo),其更具有易讀性。掩碼面積為0.1時,其重要性分?jǐn)?shù)集中在中心頻點處。隨著掩碼面積增加,之前識別出的重要性依然能夠被識別,增加的重要性掩碼主要聚集在相鄰頻點處,說明歷史頻譜數(shù)據(jù)的中心頻點與周圍頻點與待預(yù)測頻點之間具有相關(guān)性,且中心頻點的相關(guān)性更強(qiáng),相鄰頻點相關(guān)性向中心頻點聚集。
圖6 有意義擾動掩碼的單一樣本解釋效果
通過不同解釋方法得到頻譜序列的重要性分布后,可以根據(jù)重要性權(quán)重M的重要性程度來干擾輸入序列的相應(yīng)部分,從而測量對頻譜預(yù)測準(zhǔn)確性的影響。同樣地,設(shè)定擾動面積從0.1開始選擇,以0.05為步長,一直到0.30,一共5種擾動面積。對于綜合梯度方法和沙普利采樣方法,重要性權(quán)重按照大小排序后,根據(jù)擾動面積a,將較大重要性權(quán)重量化為1,較小重要性權(quán)重量化為0,便于與掩碼方案進(jìn)行比較。性能惡化實驗主要測試當(dāng)擾動輸入序列的重要性部分,保留其余非重要性部分,觀察標(biāo)注的重要性部分被擾動時,對模型輸出精度的影響;反之性能恢復(fù)實驗中,保留輸入序列的重要性部分,擾動非重要性部分,測試對模型輸出精度的影響[26]。性能惡化和性能恢復(fù)實驗都是為了測試解釋方法標(biāo)注的重要性部分的有效性。本文的擾動值均選擇常值1,代表整個頻譜數(shù)據(jù)歸一化后的最大值。
如圖7和圖8所示,干擾重要性部分或者突出輸入序列中的重要性部分,均會對模型輸出精度產(chǎn)生顯著影響,并且本文掩碼方案識別的重要性部分對模型性能的改變更為明顯。在各個擾動面積大小下,性能惡化實驗中的模型輸出精度下降最多,MAPE平均分別比綜合梯度方法、沙普利值采樣和高斯擾動掩碼方案高6.4%,26.2%和30.0%。同時,性能恢復(fù)實驗中的模型輸出精度改善最大,MAPE平均分別比三種對比方案低7.6%,32.2%和32.8%。
圖7 性能下降實驗
圖8 性能恢復(fù)實驗
上述測試結(jié)果表明,本文提出的方案能夠生成更顯著擾動,解釋效果更好,MAPE精度指標(biāo)有顯著變化。
本文將掩碼解釋方案應(yīng)用到頻譜狀態(tài)序列預(yù)測領(lǐng)域,通過生成顯著圖實現(xiàn)對單一樣本的可視化解釋效果,便于用戶直觀掌握輸入樣本的重要性部分在時間維與頻率維的分布情況。同時,提出了一種適合頻譜序列預(yù)測的有意義的擾動方式,并將時間相關(guān)性考慮在優(yōu)化問題中。實驗表明,帶有意義擾動和時間懲罰項的掩碼方案能夠顯著提升針對頻譜預(yù)測樣本的解釋效果和性能。
下一步,將重點研究適用于更多頻譜預(yù)測模型的可解釋性方法,并分析其評估方法的有效性和一致性。