林增坦,林增鈺,黃紫成
(仰恩大學(xué),福建 泉州 362014)
深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域的重要研究目標之一,其核心思想是融合多層深度網(wǎng)絡(luò),如神經(jīng)網(wǎng)絡(luò)及卷積網(wǎng)絡(luò),同時利用非線性激活函數(shù)轉(zhuǎn)換對數(shù)據(jù)實施表征學(xué)習(xí)[1]。而強化學(xué)習(xí)的關(guān)鍵在于與環(huán)境交互學(xué)習(xí),最后得到最佳策略。深度學(xué)習(xí)與強化學(xué)習(xí)具備互不相同的特征,融合兩者的優(yōu)勢則生成了深度雙Q網(wǎng)絡(luò)(Deep Recurrent Q-Network,DRQN)。該網(wǎng)絡(luò)結(jié)合了深度學(xué)習(xí)的抽象表達性能與強化學(xué)習(xí)的序貫決策能力,可以為用戶在某些復(fù)雜環(huán)境內(nèi)更好地進行學(xué)習(xí)的決策[2]。
深度雙Q網(wǎng)絡(luò)內(nèi)包含數(shù)量眾多的傳感單元和數(shù)據(jù)處理單元,因為該網(wǎng)絡(luò)節(jié)點資源有限,極易受到外部環(huán)境的侵擾[3]。因此,怎樣管理深度雙Q網(wǎng)絡(luò)內(nèi)的數(shù)據(jù),實現(xiàn)可靠的數(shù)據(jù)查詢是當(dāng)前亟需解決的重要問題,也直接決定了網(wǎng)絡(luò)的學(xué)習(xí)決策性能的好壞。由此,提出一種基于分簇的低延遲高可靠數(shù)據(jù)查詢算法。首先介紹深度雙Q網(wǎng)絡(luò)的基本原理,運用卷積神經(jīng)網(wǎng)絡(luò)進行Q值函數(shù)擬合,令目標Q值函數(shù)得到最優(yōu)動作,完成數(shù)據(jù)的評估預(yù)判;其次采用基于主成分特征提取的數(shù)據(jù)聚類方法,均值標準化處理數(shù)據(jù),并對不同指標的相同特征采取主成分分析,獲取每個特征的綜合分數(shù),完成數(shù)據(jù)精準聚類,方便后續(xù)數(shù)據(jù)查詢方法的有效計算;通過數(shù)據(jù)查詢時間估算和簇頭節(jié)點能量損耗估算,得到數(shù)據(jù)估計模型,引入查詢節(jié)點輪換機制均衡每個節(jié)點的能量消耗,達到延長網(wǎng)絡(luò)壽命目標,繼而提高數(shù)據(jù)查詢準確率。
深度學(xué)習(xí)的根本是人工神經(jīng)網(wǎng)絡(luò)通過淺層學(xué)習(xí)進化得到的,反向傳播方法是深度學(xué)習(xí)的基礎(chǔ)方法。使用反向傳播能夠令人工神經(jīng)網(wǎng)絡(luò)從眾多訓(xùn)練樣本內(nèi)學(xué)習(xí)到數(shù)據(jù)的分布式特性,繼而對未知樣本實施預(yù)判。通過多個隱藏層組成的多層感知器,較比淺層網(wǎng)絡(luò)具備更好的網(wǎng)絡(luò)特征表達性能[4]。
DRQN使用強化學(xué)習(xí)來組建模型與優(yōu)化目標,采用深度學(xué)習(xí)求解狀態(tài)表達與策略表達,并從環(huán)境內(nèi)得到數(shù)據(jù),再把感知形態(tài)輸入至Q網(wǎng)絡(luò)內(nèi),每隔一段時間就將主Q網(wǎng)絡(luò)的參變量拷貝至目標Q網(wǎng)絡(luò),同時讓網(wǎng)絡(luò)利用損失函數(shù)采取反向傳播,實現(xiàn)更新主網(wǎng)絡(luò)參變量的目標,反復(fù)訓(xùn)練,直到損失函數(shù)呈現(xiàn)收斂狀態(tài)[5]。DRQN模型使用卷積神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),然后運用梯度下降手段求解最優(yōu)化問題,讓目標Q值函數(shù)利用相同的擬合函數(shù)挑選最佳動作,同時對其實施評判,得到
(1)
式(1)中,r表示標量的獎賞值,γ表示折扣因子,Q(s′,a′)表示動作值函數(shù),θ表示評估網(wǎng)絡(luò)參數(shù)。在此過程中,若θ未更新,則會導(dǎo)致Q值的估計值較高,如果使用過高的估計值,整個潛在決策就會呈現(xiàn)出不一致性,讓決策挑選到次優(yōu)解。對于狀態(tài)空間持續(xù)選址的強化學(xué)習(xí)任務(wù)而言,有限的學(xué)習(xí)樣本無法讓神經(jīng)網(wǎng)絡(luò)擬合出合適全部狀態(tài)動作對的Q值函數(shù)[6]。所以擬合的Q值函數(shù)曲線會在實際Q值曲線周邊浮動,因為目標Q值函數(shù)求解時要進行選擇,讓Q值實現(xiàn)最大動作,網(wǎng)絡(luò)估計的Q值會比實際Q值要高。
在深度雙Q網(wǎng)絡(luò)中,最為典型常見的數(shù)據(jù)為面板數(shù)據(jù),此類數(shù)據(jù)具備截面數(shù)據(jù)和時間序列數(shù)據(jù)特征[7]。面板數(shù)據(jù)每項指標量綱或數(shù)量級的不同會對數(shù)據(jù)聚類結(jié)果形成一定影響,因此對面板數(shù)據(jù)Xij(t)采取均值標準化處理,處理過程為
(2)
將各個指標的均值設(shè)定為1,則方差是
(3)
(4)
A(Fij)表示個體的第j個指標在總時段T的平均值,此特征量凸顯出個體i的第j個指標在全局時段的絕對發(fā)展水準。
個體i的第j個指標的全時浮動特性為
(5)
個體i的第j個指標全時偏度特性為
(6)
個體i的第j個指標全時峰度特性為
(7)
此特征量映射出個體i的第j個指標在全局時段分布曲線的尖銳水準[8],K(Fij)小于0,證明此指標值的分布比正態(tài)分布更加分散,K(Fij)大于0,證明此指標值的分布比正態(tài)分布更聚攏于均值四周。
將個體i的第j個指標全時趨勢特性描述為
(8)
T(Fij)表示指標的長期改變趨勢,如果指標的TF(Fij)值越相近,證明兩個指標的坡度走向相等,指標值越相似。
下面對不同指標的相等特性進行主成分分析,獲得各個特性的綜合分數(shù)。設(shè)F1,F(xiàn)2,…,F(xiàn)p是p維指標矢量A提取的主成分,將αk當(dāng)作主成分Fk的方差貢獻率,那么主成分降維后絕對量特性A(Fij)的綜合分數(shù)是
(9)
選擇N個個體的五項指標數(shù)據(jù)集{Zij},那么Zij就是第i個個體第j個指標數(shù);利用不同的方法采取標準化處理,滿足Zij=|Zij|,則其正向指標是
(10)
反向指標是
(11)
推算第j個指標的第i個個體占據(jù)此指標的比例和第j個指標的熵值[9]。至此,完成數(shù)據(jù)聚類,從而增強數(shù)據(jù)查詢效率。
數(shù)據(jù)查詢優(yōu)化的目的是最小化深度網(wǎng)絡(luò)的能源總消耗,包含網(wǎng)絡(luò)內(nèi)傳感器節(jié)點采取數(shù)據(jù)處理的能源消耗及通信能源消耗[10]。所以在進行數(shù)據(jù)查詢優(yōu)化時,低延遲高可靠的查詢方式成為增強網(wǎng)絡(luò)能源效率的關(guān)鍵方法。
假設(shè)用戶查詢q需要的所有感知數(shù)據(jù)集合S分布于n1,…,nm簇頭節(jié)點相應(yīng)的數(shù)據(jù)包集合k1,…,km內(nèi),那么q在簇頭節(jié)點nj內(nèi)執(zhí)行的時間消耗為
QC=TC+TQ
(12)
式(12)中,TC是其余簇頭節(jié)點向nj節(jié)點輸送數(shù)據(jù)的通信時長,TQ是此節(jié)點實現(xiàn)數(shù)據(jù)處理的運算時間消耗。
通信時長主要是n1,…,nm個簇頭節(jié)點把數(shù)據(jù)包集合k1,…,km傳遞至節(jié)點nj所耗費的時間。它和傳遞數(shù)據(jù)量成正比,和傳送速率成反比。假設(shè)簇頭節(jié)點ni、nj之間傳送速率是每秒Rij,則ni、nj之間輸送數(shù)據(jù)包的耗時為
ti,j=ki/Rij
(13)
則
(14)
推算耗時是簇頭節(jié)點關(guān)于S執(zhí)行數(shù)據(jù)處理的時間。若對S的處理需要執(zhí)行I個命令,簇頭節(jié)點nj的處理性能是每秒執(zhí)行pj個命令,可得到
TQi=I/pj
(15)
把式(15)和式(14)引入式(12),得到查詢時間消耗值
(16)
深度雙Q網(wǎng)絡(luò)內(nèi)因為能源受限,要求網(wǎng)絡(luò)內(nèi)數(shù)據(jù)傳輸數(shù)量為最低,傳感器節(jié)點通信能量耗費遠遠超出計算時的能量損耗[11],簇頭節(jié)點nj執(zhí)行查詢的過程中,網(wǎng)絡(luò)消耗的能量包含其它簇頭節(jié)點和nj節(jié)點通信、nj節(jié)點對自身數(shù)據(jù)與其它簇頭節(jié)點輸送的數(shù)據(jù)計算處理、nj節(jié)點和基站通信三部分能量消耗。因為各個簇頭節(jié)點的計算耗時與數(shù)據(jù)的計算處理執(zhí)行命令數(shù)量相等,因此計算處理的能量損耗也相等,不需要采取單獨計算,所以僅需算出各個簇頭節(jié)點的通信能量消耗即可,計算公式為
E=λkd2
(17)
式(17)中,λ表示單位數(shù)據(jù)輸送單位距離時的傳感器能耗,k是數(shù)據(jù)包體積,d是通信間距。
按照式(17)無線電能量關(guān)聯(lián)得知,進行數(shù)據(jù)傳輸時,信號放大部分的能耗占據(jù)較多面積[12],并且和數(shù)據(jù)包大小及傳輸間距的平方成正比,那么其它簇頭節(jié)點和nj節(jié)點通信能耗為
(18)
nj節(jié)點和基站通信的能耗為
(19)
從而得到簇頭節(jié)點nj查詢過程的網(wǎng)絡(luò)能耗是
(20)
因為查詢節(jié)點比其它節(jié)點處理的數(shù)據(jù)量更多,能耗很大,為了有效延長局部網(wǎng)絡(luò)壽命,可將每次剩下的能量最高節(jié)點當(dāng)作查詢節(jié)點。
在一個查詢請求中,各個節(jié)點感知并采集自身覆蓋區(qū)域的數(shù)據(jù)源,通過相當(dāng)數(shù)量的計算、融合及處理獲取與請求結(jié)果相近的數(shù)據(jù)集,此階段消耗的能量是ei。每個節(jié)點順著自身的路徑將數(shù)據(jù)傳送至查詢節(jié)點,在數(shù)據(jù)傳輸?shù)穆窂絻?nèi),各個節(jié)點均能將自身接收的數(shù)據(jù)采取融合。因為每個節(jié)點在相同查詢請求下獲得的結(jié)果集模式相同,但傳輸距離有較大差別,因此每個節(jié)點的傳輸能耗也不相等。
如果節(jié)點i向節(jié)點j輸送數(shù)據(jù),i輸送單位信息所需的能量et(i)的表達式為
(21)
式(21)中,et表示輸送每比特信息所耗費的能量,ed為傳輸時的單位能量消耗,et與ed均通過節(jié)點發(fā)送器自身特征決定;參數(shù)n為信道路徑丟失系數(shù),依靠于網(wǎng)絡(luò)環(huán)境;傳感器節(jié)點搭設(shè)靠近地面時,障礙物較多,干擾指數(shù)較高,參數(shù)n的值也越高;rij表示傳輸距離;B為信號比特率,一般為一個固定值。
節(jié)點j接收節(jié)點i輸送的單位信息需要的能量為
er(j)=erB
(22)
式(22)中,er為接收每比特信息耗費的能量。
若深度雙Q網(wǎng)絡(luò)共有M層,則第N層節(jié)點的信息要經(jīng)過第N-1層實現(xiàn)轉(zhuǎn)發(fā),同理,傳輸至根節(jié)點時,第K層節(jié)點信息要通過K-1個節(jié)點完成轉(zhuǎn)發(fā),假設(shè)從i層節(jié)點至i-1層的距離是di,則一次信息傳輸消耗的能量是
(23)
需要注意的是,并不是M層內(nèi)全部節(jié)點內(nèi)的信息都會輸送至根節(jié)點,M層內(nèi)的信息抵達M-1層后,會采取數(shù)據(jù)融合處理,真實抵達根節(jié)點的信息較少,因此ek是傳輸信息數(shù)量的最高值。
假設(shè)一次查詢請求下,節(jié)點i在此時段一共執(zhí)行了m次的信息傳送和n次信息接收,那么節(jié)點i在查詢后的剩余能量為
ja,jb∈Ni
(24)
為了證明所提方法的數(shù)據(jù)查詢性能,與對稱加密算法、動態(tài)模糊算法進行數(shù)據(jù)查詢性能對比,由于MATLAB平臺可以快速建立數(shù)據(jù)查詢網(wǎng)絡(luò)環(huán)境,便于分析算法性能。因此,選擇MATLAB 7.0平臺進行仿真。設(shè)置目標監(jiān)視區(qū)域范圍是100m×100m,節(jié)點通信半徑為20m,數(shù)據(jù)包大小為128MB。
為驗證所提出方法數(shù)據(jù)查詢的性能,在仿真平臺對所提算法、文獻[7]方法(帶關(guān)系屬性的空間關(guān)鍵詞并行查詢處理算法)及文獻[8]方法(基于分布式無共享架構(gòu)的海量數(shù)據(jù)并行查詢平臺)進行查詢成功率、數(shù)據(jù)傳輸能耗實驗。
設(shè)置在無節(jié)點故障情況下,三種方法的成功查詢概率,基于上述實驗環(huán)境,在仿真平臺進行了500輪數(shù)據(jù)查詢,并自動計算并輸出實驗結(jié)果,如圖1所示。
圖1 查詢成功率對比
由圖1可以發(fā)現(xiàn),所提算法的查詢成功率始終高于文獻[7]、文獻[8]方法的查詢成功率。而且文獻[7]方法的平均查詢成功率為86.17%,文獻[8]方法的平均查詢成功率為80.54%,所提方法的平均查詢成功率為97.96%,說明所提方法的數(shù)據(jù)查詢性能較好,滿足低延遲高可靠數(shù)據(jù)查詢高效的需求。
以深度雙Q網(wǎng)絡(luò)查詢后剩余可靠節(jié)點個數(shù)作為驗證方法數(shù)據(jù)傳輸能耗的指標,剩余可靠節(jié)點個數(shù)越多,數(shù)據(jù)傳輸能耗均衡效果越好。具體實驗結(jié)果如圖2所示。
圖2 網(wǎng)絡(luò)剩余可靠節(jié)點個數(shù)對比圖
從圖2中可知,三種對比算法的剩余可靠節(jié)點數(shù)量呈現(xiàn)逐步下降的趨勢,但所提方法的下降趨勢比較平緩。在運行為120s時,兩種對比方法的剩余可靠節(jié)點數(shù)量分別為45個和32個;所提方法的剩余可靠節(jié)點數(shù)量為81個,且在運行時間內(nèi)剩余可靠節(jié)點維持在80個以上。這是因為所提方法利用了節(jié)點輪換方法均衡網(wǎng)絡(luò)能耗,使查詢節(jié)點能量的消耗速率降低。及時調(diào)整了查詢節(jié)點,保證剩余可靠節(jié)點的數(shù)量,因此該方法的能耗均衡能力較強。
針對深度雙Q網(wǎng)絡(luò)數(shù)據(jù)查詢過程中存在效率不高、精度較差等問題,提出一種基于分簇的低延遲高可靠數(shù)據(jù)查詢算法。通過分析深度雙Q網(wǎng)絡(luò)關(guān)鍵機制,建立深度雙Q網(wǎng)絡(luò)模型,實現(xiàn)最優(yōu)動作挑選及評估。運用基于主成分特征提取的數(shù)據(jù)聚類方法,提升數(shù)據(jù)查詢成功率。利用分簇節(jié)點輪換方法均衡網(wǎng)絡(luò)能耗,延長網(wǎng)絡(luò)生命周期,實現(xiàn)深度雙Q網(wǎng)絡(luò)的高效率學(xué)習(xí)。