柏茂羽 , 丁 勇,b, 胡忠旺
(南京航空航天大學(xué),a.自動(dòng)化學(xué)院; b.江蘇省物聯(lián)網(wǎng)與控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,南京 211106)
現(xiàn)今的多目標(biāo)跟蹤研究普遍基于無線傳感器網(wǎng)絡(luò)(WSN)[1],網(wǎng)絡(luò)中的無線傳感器節(jié)點(diǎn)具有獨(dú)立的探測、計(jì)算及通信能力,但是由于節(jié)點(diǎn)個(gè)體存在能量有限、資源有限和計(jì)算能力有限的缺陷,傳感器節(jié)點(diǎn)獨(dú)立對目標(biāo)進(jìn)行跟蹤往往無法獲得預(yù)期的效果[2]。所以,如何有效協(xié)調(diào)無線傳感器網(wǎng)絡(luò)中的節(jié)點(diǎn),使其具有持續(xù)跟蹤目標(biāo)的能力成為一個(gè)熱門的研究課題[3-4]?,F(xiàn)有的WSN協(xié)同跟蹤普遍采用跟蹤目標(biāo)附近傳感器節(jié)點(diǎn)開啟而其他節(jié)點(diǎn)休眠的工作形式,此種方法使得目標(biāo)附近的節(jié)點(diǎn)連接成簇,通過協(xié)同工作完成目標(biāo)信息的采集與傳輸,所以,如何在保證跟蹤精度的前提下盡可能降低網(wǎng)絡(luò)能量消耗成為了此類研究的關(guān)鍵問題,尤其在多個(gè)目標(biāo)相近或相遇時(shí),如何解決節(jié)點(diǎn)的任務(wù)分配競爭沖突問題,也是WSN目標(biāo)跟蹤研究的難點(diǎn)。
在當(dāng)前無線傳感器網(wǎng)絡(luò)多目標(biāo)協(xié)同跟蹤研究中,文獻(xiàn)[5]基于信息驅(qū)動(dòng)傳感器查詢算法(Information Driven Sensor Query,IDSQ)提出一種自適應(yīng)動(dòng)態(tài)協(xié)同自組織算法,能根據(jù)給定的精度自適應(yīng)地選擇簇首和簇成員,有效控制了任務(wù)節(jié)點(diǎn)的數(shù)量并減少了網(wǎng)絡(luò)能量消耗,但是該算法沒有考慮網(wǎng)絡(luò)能耗的均衡性問題。文獻(xiàn)[6]針對多目標(biāo)協(xié)同跟蹤問題提出了基于面積和法限制節(jié)點(diǎn)的選擇,避免了節(jié)點(diǎn)資源競爭沖突問題,并用遺傳算法實(shí)現(xiàn)動(dòng)態(tài)聯(lián)盟成員選擇,但是算法能耗較大。文獻(xiàn)[7]提出了一種能量有效的動(dòng)態(tài)協(xié)同自組織算法,該算法設(shè)計(jì)了更加全面的性能指標(biāo)函數(shù),并能夠根據(jù)精度閾值自適應(yīng)地選取任務(wù)節(jié)點(diǎn)。由于考慮了剩余能量,有效避免了能耗集中在部分節(jié)點(diǎn)而導(dǎo)致節(jié)點(diǎn)過早死亡,但算法不適用于節(jié)點(diǎn)分布密度高的情況。文獻(xiàn)[8]提出了一種融合了模糊聚類的多彈性子模自組織神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)任務(wù)分配方法,適用于多目標(biāo)節(jié)點(diǎn)任務(wù)分配的競爭沖突中系統(tǒng)能耗增加的問題。算法提高了多目標(biāo)耦合情況下的跟蹤精度,但是神經(jīng)網(wǎng)絡(luò)算法增加了計(jì)算的復(fù)雜度。
針對多目標(biāo)耦合時(shí)節(jié)點(diǎn)任務(wù)分配競爭沖突的問題,提出了一種多目標(biāo)協(xié)同任務(wù)分配算法,在多目標(biāo)相遇或相近時(shí)刻,打破了傳統(tǒng)的N個(gè)目標(biāo)必須構(gòu)建N個(gè)簇的思想,優(yōu)選能夠同時(shí)探測到多個(gè)目標(biāo)的節(jié)點(diǎn),組成單個(gè)簇,負(fù)責(zé)跟蹤耦合狀態(tài)的多個(gè)目標(biāo),同時(shí)采用Q學(xué)習(xí)方法,得出最佳的合簇時(shí)機(jī),利用兼顧能耗與精度的綜合性能指標(biāo),確定簇首與簇成員,最終實(shí)現(xiàn)多目標(biāo)跟蹤的協(xié)同任務(wù)分配。
自然啟發(fā)式算法、博弈論方法和強(qiáng)化學(xué)習(xí)方法均適用于在協(xié)同任務(wù)分配中兼顧跟蹤精度與能量消耗最優(yōu)解[9],本文用到的Q學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一種,其模型如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)模型Fig.1 Reinforcement learning model
其原理可以理解為,如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境對Agent正的獎(jiǎng)賞,則Agent以后采取這個(gè)策
略的趨勢會(huì)加強(qiáng)[9-10]。其具體實(shí)現(xiàn)步驟是,設(shè)環(huán)境是一個(gè)有限狀態(tài)的離散馬爾可夫過程,每個(gè)時(shí)刻Agent可在有限行為集合中選取某個(gè)行為,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生轉(zhuǎn)移,同時(shí)給出評價(jià)[11]。例如,在時(shí)刻t選擇行為at,環(huán)境由狀態(tài)st轉(zhuǎn)移到st+1,給出評價(jià)rt。rt及st+1的概率分布取決于at及st。單步Q學(xué)習(xí)方法的Q值更新公式為
(1)
式中:α∈[0,1]為學(xué)習(xí)率;γ∈[0,1]為折扣因子;Qt(st,at)表示在狀態(tài)st時(shí)Agent選擇動(dòng)作at的Q函數(shù)值;rt為Agent在t時(shí)刻執(zhí)行動(dòng)作at的立即獎(jiǎng)賞值;A為所有可供選擇的動(dòng)作集合。Watkins證明了在一定條件下,Q學(xué)習(xí)方法具有收斂性,而且必然收斂到最優(yōu)解。下文將綜合考慮跟蹤精度與網(wǎng)絡(luò)能耗,將Q學(xué)習(xí)方法運(yùn)用到無線傳感器網(wǎng)絡(luò)成簇動(dòng)作的決策中以尋求最優(yōu)解。
利用成簇機(jī)制進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)任務(wù)分配的過程[12]可以描述為,當(dāng)目標(biāo)T移動(dòng)到傳感器網(wǎng)絡(luò)內(nèi),首個(gè)感知到目標(biāo)信息的節(jié)點(diǎn)成為簇首P,通過廣播喚醒其通信范圍內(nèi)的相鄰節(jié)點(diǎn)集Hs={s1,s2,…,sn},各節(jié)點(diǎn)根據(jù)任務(wù)信息和自身狀態(tài)給出回復(fù)信息,簇首根據(jù)回復(fù)信息選出簇成員集Hm={sm1,sm2,…,smn}·(Hm∈Hs)。隨著目標(biāo)T的移動(dòng),激活目標(biāo)附近的節(jié)點(diǎn)構(gòu)建新的簇,通過動(dòng)態(tài)成簇跟蹤目標(biāo)。
當(dāng)多個(gè)目標(biāo)在較小范圍內(nèi)移動(dòng)時(shí),常會(huì)遇到多個(gè)目標(biāo)距離較近的情形(例如在相近時(shí)刻的軌跡交叉或軌跡相近等情形,簡稱為耦合情形),此時(shí)存在節(jié)點(diǎn)sc可同時(shí)探測到多個(gè)目標(biāo),不同的簇可能會(huì)同時(shí)選用節(jié)點(diǎn)sc為簇成員,即節(jié)點(diǎn)任務(wù)分配存在競爭沖突,如不加以處理,節(jié)點(diǎn)sc很可能在短時(shí)間內(nèi)被頻繁征用,造成網(wǎng)絡(luò)關(guān)鍵資源的損耗。傳統(tǒng)的解決方法是優(yōu)化分配關(guān)鍵性的節(jié)點(diǎn)給合適的簇,避免競爭沖突的出現(xiàn),但是此種方法遵循的約束條件是一個(gè)傳感器節(jié)點(diǎn)只能分配跟蹤定位一個(gè)目標(biāo)[13],在目標(biāo)距離很近,如簇H1成員節(jié)點(diǎn)的選擇集合可以與簇H2重合時(shí),即(H1∈Ho)&(H2∈Ho),仍采用此種方法很可能會(huì)造成局部區(qū)域內(nèi)多數(shù)節(jié)點(diǎn)均被調(diào)用,局部區(qū)域內(nèi)節(jié)點(diǎn)的可選擇性會(huì)大大降低,選擇范圍的縮小會(huì)直接導(dǎo)致任務(wù)分配難以同時(shí)兼顧跟蹤精度和節(jié)點(diǎn)能耗,間接對傳感器網(wǎng)絡(luò)的生命周期產(chǎn)生不利影響。
在實(shí)際應(yīng)用中,隨著硬件技術(shù)的發(fā)展,傳感器節(jié)點(diǎn)的探測范圍RD越來越大,多數(shù)傳感器節(jié)點(diǎn)可以做到同時(shí)探測到范圍內(nèi)多個(gè)目標(biāo)的信息,并且多是以被動(dòng)形式接收移動(dòng)目標(biāo)的反射信息數(shù)據(jù)(如超聲波傳感器、紅外線傳感器等),考慮到這些,提出了一種新的適用于多目標(biāo)耦合狀態(tài)的任務(wù)分配算法,該算法舍棄一個(gè)傳感器只能分配跟蹤定位一個(gè)目標(biāo)的約束條件,提出單個(gè)節(jié)點(diǎn)可以同時(shí)探測多個(gè)目標(biāo)的思想,運(yùn)用Q學(xué)習(xí)方法選取合適的時(shí)刻tc將服務(wù)于多個(gè)目標(biāo)的多個(gè)簇ΩH={H1,H2,…,Hn},合并轉(zhuǎn)化為單簇HC,由于簇內(nèi)節(jié)點(diǎn)可以探測到多個(gè)目標(biāo)的跟蹤信息,對整體網(wǎng)絡(luò)而言,意在減少耦合時(shí)刻局部網(wǎng)絡(luò)內(nèi)所需激活的節(jié)點(diǎn)數(shù)量,達(dá)到節(jié)省能耗的目的。
將多目標(biāo)的耦合過程描述為“多目標(biāo)的相遇”、“多目標(biāo)的并行”和“多目標(biāo)的分離”3個(gè)階段,圖2所示為3個(gè)階段的無線傳感器網(wǎng)絡(luò)場景。圖2a表示在無線傳感器網(wǎng)絡(luò)中存在3個(gè)移動(dòng)目標(biāo),每個(gè)目標(biāo)由4個(gè)傳感器節(jié)點(diǎn)組成的簇負(fù)責(zé)跟蹤,3個(gè)目標(biāo)即將做互相靠攏的運(yùn)動(dòng);圖2b表示“多目標(biāo)的相遇”階段,3個(gè)移動(dòng)目標(biāo)距離足夠近,以致3個(gè)跟蹤單目標(biāo)的動(dòng)態(tài)簇合并為單簇,由7個(gè)傳感器節(jié)點(diǎn)組成的簇HC負(fù)責(zé)跟蹤所有目標(biāo);圖2c表示“多目標(biāo)的并行”階段,多目標(biāo)以團(tuán)體的模式向同一個(gè)方向運(yùn)動(dòng),雖然目標(biāo)之間會(huì)出現(xiàn)小范圍的相聚或遠(yuǎn)離運(yùn)動(dòng),但仍然不超出單簇模式探測能力之外;圖2d表示“多目標(biāo)的分離”階段,即單個(gè)目標(biāo)或者多個(gè)目標(biāo)開始脫離團(tuán)體,使得難以維持單簇HC繼續(xù)跟蹤多目標(biāo),直至完全分離出單簇的探測范圍的階段。
圖2 WSN下多目標(biāo)耦合場景Fig.2 Scene for multi-target coupling in WSN
然而采用此種方法帶來了2個(gè)問題:1) 如何選擇合簇時(shí)機(jī)和確定單簇HC簇首及簇成員;2) 如何在單簇HC采集的多目標(biāo)位置信息中篩選出指定目標(biāo)信息。前者采用Q學(xué)習(xí)方法進(jìn)行解決,后者采用賦予目標(biāo)標(biāo)簽的方法進(jìn)行目標(biāo)信息篩選。
首先,根據(jù)節(jié)點(diǎn)能量消耗情況與跟蹤精度約束建立網(wǎng)絡(luò)能耗模型。根據(jù)使用形式不同,消耗能量可以分為4類:節(jié)點(diǎn)進(jìn)行數(shù)據(jù)融合消耗的能量Em,節(jié)點(diǎn)發(fā)射數(shù)據(jù)消耗的能量El,節(jié)點(diǎn)接收數(shù)據(jù)消耗的能量Er以及傳感器探測消耗的能量Es。Em與參與數(shù)據(jù)融合的數(shù)據(jù)量大小有關(guān),當(dāng)融合x比特的數(shù)據(jù)時(shí),消耗能量可以表示為
(2)
(3)
Er(sk)=λrx
(4)
式中:sl表示數(shù)據(jù)發(fā)射節(jié)點(diǎn);sr表示數(shù)據(jù)接收節(jié)點(diǎn);λl表示射頻能耗系數(shù);λd表示電路放大系數(shù);Slr表示節(jié)點(diǎn)sl與節(jié)點(diǎn)sr之間的歐氏距離;θ表示路徑衰減系數(shù);λr表示射頻消耗系數(shù)。Es與使用傳感器進(jìn)行探測的次數(shù)有關(guān),每進(jìn)行一次探測消耗的能量為一個(gè)常數(shù)。設(shè)多目標(biāo)類型相同,探測概率門限為β0。為了保證跟蹤精度滿足要求,k時(shí)刻探測概率β(k)需要滿足
β(k)≤β0。
(5)
在無線傳感器網(wǎng)絡(luò)多目標(biāo)跟蹤過程中,將簇Hn的簇首Pn喚醒的目標(biāo)附近的簇成員備選節(jié)點(diǎn)集設(shè)為Hcn,在k時(shí)刻,如果存在節(jié)點(diǎn)sc,sc∈{Hc1,Hc2…,Hcn},則可稱此時(shí)n個(gè)目標(biāo)“相遇”。多目標(biāo)相遇階段節(jié)點(diǎn)任務(wù)分配主要需要確定的內(nèi)容有,簇合并的時(shí)機(jī),單簇HC成員個(gè)數(shù),和簇首與簇成員的選擇,具體過程如下。
2.2.1簇成員個(gè)數(shù)選擇
假設(shè)執(zhí)行跟蹤工作節(jié)點(diǎn)數(shù)目為N,HC所需最小節(jié)點(diǎn)數(shù)為nmin,估計(jì)相遇目標(biāo)數(shù)目為m,負(fù)責(zé)跟蹤單個(gè)目標(biāo)的所需節(jié)點(diǎn)數(shù)最小為Nmin,每個(gè)節(jié)點(diǎn)的探測概率均設(shè)為pν。簇成員個(gè)數(shù)的選擇與探測概率β(k)有關(guān)。此時(shí)的探測概率可以表示為
β(k)=1-(1-pν)N
(6)
由式(5)和式(6)可得簇成員個(gè)數(shù)為
(7)
可知,在滿足探測概率門限的情況下,簇成員個(gè)數(shù)最少為
(8)
(9)
為了保證無線傳感器網(wǎng)絡(luò)能夠?qū)Ω采w區(qū)域內(nèi)的目標(biāo)進(jìn)行跟蹤,每個(gè)簇內(nèi)成員節(jié)點(diǎn)數(shù)目應(yīng)不小于nmin。為了保證能量消耗最小,在成簇時(shí)成員節(jié)點(diǎn)數(shù)目均選擇為nmin。
2.2.2設(shè)定簇首與簇成員
首先設(shè)定單簇HC的簇首與簇成員,本文在簇首選擇時(shí)所采用的思想是:將多簇內(nèi)每個(gè)節(jié)點(diǎn)的當(dāng)前剩余能量與網(wǎng)絡(luò)平均能量進(jìn)行比較,若節(jié)點(diǎn)的當(dāng)前剩余能量大于網(wǎng)絡(luò)平均能量,并且節(jié)點(diǎn)的通訊半徑RD大于節(jié)點(diǎn)與各目標(biāo)間的歐氏距離Si,則將該節(jié)點(diǎn)放入候選節(jié)點(diǎn)集ξ中,使之成為候選節(jié)點(diǎn),然后在候選節(jié)點(diǎn)集中設(shè)跟蹤效用最優(yōu)的節(jié)點(diǎn)成為簇頭。
(10)
(11)
當(dāng)簇首節(jié)點(diǎn)候選集不為空集時(shí),在簇首候選集中選擇信息效用函數(shù)值最大的節(jié)點(diǎn),設(shè)為簇首節(jié)點(diǎn)。在簇首節(jié)點(diǎn)通訊半徑覆蓋的區(qū)域內(nèi)選擇信息效用最大的nmin個(gè)節(jié)點(diǎn)作為簇成員。
2.2.3判斷是否合簇
因?yàn)槭欠裥枰喜⒍啻貫閱未豀C是屬于最優(yōu)搜索問題,本文采用Q學(xué)習(xí)方法對其進(jìn)行研究,需要對簇首及其簇成員的動(dòng)作以及回報(bào)函數(shù)加以定義??梢远xQ函數(shù)為
(12)
式中:st表示當(dāng)前多簇的工作模式;at表示對應(yīng)的動(dòng)作,具有保持與合并兩種形式。當(dāng)選擇保持動(dòng)作時(shí),st=0,多簇保持原工作狀態(tài);當(dāng)選擇合并動(dòng)作時(shí),st=1,多簇進(jìn)行合并。最終,可以得到最優(yōu)選擇策略
(13)
式中,At表示at所能選取的動(dòng)作的集合。式(13)表示獲取最大Q值時(shí),選取動(dòng)作at的過程。當(dāng)采用此策略時(shí),獲得是否合簇選擇為最優(yōu)方案。
為了保證動(dòng)態(tài)感知簇能夠?qū)\(yùn)動(dòng)目標(biāo)進(jìn)行有效跟蹤,可以定義如下回報(bào)函數(shù)
(14)
式中:n為跟蹤范圍內(nèi)的目標(biāo)數(shù)目;Ni為多簇跟蹤模式下負(fù)責(zé)跟蹤目標(biāo)i的簇內(nèi)成員個(gè)數(shù);ECi_Nj表示跟蹤目標(biāo)i的簇內(nèi)第j個(gè)簇成員所消耗的能量,可由
(15)
得出。式中:ηj為第j個(gè)節(jié)點(diǎn)對運(yùn)動(dòng)目標(biāo)進(jìn)行探測的次數(shù);Sjh表示節(jié)點(diǎn)j與簇首間的歐氏距離。ECi_s表示跟蹤目標(biāo)i的簇首的能量消耗,可由
(16)
得出。EH_K表示單簇HC跟蹤模式下簇成員的能量消耗,EHS表示其簇首的能量消耗。由式(14)可知,當(dāng)合簇后總體消耗能量小于合簇前跟蹤網(wǎng)絡(luò)消耗能量時(shí),保持多簇工作模式的動(dòng)作將會(huì)得到消極回報(bào),從而觸發(fā)合簇動(dòng)作。如果判斷不需要合簇行為,則繼續(xù)采用傳統(tǒng)多目標(biāo)任務(wù)分配方法處理節(jié)點(diǎn)競爭沖突問題[8],繼續(xù)進(jìn)行多目標(biāo)跟蹤。
如果簇首因?yàn)槟芰肯膯栴},使得剩余能量低于存活能量下限與簇首切換消耗能量之和,或者在當(dāng)前任意簇成員探測范圍內(nèi)的目標(biāo)數(shù)減少了,保持當(dāng)前簇工作的動(dòng)作應(yīng)該得到消極回報(bào),將會(huì)觸發(fā)簇首切換動(dòng)作。但此處的簇首切換是以單簇跟蹤模式下的簇首切換,簇首切換后重新選取簇成員即可形成新簇??梢远x Q 值函數(shù)為
(17)
式中:sk表示當(dāng)前簇首的工作模式;ak表示簇首采用的動(dòng)作,具有保持與切換兩種形式。當(dāng)選擇保持動(dòng)作時(shí),sk=0,簇首保持原工作模式;當(dāng)選擇切換動(dòng)作時(shí),sk=1,切換簇首,可以得到最優(yōu)選擇策略
(18)
式中,Ak表示ak所能選取的動(dòng)作的集合。式(18)表示獲取最大Q值時(shí),選取動(dòng)作ak的過程。當(dāng)采用此策略時(shí),獲得的簇首切換時(shí)間為最優(yōu)。
為了保證動(dòng)態(tài)感知簇能夠?qū)\(yùn)動(dòng)目標(biāo)進(jìn)行有效跟蹤,可以定義如下回報(bào)函數(shù)
(19)
(20)
式中,xbh表示簇首任命指令的比特?cái)?shù),而簇成員任命指令比特?cái)?shù)設(shè)為xbc。根據(jù)式(19)可知,當(dāng)簇首剩余能量小于存活能量底線與簇首切換消耗能量之和或任意多目標(biāo)團(tuán)體內(nèi)的目標(biāo)超出當(dāng)前簇任意簇成員探測半徑時(shí),保持當(dāng)前簇工作的動(dòng)作將會(huì)得到消極回報(bào),將會(huì)觸發(fā)簇首切換動(dòng)作。如果函數(shù)判定k時(shí)刻簇首需要切換,則按照2.2.2節(jié)方法建立簇首備選集,選擇節(jié)點(diǎn)作為新的簇首,并且選擇簇首探測半徑內(nèi)的節(jié)點(diǎn)信息效用函數(shù)計(jì)算,選擇值最大的nmin個(gè)節(jié)點(diǎn)作為簇成員。
在單簇HC同時(shí)探測多個(gè)目標(biāo)的過程中,部分簇成員節(jié)點(diǎn)負(fù)責(zé)跟蹤定位單個(gè)目標(biāo),部分節(jié)點(diǎn)是負(fù)責(zé)跟蹤定位多個(gè)目標(biāo),后者采集的信息需要進(jìn)一步地篩選出直觀的各目標(biāo)的信息,此步驟屬于網(wǎng)絡(luò)終端數(shù)據(jù)分析處理的工作??紤]傳統(tǒng)的任務(wù)分配算法在目標(biāo)耦合的情形下單個(gè)節(jié)點(diǎn)跟蹤定位單個(gè)目標(biāo)時(shí),節(jié)點(diǎn)同樣會(huì)被動(dòng)探測到探測半徑RD范圍內(nèi)其他目標(biāo)的信息,只是此類信息被終端數(shù)據(jù)分析處理時(shí)刪除了,僅保留了單個(gè)目標(biāo)的信息,此處利用類似的方法,在簇合并時(shí),賦予目標(biāo)Tn標(biāo)簽tagn,當(dāng)終端遍歷到此節(jié)點(diǎn)輸入數(shù)據(jù)流中存在單個(gè)tag時(shí),即按照傳統(tǒng)數(shù)據(jù)篩選方法進(jìn)行操作;如果分析到數(shù)據(jù)流中存在nt個(gè)tag時(shí),即復(fù)制此段數(shù)據(jù)流nt次,同時(shí)在第i次復(fù)制的數(shù)據(jù)流中,僅保留帶有tagi標(biāo)簽的目標(biāo)數(shù)據(jù),刪除其他數(shù)據(jù)。最終便可篩選出此傳感器節(jié)點(diǎn)采集到的各目標(biāo)信息,具體流程如圖3所示。
圖3 目標(biāo)信息分離Fig.3 Target information separation
取3個(gè)隨機(jī)運(yùn)動(dòng)的目標(biāo),運(yùn)動(dòng)在長、寬均為500 m的正方形場地,共隨機(jī)分布256個(gè)節(jié)點(diǎn)。仿真實(shí)驗(yàn)在AMD FX-7500 2.10 GHz處理器、1024 MB內(nèi)存的PC上,使用Matlab R2012b平臺(tái)實(shí)現(xiàn)。采用本文算法作為節(jié)點(diǎn)任務(wù)分配算法,同時(shí)采用擴(kuò)展卡爾曼濾波算法作為目標(biāo)跟蹤算法,目標(biāo)的運(yùn)動(dòng)模型為
(21)
式中:F為狀態(tài)轉(zhuǎn)移矩陣;φk為過程噪聲,取高斯白噪聲,即φk~N(0,Q),協(xié)方差矩陣為Qk;γk為量測噪聲,也取高斯白噪聲,其協(xié)方差矩陣為Gk;h(Xk)表示目標(biāo)量測矩陣。其中,
為0.8,探測概率門限為0.99,跟蹤誤差門限為10。跟蹤精度評價(jià)指標(biāo)選擇位置估計(jì)均方根誤差,定義為
(22)
圖4中,無線傳感器網(wǎng)絡(luò)協(xié)同跟蹤的仿真場景圖顯示了傳感器節(jié)點(diǎn)部署與運(yùn)動(dòng)軌跡,3個(gè)目標(biāo)自上往下運(yùn)動(dòng),軌跡交叉后又分離,圖中標(biāo)記了目標(biāo)在3個(gè)不同時(shí)刻的簇首和簇成員,在目標(biāo)未相遇的時(shí)刻每個(gè)目標(biāo)由4個(gè)節(jié)點(diǎn)負(fù)責(zé)跟蹤,相遇時(shí)刻由6個(gè)節(jié)點(diǎn)組成的單簇負(fù)責(zé)跟蹤3個(gè)目標(biāo),后1個(gè)目標(biāo)脫離群體由4個(gè)節(jié)點(diǎn)繼續(xù)跟蹤,另外2個(gè)目標(biāo)并行前進(jìn),由5個(gè)節(jié)點(diǎn)組成的單簇負(fù)責(zé)跟蹤,仿真結(jié)果說明了多目標(biāo)耦合情形下任務(wù)分配算法的有效性。
圖4 WSN協(xié)同跟蹤仿真場景圖Fig.4 Collaborative tracking simulation scene in WSN
圖5中,采用最近鄰算法、文獻(xiàn)[6]算法與本文算法做仿真比較。3種算法分別對同一個(gè)情形的3個(gè)運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤,通過計(jì)算位置估計(jì)均方根誤差可以看出,本文算法的跟蹤誤差與前兩者相比,基本顯示出了較優(yōu)的效果,從而證明了本文算法在跟蹤精度方面的有效性。
圖5 跟蹤誤差比較Fig.5 Comparison of tracking errors
仿真采用的節(jié)點(diǎn)能量參數(shù)設(shè)置如表1所示。
表1 節(jié)點(diǎn)能量參數(shù)設(shè)置
表2中,對最近鄰算法、文獻(xiàn)[6]算法及本文算法在跟蹤過程中的能量消耗加以分析,可以看出,本文算法的能量消耗小于前兩者,這是由于該算法通過合并簇減少了目標(biāo)耦合情形的簇成員數(shù)量,降低了網(wǎng)絡(luò)能量的消耗,從而證明了本文提出算法對降低網(wǎng)絡(luò)消耗的有效性。
表2算法能耗對比
Table2EnergyconsumptioncomparisonJ
協(xié)同策略能量消耗最近鄰算法0.06098文獻(xiàn)[6]算法0.01208本文算法0.00893
針對WSN多目標(biāo)協(xié)同跟蹤中存在的多目標(biāo)耦合問題,提出了一種基于Q學(xué)習(xí)的節(jié)點(diǎn)任務(wù)分配算法。該算法在簇成員的任務(wù)分配競爭沖突問題上,提出了合并多簇為單簇進(jìn)行多目標(biāo)跟蹤的方法,采用Q學(xué)習(xí)方法,得出了目標(biāo)相遇時(shí)合簇時(shí)機(jī)的最優(yōu)選擇和目標(biāo)并行時(shí)最優(yōu)簇首切換方案。同時(shí),綜合考慮剩余能量和信息效用給出了最優(yōu)簇首及簇成員的選擇,最后,根據(jù)目標(biāo)特征標(biāo)簽分離了目標(biāo)信息。仿真結(jié)果表明,本文提出的基于Q學(xué)習(xí)的多目標(biāo)耦合任務(wù)分配算法能夠滿足多目標(biāo)跟蹤采集信息的需求,同時(shí)有效降低網(wǎng)絡(luò)能量消耗。
但本文所述的方法僅適用于同時(shí)段軌跡相近或交叉的一般目標(biāo)耦合情形,實(shí)際應(yīng)用中還存在很多本文未分析到的耦合情形,并且特殊傳感器節(jié)點(diǎn)的探測模式也會(huì)導(dǎo)致算法難以適用,這些都需要進(jìn)行下一步的研究。
[1]王永才.傳感器網(wǎng)絡(luò)目標(biāo)跟蹤系統(tǒng)協(xié)同設(shè)計(jì)理論研究與應(yīng)用[D].北京:清華大學(xué),2006.
[2]LIU J,CHU M,REICH J E.Multitarget tracking in distributed sensor networks[J].IEEE Signal Processing Magazine,2007,24(3):36- 46.
[3]MA H,NG B W-H.Collaborative data and information processing for target tracking in wireless sensor networks[C]//The 4th International Conference on Industrial Informatics,IEEE,2006:647-652.
[4]OKA A,LAMPE L.Energy efficient distributed filtering with wireless sensor networks[J].IEEE Transactions on Signal Processing,2008,56(5):2062-2075.
[5]陳延軍,潘泉,梁彥,等.基于IDSQ的自適應(yīng)動(dòng)態(tài)協(xié)同自組織算法[J].控制與決策,2011,26(3):393-396,401.
[6]文莎,蔡自興,劉麗玨,等.無線傳感器網(wǎng)絡(luò)多目標(biāo)跟蹤中協(xié)同任務(wù)分配[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012,43(8):3031-3038.
[7]于春娣.基于無線傳感器網(wǎng)絡(luò)的目標(biāo)跟蹤技術(shù)研究[D].南京:南京航空航天大學(xué),2013.
[8]劉美,黃道平.WSN中傳感器節(jié)點(diǎn)的彈性神經(jīng)網(wǎng)絡(luò)任務(wù)分配方法[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(6):66-72.
[9]WATKINS J C H,DYANA P.Q-learning[J].Machine Learning,1992(8):279-294.
[10]PIGGOTT P,SATTAR A.Reinforcement learning of iterative behavior with multiple sensors[J].Journal of Applied Intelligence,1994(4):351-365.
[11]王雪松,朱美強(qiáng),程玉虎.強(qiáng)化學(xué)習(xí)原理及其應(yīng)用[M].北京:科學(xué)出版社,2014.
[12]陳劍霞,臧傳治,梁韡,等.無線傳感器網(wǎng)絡(luò)動(dòng)態(tài)協(xié)同任務(wù)分配機(jī)制[J].信息與控制,2006,35(2):189-199.
[13]劉梅,李海昊,沈毅.無線傳感器網(wǎng)絡(luò)空中目標(biāo)跟蹤任務(wù)分配技術(shù)的研究[J].宇航學(xué)報(bào),2007,28(4):960-965,971.