宋偉中 王行業(yè) 王 寧
1(黃河科技學(xué)院信息工程學(xué)院 河南 鄭州 450000) 2(華北水利水電大學(xué)信息工程學(xué)院 河南 鄭州 450000)
智能無人機(jī)目標(biāo)搜索在很大程度上取決于無人機(jī)對(duì)區(qū)域環(huán)境的協(xié)同覆蓋和感知[1-2],將無人機(jī)集群搜索的問題轉(zhuǎn)化為目標(biāo)區(qū)域協(xié)同最優(yōu)覆蓋問題,具有空間與功能上的分布性、任務(wù)執(zhí)行的并行性及容錯(cuò)性,可以有效地對(duì)危險(xiǎn)區(qū)域進(jìn)行目標(biāo)搜索和定位。感知任務(wù)的合理分配是影響多無人機(jī)區(qū)域協(xié)同覆蓋的一個(gè)重要因素[3],也是多無人機(jī)自主協(xié)同控制的重要研究方向[4]。
面向無人機(jī)區(qū)域協(xié)同覆蓋的感知任務(wù)分配方法,主要分為集中式任務(wù)分配和分布式任務(wù)分配[5]。其中,集中式任務(wù)分配方法通過中心系統(tǒng)控制無人機(jī)之間的通信和數(shù)據(jù)傳輸,針對(duì)任務(wù)需求和任務(wù)約束,確定無人機(jī)之間的任務(wù)序列,從而建立調(diào)度模型進(jìn)行優(yōu)化求解,包括整數(shù)規(guī)劃模型[6]、人工蟻群算法[7]、進(jìn)化算法[8];與集中式任務(wù)分配方法相比,分布式任務(wù)分配方法以去中心化的方式平衡任務(wù)分配的交互,能夠?qū)崿F(xiàn)對(duì)任務(wù)態(tài)勢的快速優(yōu)化組合及高效的同步共享,如基于合同網(wǎng)[9]方法,通過“招標(biāo)-投標(biāo)-中標(biāo)”的市場拍賣機(jī)制實(shí)現(xiàn)無人機(jī)任務(wù)的委派和遷移,使系統(tǒng)以較低的代價(jià)和較高的質(zhì)量完成區(qū)域協(xié)同覆蓋任務(wù)。考慮目標(biāo)區(qū)域的動(dòng)態(tài)變化和不確定性,以及無人機(jī)的局部觀測性,很多研究在動(dòng)態(tài)實(shí)時(shí)環(huán)境下引入柵格化[11]的劃分方法對(duì)區(qū)域覆蓋,從而使無人機(jī)根據(jù)相同的柵格區(qū)域分配目標(biāo)控制任務(wù),實(shí)現(xiàn)代價(jià)最小的區(qū)域覆蓋。但柵格化的劃分使目標(biāo)數(shù)據(jù)太大,導(dǎo)致無人機(jī)在大量的無關(guān)結(jié)果中篩選信息,計(jì)算開銷較大;交互式動(dòng)態(tài)圖[12]和基于多agent[13]的任務(wù)分配方法可以求解空間狀態(tài)的目標(biāo)搜索問題,在無先驗(yàn)信息環(huán)境下實(shí)現(xiàn)區(qū)域協(xié)同覆蓋,但該方法受限于知識(shí)表達(dá)和推理的局部性,不能夠感知任務(wù)特征與目標(biāo)區(qū)域的內(nèi)部差異,使任務(wù)分配不能保證每次都計(jì)算出最優(yōu)解;群智感知[14]任務(wù)分配系統(tǒng)尋求利益最大化的眾包任務(wù)競爭與激勵(lì)模式,可以為無人機(jī)區(qū)域協(xié)同覆蓋提供一種漸進(jìn)式的任務(wù)分發(fā)服務(wù),但其需要綁定多樣化的移動(dòng)設(shè)備,且隨著任務(wù)的動(dòng)態(tài)程度加大,需要選擇更多感知設(shè)備參與者調(diào)度無人機(jī)對(duì)區(qū)域協(xié)同覆蓋的任務(wù),對(duì)于無人機(jī)針對(duì)異構(gòu)設(shè)備的數(shù)據(jù)采集過于頻繁且要求較高,應(yīng)用實(shí)現(xiàn)較為困難。
本文針對(duì)任務(wù)需求的差異,提出一種面向區(qū)域協(xié)同覆蓋的任務(wù)分配方法??紤]無人機(jī)局部觀測性和環(huán)境不確定性,該方法在構(gòu)建分布式馬爾可夫覆蓋框架模型的基礎(chǔ)上,利用目標(biāo)線路集和任務(wù)擴(kuò)散調(diào)度序列集對(duì)目標(biāo)區(qū)域進(jìn)行差異化計(jì)算,提出基于強(qiáng)化學(xué)習(xí)的感知任務(wù)差異化分配方法,實(shí)現(xiàn)動(dòng)態(tài)目標(biāo)區(qū)域的最優(yōu)覆蓋策略;采用MATLAB仿真平臺(tái)驗(yàn)證本文方法的有效性。
(1) 無人機(jī)屬性及飛行參數(shù)。無人機(jī)在一定區(qū)域W×W內(nèi)飛行,集群控制系統(tǒng)對(duì)目標(biāo)進(jìn)行搜索覆蓋,并受到包括環(huán)境障礙、碰撞規(guī)避、電磁干擾和威脅入侵等干擾因素的約束和影響。設(shè)無人機(jī)集群系統(tǒng)為基于四旋翼無人機(jī)的同構(gòu)群體,每臺(tái)無人機(jī)都架構(gòu)了相同的傳感器和觀測系統(tǒng),數(shù)量為NU臺(tái),計(jì)算無人機(jī)的飛行參數(shù),令其在固定高度下通過加速器直接測量機(jī)體坐標(biāo)下的水平移動(dòng)速度為VU,最大偏角度為φmax,有效探測距離為L。
(2) 動(dòng)態(tài)目標(biāo)搜索任務(wù)描述。設(shè)有NT個(gè)動(dòng)態(tài)目標(biāo)和Nd個(gè)干擾區(qū)域,如圖1所示。分別用三角形表示動(dòng)態(tài)目標(biāo),用圓形表示干擾因素,目標(biāo)以VT的速度向任意方向移動(dòng),所有的目標(biāo)信息在搜索任務(wù)前均未知,無人機(jī)系統(tǒng)的任務(wù)是搜索這些目標(biāo)并保證無人機(jī)不進(jìn)入干擾因素,利用目標(biāo)線路實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的穩(wěn)定覆蓋。
圖1 任務(wù)搜索區(qū)域
針對(duì)在線實(shí)時(shí)環(huán)境下區(qū)域協(xié)同覆蓋的需求和目標(biāo)信息的流向特點(diǎn),將任務(wù)分配控制框架分為操作平臺(tái)、區(qū)域覆蓋和任務(wù)分配三個(gè)模塊,如圖2所示。
圖2 感知任務(wù)分配控制框架
操作平臺(tái)為用戶提供數(shù)據(jù)基礎(chǔ)服務(wù)和可視化操作界面,包括ArcGIS數(shù)據(jù)服務(wù)和信息系統(tǒng)界面,通過分布式通信組網(wǎng)聯(lián)通實(shí)時(shí)在線的多臺(tái)無人機(jī)系統(tǒng)。
區(qū)域覆蓋模塊包括區(qū)域差異劃分、分布式馬爾可夫覆蓋模型和任務(wù)擴(kuò)散調(diào)度,當(dāng)獲取區(qū)域覆蓋需求后,首先根據(jù)任務(wù)關(guān)聯(lián)比重將擬覆蓋區(qū)域進(jìn)行差異劃分,然后構(gòu)建分布式馬爾可夫覆蓋模型在劃分的區(qū)域中選擇覆蓋線路,為任務(wù)的擴(kuò)散調(diào)度提供數(shù)據(jù)交互的模型。
任務(wù)分配模塊在實(shí)現(xiàn)差異化分配計(jì)算的基礎(chǔ)上,提出強(qiáng)化學(xué)習(xí)的方法,利用選擇目標(biāo)線路集和擴(kuò)散調(diào)度任務(wù)序列,從而找到一個(gè)策略使無人機(jī)達(dá)到最大的獎(jiǎng)勵(lì)回報(bào)信號(hào),實(shí)現(xiàn)區(qū)域的最優(yōu)協(xié)同覆蓋。
(1)
然后,根據(jù)Voronoi圖和任務(wù)關(guān)聯(lián)比重對(duì)目標(biāo)區(qū)域進(jìn)行差異劃分,計(jì)算式如下:
(2)
無人機(jī)實(shí)時(shí)在線感知已差異劃分的目標(biāo)區(qū)域,針對(duì)局部不確定態(tài)勢環(huán)境下,對(duì)于任務(wù)分配而言根據(jù)差異劃分的區(qū)域線路選擇判斷區(qū)域覆蓋的程度,利用文獻(xiàn)[17]所提出的分布式馬爾可夫覆蓋模型推測并優(yōu)化最佳的個(gè)體路線集合和群體行為,可以解決對(duì)區(qū)域覆蓋的任務(wù)分配。
定義1分布式馬爾可夫覆蓋模型。對(duì)于一臺(tái)無人機(jī)Ui在子區(qū)域Ω而言,將目標(biāo)區(qū)域覆蓋構(gòu)建為一個(gè)分布式馬爾可夫模型:
M={Ui,Si,R(Ui),{Ai},{δi},Pi,Reword,X0}
(3)
式中:Ui表示無人機(jī)集合,Ui={U1,U2,…,UN};Si為無人機(jī)狀態(tài)空間;R(Ui)表示無人機(jī)訪問某一子區(qū)域Ωi的線路集合;{Ai}表示為動(dòng)作空間集合,以水平移動(dòng)速度VU在任意方向飛行;{δi}表示無人機(jī)Ui可觀測的目標(biāo)集合。δi(t)={regi(t),posi(t),0≤i≤1},表示t時(shí)刻第i臺(tái)無人機(jī)Ui的局部可觀測目標(biāo)區(qū)域信息regi(t)和位置信息posi(t),regi(t)表示對(duì)當(dāng)前區(qū)域內(nèi)觀測信息的集合info={infoconvered,infounconver,Ci},infoconvered表示已被覆蓋的子區(qū)域集合,infounconver表示未被覆蓋的子區(qū)域集合,Ci為滿足干擾因素條件的集合。無人機(jī)在可觀測范圍內(nèi)可以根據(jù)區(qū)域劃分判定目標(biāo)所在位置。
Reword計(jì)算了無人機(jī)Ui在當(dāng)前狀態(tài)Si下經(jīng)過某個(gè)動(dòng)作Ai到達(dá)狀態(tài)Si+1的回報(bào)值,在覆蓋線路選擇時(shí)使用無人機(jī)獲得了不同的回報(bào)值,從而保證對(duì)目標(biāo)區(qū)域的覆蓋。
X0為初始信念狀態(tài),無人機(jī)通過初始信念狀態(tài)和初始函數(shù)獲取當(dāng)前狀態(tài)向量,指導(dǎo)無人機(jī)的行為動(dòng)作。
由于任務(wù)信息轉(zhuǎn)發(fā)所需的近距離接觸時(shí)間是不可忽略的,需要對(duì)任務(wù)信息在節(jié)點(diǎn)間的擴(kuò)散復(fù)制時(shí)間進(jìn)行定量分析。對(duì)于任務(wù)信息q而言,在傳感器傳輸方式下轉(zhuǎn)發(fā)所需的時(shí)間為Ttrans(q),在數(shù)據(jù)的擴(kuò)散分配過程中,對(duì)已攜帶任務(wù)信息的無人機(jī),需要尋找交互時(shí)間滿足數(shù)據(jù)轉(zhuǎn)發(fā)時(shí)間的節(jié)點(diǎn)對(duì)象進(jìn)行擴(kuò)散。為了對(duì)節(jié)點(diǎn)間的交互時(shí)間進(jìn)行描述,本文定義可調(diào)度序列對(duì)無人機(jī)區(qū)域覆蓋的任務(wù)分配進(jìn)行描述。
基于分布式馬爾可夫覆蓋模型,描述兩臺(tái)無人機(jī)之間關(guān)于某一任務(wù)數(shù)據(jù)所存在的空閑時(shí)間對(duì),記為TP。首先將發(fā)送任務(wù)數(shù)據(jù)的發(fā)送方無人機(jī)稱為出節(jié)點(diǎn),接收方稱為入節(jié)點(diǎn)。針對(duì)從出節(jié)點(diǎn)U1發(fā)送的任務(wù)數(shù)據(jù)q,若出節(jié)點(diǎn)U1和入節(jié)點(diǎn)U2在時(shí)刻Tmin之后存在關(guān)于[Ts,Te]的空閑時(shí)間對(duì),其中Ts為數(shù)據(jù)傳輸?shù)钠鹗紩r(shí)刻且Ts≥Tmin,而Te為Ts與Ttrans(q)之和,則稱為兩者存在時(shí)刻Tmin之后關(guān)于數(shù)據(jù)q的可調(diào)度序列,記為:
TP=({δi},U1,U2,[Ts,Te],Reword)
(4)
式中:Reword表示當(dāng)前狀態(tài)下覆蓋線路的回報(bào)值,用于標(biāo)記任務(wù)數(shù)據(jù)q的擴(kuò)散可調(diào)度結(jié)果。如圖3所示,無人機(jī)U1和U2在某一區(qū)域內(nèi)的停留時(shí)間為[T0,T5]和[T0,T6],其中灰色橫段表示無人機(jī)的忙碌時(shí)段,即攜帶的數(shù)據(jù)正在任務(wù)調(diào)度中,時(shí)段[T1,T2]和[T3,T4]為兩臺(tái)無人機(jī)的空閑時(shí)間對(duì),如果U1攜帶的數(shù)據(jù)信息需要向U2擴(kuò)散,且所需的擴(kuò)散時(shí)間段[Ts,Te]∈[T1,T2]或[T3,T4]∈[Ts,Te],則U1和U2之間為關(guān)于數(shù)據(jù)q的可調(diào)度序列。
圖3 任務(wù)擴(kuò)散調(diào)度示意圖
區(qū)域劃分根據(jù)特定的任務(wù)需求和相關(guān)事務(wù)的物理位置對(duì)整個(gè)感知區(qū)域作了平面劃分,計(jì)算無人機(jī)對(duì)每個(gè)子區(qū)域的任務(wù)關(guān)聯(lián)比重和最優(yōu)劃分,為任務(wù)信息的差異化提供依據(jù),而區(qū)域覆蓋和任務(wù)擴(kuò)散調(diào)度是實(shí)現(xiàn)差異化分配的重要部分。這是由于一方面區(qū)域覆蓋用于選定直接分配的路線,另一方面任務(wù)擴(kuò)散調(diào)度用于觸發(fā)無人機(jī)之間任務(wù)信息的調(diào)度和動(dòng)作方案。因此,首先通過分布式馬爾可夫模型選擇合適的無人機(jī)線路集合R(Ui),以及用式(2)計(jì)算無人機(jī)對(duì)子區(qū)域內(nèi)的關(guān)聯(lián)比重J,并以J為目標(biāo)進(jìn)行覆蓋線路選擇。目標(biāo)線路集合RΩ與任務(wù)關(guān)聯(lián)比重之間的差異值為:
(5)
式中:G(r′,Ωi)表示當(dāng)前無人機(jī)Ui線路是否覆蓋子區(qū)域Ωi,如果覆蓋則值為1,未覆蓋則為0。在計(jì)算線路選擇時(shí)通過貪婪方式不斷地計(jì)算E,從而對(duì)具有差異性的目標(biāo)線路集合進(jìn)行選擇。
選擇目標(biāo)線路集后,為使可擴(kuò)散調(diào)度序列集在任務(wù)之間達(dá)到最優(yōu)分配,在分布式馬爾可夫覆蓋模型的基礎(chǔ)上,引入強(qiáng)化學(xué)習(xí)方法[18]在任務(wù)區(qū)域未知的前提下,通過與環(huán)境交互來獲取行動(dòng)狀態(tài)信息并評(píng)價(jià)反饋覆蓋效果,利用不斷選擇目標(biāo)線路和擴(kuò)散調(diào)度任務(wù)序列,逐步改進(jìn)覆蓋策略。而求解任務(wù)差異分配的目的是找到一個(gè)策略使無人機(jī)達(dá)到最大的獎(jiǎng)勵(lì)回報(bào)信號(hào),通過狀態(tài)值函數(shù)尋找最優(yōu)策略,最優(yōu)策略對(duì)應(yīng)的狀態(tài)-聯(lián)合動(dòng)作函數(shù)(Si,Ai)為最優(yōu)值函數(shù),記為Q*。在分布式馬爾可夫覆蓋模型作用下,t時(shí)刻無人機(jī)Ui在狀態(tài)Si下執(zhí)行Ai行為的值函數(shù)為:
(6)
算法步驟具體如下:
輸入:輸入覆蓋需求向量K;任務(wù)調(diào)度需求向量W;子區(qū)域無人機(jī)線路R(Ui);分布式馬爾可夫覆蓋模型DMCM。
輸出:最佳覆蓋策略函數(shù)值Q*。
1. 獲取DMCM中獲取無人機(jī)的子區(qū)域線路R(Ui),觀測信息{δi};
2. 根據(jù)式(5)計(jì)算每一條線路r(r∈R(Ui))加入目標(biāo)線路集合RΩ,并計(jì)算與任務(wù)關(guān)聯(lián)之間的差異值E;
4. 重復(fù)步驟2和步驟3,直到線路被選擇完畢;
7. 從可調(diào)度序列集TP中選擇距離Ω′最近的k個(gè)無人機(jī)加入到子區(qū)域的擴(kuò)散調(diào)度序列集TPi中,并驅(qū)動(dòng)無人機(jī)的狀態(tài)轉(zhuǎn)移;
8. 以一臺(tái)無人機(jī)的策略開始,計(jì)算下一臺(tái)無人機(jī)的值函數(shù),根據(jù)式(6)計(jì)算狀態(tài)值函數(shù)尋找最優(yōu)策略Q*;
9. 重復(fù)步驟6-步驟8;
10. 輸出最佳覆蓋策略函數(shù)值Q*。
本文所開展的實(shí)驗(yàn)背景為智能旅游系統(tǒng)的定位設(shè)計(jì),采用真實(shí)的旅游景點(diǎn)數(shù)據(jù)背景進(jìn)行仿真,將全局環(huán)境區(qū)域限定為W×W=1 000 km×1 000 km,由Voronoi圖分解為600個(gè)子區(qū)域,每個(gè)子區(qū)域設(shè)有中心位置節(jié)點(diǎn),四臺(tái)同構(gòu)四旋翼無人機(jī)飛行速度為40 m/s,最大的偏角度為60°,有效觀測距離為50 m,仿真實(shí)驗(yàn)采用MATLAB R2014b軟件平臺(tái)編寫,采樣周期為5 s。通過目標(biāo)覆蓋任務(wù)分配的控制結(jié)果分析以及與粒子優(yōu)化方法和多鏈接合同方法進(jìn)行比較分析說明本文方法的有效性。
初始階段無人機(jī)對(duì)目標(biāo)和環(huán)境區(qū)域信息未知,四臺(tái)無人機(jī)以任意的初始位置飛行于任務(wù)區(qū)域,對(duì)擬定目標(biāo)1至目標(biāo)8進(jìn)行探測,如圖4所示。當(dāng)機(jī)載傳感器接收到任務(wù)信號(hào)時(shí),四臺(tái)無人機(jī)向任意位置移動(dòng)覆蓋目標(biāo)區(qū)域。由圖4(a)可知,四臺(tái)無人機(jī)以覆蓋需求向量K和任務(wù)調(diào)度需求向量對(duì)目標(biāo)線路選擇,并通過強(qiáng)化學(xué)習(xí)的方法尋找了一個(gè)合理的覆蓋策略,而這些都是基于在本文方法初始階段對(duì)目標(biāo)區(qū)域的差異化劃分,使無人機(jī)在每次覆蓋線路選擇時(shí)根據(jù)需求的差異性進(jìn)行飛行;由圖4(b)可知,當(dāng)兩臺(tái)無人機(jī)對(duì)目標(biāo)區(qū)域覆蓋重復(fù)的情況下,通過擴(kuò)散調(diào)度序列集使無人機(jī)在分布式馬爾可夫覆蓋模型的作用下轉(zhuǎn)移當(dāng)前無人機(jī)的狀態(tài),驅(qū)動(dòng)任意一臺(tái)無人機(jī)變更目標(biāo)路線動(dòng)作,并在強(qiáng)化學(xué)習(xí)策略驅(qū)動(dòng)下尋求最佳路線;由圖4(c)可知,在目標(biāo)隨機(jī)移動(dòng)情景下,無人機(jī)通過分布式馬爾可夫覆蓋模型,可以有效地轉(zhuǎn)移無人機(jī)現(xiàn)有狀態(tài),對(duì)目標(biāo)線路進(jìn)行選擇,并通過強(qiáng)化學(xué)習(xí)方法得出全局最優(yōu)策略;由圖4(d)可知,在出現(xiàn)干擾因素情況下,無人機(jī)通過可觀測集合的分析可以有效避開干擾區(qū)域,同時(shí)將干擾區(qū)域內(nèi)的目標(biāo)進(jìn)行線路選擇,從而實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的覆蓋。
(a) 任務(wù)擴(kuò)散調(diào)度控制 (b) 目標(biāo)重復(fù)覆蓋控制
(c) 隨機(jī)移動(dòng)目標(biāo)覆蓋 (d) 隨機(jī)移動(dòng)目標(biāo)覆蓋圖4 目標(biāo)區(qū)域覆蓋任務(wù)分配控制
對(duì)于任務(wù)的不斷擴(kuò)散調(diào)度,使無人機(jī)目標(biāo)線路選擇在差異化的學(xué)習(xí)過程中不斷迭代更新,采用任務(wù)線路代價(jià)[4]進(jìn)一步說明本文方法在目標(biāo)區(qū)域集群覆蓋的性能。圖5所示為4臺(tái)無人機(jī)的任務(wù)區(qū)域覆蓋線路代價(jià)變化曲線,在迭代至25次時(shí)代價(jià)值達(dá)到收斂水平,說明覆蓋結(jié)果的任務(wù)擴(kuò)散調(diào)度方差計(jì)算值較小,同時(shí)說明了每臺(tái)無人機(jī)在經(jīng)過多次任務(wù)調(diào)度和學(xué)習(xí)后,目標(biāo)線路的選擇和區(qū)域覆蓋策略趨于最優(yōu)。這是由于在Voronoi不規(guī)則圖的基礎(chǔ)上對(duì)任務(wù)需求進(jìn)行了區(qū)域的差異劃分,強(qiáng)化了目標(biāo)任務(wù)的依賴關(guān)系和擴(kuò)散調(diào)度的時(shí)序關(guān)聯(lián),并在強(qiáng)化學(xué)習(xí)Q值函數(shù)中找到了一個(gè)最優(yōu)函數(shù)使任務(wù)合理分配,最終能夠在較少迭代次數(shù)中實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域的全局覆蓋。
圖5 目標(biāo)任務(wù)線路代價(jià)變化曲線
為綜合驗(yàn)證本文方法對(duì)于區(qū)域覆蓋時(shí)任務(wù)分配的有效性,與現(xiàn)有的其他方法如人工蟻群方法、基于合同網(wǎng)方法和多agent方法進(jìn)行性能比較,從目標(biāo)函數(shù)適應(yīng)和平均區(qū)域覆蓋率兩種指標(biāo)衡量不同方法下的任務(wù)分配效果[4]。其中,目標(biāo)函數(shù)適應(yīng)指標(biāo)描述了在任務(wù)分配過程中無人機(jī)對(duì)區(qū)域目標(biāo)信息的不確定程度,表示為多無人機(jī)的信息熵的代數(shù)平均值;平均區(qū)域覆蓋率指標(biāo)描述了多無人機(jī)在一定任務(wù)時(shí)間內(nèi)所覆蓋區(qū)域占整個(gè)區(qū)域的面積比重。不同方法下四臺(tái)無人機(jī)協(xié)同覆蓋的目標(biāo)函數(shù)適應(yīng)和區(qū)域覆蓋率隨時(shí)間變化的結(jié)果如圖6所示。
(a) 目標(biāo)函數(shù)適應(yīng)比較
(b) 平均區(qū)域覆蓋率比較圖6 四種任務(wù)分配方法對(duì)區(qū)域協(xié)同覆蓋的性能比較結(jié)果
由圖6(a)可知,本文方法在每代最優(yōu)值會(huì)出現(xiàn)微小的波動(dòng),有利于算法跳出局部最優(yōu)解區(qū)域,并在第16次迭代時(shí)收斂速度趨于穩(wěn)定且適應(yīng)值為1.0左右。這種現(xiàn)象主要受益于基于強(qiáng)化學(xué)習(xí)的差異化算法,該算法的最優(yōu)策略解使得無人機(jī)的根據(jù)任務(wù)需求的狀態(tài)轉(zhuǎn)移性更強(qiáng),同時(shí)差異化的區(qū)域劃分也觸發(fā)了無人機(jī)對(duì)目標(biāo)區(qū)域覆蓋需求的適應(yīng)值,保證了算法收斂穩(wěn)定。而人工蟻群方法在第25代時(shí)才逐步收斂穩(wěn)定,收斂速度較慢;基于合同網(wǎng)方法的適應(yīng)函數(shù)雖然與本文方法相近,可以解決任務(wù)分配的局部優(yōu)化問題,但隨著迭代次數(shù)的增加陷入了不穩(wěn)定狀態(tài);多agent方法在后期存在較不穩(wěn)定狀態(tài)。
由圖6(b)可知,隨著時(shí)間的變化,當(dāng)仿真結(jié)束時(shí),人工蟻群方法的覆蓋率為82.5%,基于合同網(wǎng)方法的覆蓋率為86.6%,多agent方法的覆蓋率為87.9%,本文方法的覆蓋率為92.3%。由此可知本文方法在區(qū)域覆蓋效率方面要優(yōu)于其他方法,這是由于該方法在初始時(shí)對(duì)每個(gè)區(qū)域進(jìn)行了差異劃分,體現(xiàn)了分布式馬爾可夫模型控制無人機(jī)飛行狀態(tài)的優(yōu)勢,從而提高了區(qū)域協(xié)同覆蓋效率。
本文針對(duì)目標(biāo)區(qū)域需求覆蓋問題,提出一種面向目標(biāo)區(qū)域覆蓋的任務(wù)分配控制方法。在基于區(qū)域差異化任務(wù)關(guān)聯(lián)比重的基礎(chǔ)上,構(gòu)建了分布式馬爾可夫覆蓋模型,提出任務(wù)差異化分配的強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)了動(dòng)態(tài)目標(biāo)區(qū)域的最優(yōu)覆蓋策略。本文方法可以使任意兩臺(tái)無人機(jī)之間合理地分配任務(wù),而且通過差異化學(xué)習(xí)方法使目標(biāo)線路代價(jià)和目標(biāo)適應(yīng)函數(shù)收斂穩(wěn)定,對(duì)于在旅游景點(diǎn)等復(fù)雜環(huán)境或人群密集中的危險(xiǎn)目標(biāo)搜索定位具有重要意義。然而,對(duì)于大規(guī)模問題,本文方法不能保證每次迭代都可以覆蓋到最優(yōu)解,下一步工作將使任務(wù)數(shù)量增加到一定程度,解決陷入局部最優(yōu)的情況,并結(jié)合語義搜索的方法進(jìn)一步提高覆蓋的準(zhǔn)確率。