張子迎,呂 駿,徐 東,孟宇龍,馮光升,張朦朦
(哈爾濱工程大學 計算機科學與技術學院, 黑龍江 哈爾濱 150001)
近年來,隨著人工智能技術的發(fā)展,機器人執(zhí)行任務的復雜程度不斷提高,單機器人在處理大數據量、高復雜度任務如圍捕、定位、目標跟蹤、覆蓋等方面的局限性不斷突顯[1-4],從而使得多機器人系統(tǒng)的研究成為機器人發(fā)展的重要方向。多機器人圍捕是多個機器人協調追逃任務的一種特殊實現模式,是當代人工智能領域中的研究熱點之一。
很多學者都對多機器人圍捕進行了一定程度研究。Sun等提出了一種生物啟發(fā)神經網絡式模型,可以根據模型中的神經元的活動,自主地計劃狩獵水下機器人(Autonomous Underwater Vehicle, AUV)的下一個目標點;將方向決策算法嵌入到模型中,用菱形隊形來圍捕目標[5]。Wu等提出了一種基于目標運動以及當前環(huán)境動態(tài)預測的搜索方法,預測出不同包圍點進而圍捕的方法[6]。Chen等考慮了AUV的速度差異,提出了一種基于時間競爭機制的動態(tài)搜索聯盟圍捕算法[7]。Cao等引入了分散度,并結合調度、區(qū)域差異度提出了基于改進勢場算法的圍捕方法[8]。 Liu等提出了在網格障礙物環(huán)境中針對凸障礙物,采取集中式與分布式相結合的圍捕控制方法[9]。Song等提出了一種多機器人協作圍捕行為的數學模型。數學模型是由一組速率方程構成的[10]。這些文獻局限于具體形狀的障礙物或機器人特定行為,并沒有考慮機器人具體的任務分配,不能對系統(tǒng)內參與圍捕運動的所有機器人做到最佳使用。目前機器人任務分配主要有集中分配的方法、基于群智能的方法、基于市場機制的方法,還有一些其他類型的方法等。東京理科大學參與研發(fā)的M-Tran多機器人系統(tǒng)充分研究了機器人在空間上的協作性[11]。土耳其海峽大學的 Haluk Bayram 團隊開發(fā)了一套新型的多機器人系統(tǒng),在任務發(fā)生變化時可以快速改變當前機器人系統(tǒng)的任務分配情況[12]。Stouch等針對空中飛行目標和潛在競爭對象提出一種任務分配方法,能夠在確保最優(yōu)形式下更新系統(tǒng)需求[13]。Komenda等提出了多機器人規(guī)劃和子序列修復框架,針對性地解決了機器人在動態(tài)環(huán)境下執(zhí)行任務相互協作的問題[14]。
本文針對多水下機器人圍捕運動,構建了一種多層環(huán)狀伏擊圍捕模型,在多層環(huán)狀伏擊圍捕模型的基礎上,提出了圍捕任務能量均衡的任務分配方法(Task Allocation method for Energy Balance, TAEB)及改進圍捕任務能量均衡的任務分配方法(Task Allocation method for Improved Energy Balance, TAIEB)。
傳統(tǒng)的圍捕是將被圍捕對象包圍在一個由圍捕AUV組成的多邊形或包圍圈內。汪浩杰等[15]提出一個單層環(huán)狀圍捕圈,是以圍捕對象T為中心、R為圍捕半徑的圓,稱為圍捕圈。當對象T處于圍捕圈中心時即完成圍捕,此時所有的圍捕AUV應該均勻地分散在圍捕圈上。單層環(huán)狀圍捕模型雖然在一定程度上提升了圍捕成功率,但隨著AUV反圍捕策略研究的加深,AUV反圍捕能力不斷增強,單一圍捕圈往往很難做到有效地圍捕目標。因此本文提出了一種新型多層環(huán)狀伏擊圍捕模型,如圖1所示。
圖1 多層環(huán)狀伏擊圍捕模型Fig.1 Multi-layer annular ambush capture mode
圍捕模型依據AUV聲吶探測距離r進行分層(默認AUV聲吶探索距離等于AUV傳輸通信距離),考慮實際情況,設置衰減參數ε,在本模型中各AUV實際探索距離為L=εr(0<ε<1, 這里ε取0.8,因為大量實驗發(fā)現ε=0.8時效果最佳)。第i層的圓環(huán)寬度R與第i層AUV聲吶探索半徑L的實際關系是R=2L(考慮圓形區(qū)域可能存在的掃描空白區(qū)域,這里R實際取值小于2L),使第i層和第i-1層重疊的探測區(qū)域盡可能小。另外,對每個機器人搜尋范圍進行進一步劃分,此后每層ε根據層數依次遞減a(a∈(0,ε))值,使得每層探測范圍逐漸縮小。在對圍捕AUV建模時要做如下假設及說明:
1)忽略機器人的外形信息,其在坐標系中以點坐標表示;
2) 機器人水下工作時,均視為勻速運動。
這種多層環(huán)狀伏擊圍捕模型改善了傳統(tǒng)單層環(huán)狀包圍圈的局限性,能夠更好地對目標AUV進行隱藏監(jiān)視,并且實現快速圍捕。
初始狀態(tài),目標AUV的運動速度和方向未知,考慮存在最差的情況,即參與圍捕AUV的速度均小于目標AUV的速度,如果采用常規(guī)策略,圍捕成功的可能性幾乎為零。因此,需要采用伏擊策略,利用多機器人整體協作圍捕目標,從而提高圍捕成功率,此外伏擊策略可以減少圍捕任務的能量消耗。
為實現伏擊策略,對AUV系統(tǒng)做如下劃分:
1)伏擊AUV:伏擊AUV隱藏在障礙物后面,并且AUV成多層環(huán)狀分布,針對的是速度能量較少的AUV,在障礙物沒有遮擋的部分,伏擊AUV可對目標AUV進行監(jiān)測。
2)搜索/追捕AUV:除伏擊AUV外,其余AUV組隊成為搜索AUV,并對目標AUV進行動態(tài)搜索。當發(fā)現目標AUV時,發(fā)現者與距離最近的AUV變成追捕AUV。
3)攔截AUV:追捕AUV將目標AUV逃逸的速度及方向告知攔截AUV群體,攔截AUV預測t時刻后的目標AUV的位置,對其進行對角阻截。
圍捕完成條件:目標被圍捕時,目標AUV與任意兩個相鄰圍捕AUV連線的中心距離都不小于其中任意一個到中心的距離。其表達式為:
(1)
式中,Di為各圍捕AUV與目標之間的距離,d表示包圍半徑的大小,n為圍捕AUV的個數,θi是包圍編隊內相鄰的兩個圍捕AUV與目標AUV連線的夾角,其中i=1,2,3,…,n。
水下機器人在工作過程中主要有三種能量消耗方式:機器人相互通信的能量消耗、機器人探索目標機器人的能量消耗以及機器人運動的能量消耗。首先對通信和運動能量消耗方式進行量化分析。
1.3.1 AUV通信能耗模型
AUV通信方式主要采用聲波通信,但在水下長距離通信時能量消耗是十分巨大的,水下通信受到許多因素的影響,如傳輸頻率、傳輸速度、路徑損耗和傳輸損耗。為此,引入聲學通信能耗模型Di(x,d)。
Di(x,d)=xPνddk
(2)
式中,Di(x,d)表示機器人i在距離d傳輸x位數據消耗的能量,P表示傳輸1位數據需要的能量,k表示系數,ν是以dB/km表示的吸收系數。系數k的取值范圍是[1,3],實際上取值為1.5。吸收系數基于以kHz測量的信號頻率,可以計算其值為:
ν=10α(f)/10
(3)
式中,
(4)
f表示信號發(fā)送頻率。
1.3.2AUV運動能耗模型
水下機器人在水下運動時在不同運動狀態(tài)如加速運動、勻速運動、轉向運動會受到不一樣的流體阻力。為了簡化分析,將機器人在工作時的運動均視為勻速運動。由牛頓第二定律可知物體勻速運動時動力等于阻力,由流體力學公式可得機器人在水下運動所受的阻力fz為:
(5)
式中:Cx為阻力系數,海水中阻力系數受多方面影響,目前沒有精確的取值,這里經驗取值0.7;ρ為海水密度,這里取平均海水密度ρ=1.025 g/cm3;v為機器人運動速度,Sarea為機器人橫截面積。所以時間t內機器人克服阻力做功Wz等于機器人動力做功Wm(即機器人消耗能量R0)。
(6)
機器人探索目標機器人的能量消耗與探測距離及聲吶具體功率有關,聲吶設備功率根據不同設備型號從幾十瓦到上千瓦,本文中設定AUV單位時間距離聲吶探測一次所需能量為Rs,Rs為經驗取值。
本文所提出的基于圍捕的任務分配策略TAEB是建立在目標AUV具有智能性基礎上,即目標AUV能在探測到自身被圍捕的情況下智能采取反圍捕逃跑策略。
隨著AUV反圍捕策略研究的不斷深入,AUV的反圍捕能力越來越強,即目標AUV根據情況不同,會采取最理想的逃逸策略:一是逃逸圍捕群體策略;二是突圍包圍圈策略。
當追捕者群體沒有對目標機器人形成包圍時,目標機器人采用“綜合考慮”的逃逸策略,即利用感知范圍內所有追捕機器人的運動狀態(tài)矢量疊加的方向作為自己的逃逸方向。
圖2(a)中,dPR是目標AUV到兩個追捕AUV中點的距離,目標AUV的警覺距離為dPS。當dPR 圖2(b)為在追捕者初步形成對目標機器人包圍圈但圍捕任務尚未完成時,目標機器人采用“最大夾角”的突圍策略,即選擇兩個相鄰追捕機器人以目標AUV為頂點形成的夾角最大者,面向兩個追捕機器人位置連線的中點進行突圍。 突圍逃逸的方向為: (7) 式中,(x12,y12)為與目標AUV為頂點形成夾角最大的兩個追捕者的中點,(xp,yp)為目標AUV的當前坐標,逃逸的速度為目標AUV的最大形式速度。當dPS (a) 矢量合成(a) Vector composite (b) 最大夾角(b) Maximum angle圖2 目標AUV逃逸方向示意Fig.2 Schematic diagram of target AUV escape direction 由于目標AUV具有高度智能化,可以根據不同情況選擇適當的逃逸策略,對目標AUV的圍捕是一種相當復雜任務,而高效的任務分配策略是完成這種復雜任務的前提。 圍捕AUV由n個所攜帶不同能量Ej(j=1,2,…,n)的AUV組成,AUV所攜帶的能量多少直接影響其運行時間。圍捕任務分配策略 (Task Allocation Method, TAM)將每個AUV劃分能量等級EL: (8) 根據能量級大小將n個AUV從小到大排序編號,即得到圍捕AUV的排列順序{A1,A2,A3,…,An}。 首先對AUV進行伏擊任務的分配,根據實際情況伏擊AUV需要滿足如下條件:所攜帶能量較少,不適合長期運動的AUV;離障礙物較近的AUV;伏擊AUV隊列整體呈環(huán)狀多層型排列。 根據圍捕過程中實際情況的需要,在n個圍捕AUV中選擇m個所帶能量較少的AUV組成伏擊AUV的備選組{A1,A2,A3,…,Am}。被選中的伏擊AUV備選組在各自當前的位置用聲吶探測其附近是否存在障礙物,如果有,則移動到最近的障礙物處進行躲避;如果沒有,則將此AUV從伏擊備選組內刪除,在非伏擊AUV中選取現存能量最小的AUV重復上面的過程。被剔除的AUV加入搜索隊列作為搜索者在目標區(qū)域進行對目標AUV的漫游搜索。 觀察伏擊AUV系統(tǒng)中的位置,考察伏擊AUV隊列整體是否呈多層環(huán)狀排列,根據多層環(huán)狀伏擊陣型所要求的條件,得出如下討論: 若伏擊AUV不滿足分層環(huán)狀排列,考慮最差的情況,即所有的伏擊AUV均在一層,則伏擊AUV中的每個伏擊AUV均向內層進行障礙物探測,觀察是否存在可向內層躲避的障礙物。如果有伏擊AUV發(fā)現內層障礙物,把發(fā)現內層障礙物的伏擊AUV根據能量大小進行排序,并挑選攜帶能量較多的AUV向內層移動。如果沒有伏擊AUV發(fā)現障礙物,則派出能量較弱的非伏擊AUV和相應數量能量較強的伏擊AUV向內層移動,搜索障礙物。如果非伏擊AUV率先到達內層障礙物,則其成為伏擊AUV,其他正在進行內層搜索障礙物的AUV則成為搜索者,重復此過程直至AUV分層成功。 除了伏擊AUV外,其余剩下的AUV組隊成為搜索AUV隊伍并且對目標AUV進行動態(tài)搜索,伏擊AUV雖然躲避在障礙物后,但是在無障礙物遮擋面可以發(fā)出聲吶,對目標AUV進行靜態(tài)搜索。如果發(fā)現目標AUV,則分為如下兩種情況: 1)搜索AUV發(fā)現目標AUV,則立即把目標AUV的大致運動的方向和速度通信給相鄰AUV,并且發(fā)現者與距離較近的搜索AUV構成臨時的追捕隊列,試圖將目標AUV趕入帶有伏擊AUV的包圍圈中。 2)若是伏擊AUV發(fā)現目標,則此伏擊AUV放棄隱藏,并且把目標AUV的大致運動的方向和速度通信給其他AUV,此伏擊AUV與距離較近的搜索AUV構成臨時的追捕隊列,對目標AUV進行追捕,并且試圖將目標AUV趕入帶有伏擊AUV的包圍圈中。 圖3為追捕AUV驅趕目標AUV的示意圖。圖3(a)所示為追捕機器人A1、A2、A3分別以速度V1、V2、V3追捕目標,根據目標AUV的智能逃跑策略,得到目標AUV的逃跑速度Vp的方向。在追捕過程中要根據伏擊AUV包圍圈的所在位置適當地進行方向調整,即如圖3(b)所示調整追捕機器人運動方向,根據目標AUV智能逃跑策略,目標AUV的運動方向也會做出相應改變,從而把目標驅趕到伏擊AUV的包圍圈中。 圖3 追捕AUV驅趕目標AUVFig.3 Hunt AUV drive the target AUV 隨著系統(tǒng)不斷運行,總會出現個別AUV能量消耗過快,其剩余能量無法再有效完成其目前所承擔的任務,這種情況的出現不可忽略且對圍捕運動成功與否有著極其重要的影響。 當系統(tǒng)運行一段時間后,一些AUV所現存的能量可能無法能夠繼續(xù)有效地完成任務,而在苛刻的海洋環(huán)境中更換電池很困難或幾乎不可能實現。為此提出能量均衡策略(Energy Balance Strategy, EBS),EBS采用輪換機制將能量降低的AUV輪換到能量消耗較低的位置,平衡系統(tǒng)能量消耗,高效使用有限的電池能量資源并提高系統(tǒng)壽命。 在本系統(tǒng)中機器人主要有以下兩種能量消耗方式: 其一,系統(tǒng)中的圍捕AUV探測到目標機器人,即對目標機器人根據圍捕方法進行圍捕,完成一次圍捕任務后,參與圍捕的AUV的能量消耗明顯大于未參與圍捕AUV的。AUV參與圍捕時間為Th。 AUVh運動能量消耗為: AUVhΔEv=Th·R0 (9) 由式(2)得AUVh通信消耗: AUVhΔEt=xPνLεh(Lεh)k (10) 其中,εh表示AUVh所在層ε取值(h=1,2,…,n)。 完成一次圍捕任務總能量消耗: AUVhΔE=xPνLεh(Lεh)k+Th·R0 (11) 其二,本系統(tǒng)中越外層的AUV探測搜索范圍越大,在經過一段時間探索搜查后,越外圍的AUV的能量消耗越大。經過時間間隔Δts之后,位于第i層掃描所消耗的能量為: AUVhΔE=Δts·Rs·Lεi (12) 綜合分析上述兩種情況,EBS具體如下: 1)AUV在完成一次圍捕任務后,參加圍捕AUV依次從第i層的AUV0開始檢查自身能級水平,當AUVp自身能級下降后依次向內層詢問,當發(fā)現k層的AUVp水平大于自身時,AUV0停止查詢即刻前往AUVp所在區(qū)域替換AUVp。與此同時,從k+1層開始依次選取未參加圍捕且離AUV0原所在區(qū)域最近的AUV向上一層移動,如果上層均參與圍捕運動則選取能級最高的AUV,不斷重復查詢過程不斷替換AUV的位置,即AUVp移動到k+1層,k+1層被選取的AUV移動到k+2層,直到完成到第i層的替換。當所有參加圍捕AUV完成一次查詢并成功替換,即完成一次輪換,再從第i-1層繼續(xù)向下查詢,重復此過程直到所有參加圍捕的AUV完成替換。 2)如果系統(tǒng)一直沒有發(fā)現目標AUV,由于未進行圍捕運動則同一層內的所有AUV的能量消耗基本相同,并且從最外層開始依次遞減。那么在時間間隔Δts之后,從最外層依次開始進行能級查詢。如果第i層的能級低于第i-1層,則將第i-1層交換到第i層,因為存在兩層AUV數量不相同,所以本次未被交換的第i層AUV將在下一個時間間隔Δts之后優(yōu)先被交換。交換后第i-1層向第i-2層查詢,如果能級依然低則繼續(xù)交換,否則從第i-2層開始向下一次查詢。依次查詢交換,直到完成整個系統(tǒng)AUV的替換。如果在交換途中發(fā)現目標AUV立即暫停交換,轉而進行圍捕。 由于圍捕任務能量消耗的不確定性,在完成一次任務后,參與圍捕的機器人剩余能量可能不再具有輪換的價值,所以提出改進的能量均衡策略 (Improved Energy Balance Strategy, IEBS)。IEBS引入權值β,進行圍捕運動后需要輪換位置的MAUV的剩余能量為Eres,在進行輪換時判斷是否滿足Eres>β,這里β=2F,下面給出F具體計算過程。 假設需要輪換的AUVrot當前處于i層,需要交換至k層,其剩余能量為Eres,由式(9)計算AUVrot由i層交換至k層能量消耗ΔE,這里忽略查詢消耗的能量。 ΔE=εiL+(i-k)(i-k-1)·aR0/(2v0) (13) 式中,v0為AUV平均速度。 計算交換位置前和位置后AUVrot生存時間,這里不再考慮參與圍捕的情況。 (14) (15) 其中,T1為不交換的生存時間,T2為交換后的生存時間,E1、E2分別為處于第i層和第k層單位時間搜索消耗的能量,由式(12)可得: E1=LεiRs (16) E2=LεkRs (17) 將式(14)~(15)相減得: (18) 只有T2-T1>0,AUV輪換才有實際意義,即證: E1(Eres-ΔE)-EresE2>0 (19) 將式(16)、式(17)代入式(19)得: LεiRs(Eres-ΔE)-LεkRsEres>0 化簡得: (i-k)aEres-εiΔE>0 將式(13)代入再化簡得: (20) 記 (21) 由式(21)可知,F的具體取值僅與MAUV所處位置和需交換位置有關。 當系統(tǒng)一直運行總會出現AUV能量耗盡而停止工作,當一臺AUV能量耗盡后,它會立即通知同層AUV向其靠攏并擴大其余AUV探測搜索范圍直到完全覆蓋能量耗盡的AUV所在區(qū)域。當出現同層AUV探測搜索擴大到L后,有AUV繼續(xù)能量耗盡,則該層AUV通知其上層AUV開始收縮系統(tǒng)范圍,即圍捕系統(tǒng)由i層降低為i-1層。如果出現能量耗盡的AUV出現在最外層,則直接放棄最外層,最外層AUV全部向內一層移動,并重新分配搜索區(qū)域。 AUV在進行輪換之后其所承擔的任務也就相應進行了改變,如最初的伏擊機器人在系統(tǒng)運行一段時間后,由于其他機器人能量消耗比它快使得其他機器人的能量最后低于伏擊機器人,此時伏擊機器人就會被輪換,會由能量更低的機器人擔任伏擊機器人。 將能量均衡策略與基于Q學習的圍捕算法相結合,通過與傳統(tǒng)單層圍捕模型下算法的對比試驗,來驗證本文算法的可行性。仿真環(huán)境設置為10 m×10 m方形區(qū)域,機器人之間通信的數據包為200 bit。 AUV的一塊電池通常能夠攜帶30 WJ左右的能量,為簡化計算,本文將選取15個AUV,每個AUV所攜帶的能量見表1。其他各項數據設置見表2。 表1 AUV攜帶能量表 表2 各項參數值 將本文提出的多層圍捕模型(Multi-Layer hunting Model, MLM)與單層圍捕模型(Single-Layer hunting Model, SLM)作對比,測試兩者在不同圍捕系統(tǒng)規(guī)模下的圍捕性能。實驗分為20組,每組實驗由10次圍捕組成,每組實驗取平均值。首先測試不同規(guī)模的圍捕系統(tǒng)圍捕單個AUV情況,實驗結果如圖4所示;其次測試相同規(guī)模的圍捕系統(tǒng)(16個AUV)同時圍捕不同數量目標AUV情況,實驗結果如圖5所示。圖中實線曲線為MLM的結果,虛線曲線為SLM的結果,直線為對應的平均值。 (a) 4 AUV (b) 8 AUV (c) 12 AUV (d) 16 AUV圖4 圍捕單個AUV實驗Fig.4 Hunting single AUV experiment (a) 3個目標機器人(a) 3 target AUV (b) 4個目標機器人(b) 4 target AUV (c) 5個目標機器人(c) 5 target AUV (d) 6個目標機器人(d) 6 target AUV圖5 圍捕多個AUV實驗Fig.5 Hunting multiple AUV experiments 實驗結果顯示,當圍捕系統(tǒng)規(guī)模為4個AUV時,多層圍捕模型平均圍捕時間為138.9 s,效果較差,而單層圍捕模型的為105.7 s。這是因為當圍捕系統(tǒng)規(guī)模較小時,多層圍捕模型會將圍捕機器人進一步劃分使得沒有足夠的機器人第一時間參與圍捕,圍捕變得非常困難,而單層圍捕模型則沒有這種缺陷。隨著圍捕系統(tǒng)規(guī)模擴大,多層圍捕模型克服這一缺陷,不過當圍捕單個目標時其與單層圍捕模型相差無幾。在圍捕多個目標時,多層圍捕模型表現出優(yōu)異的性能,特別是當同時圍捕6個目標機器人時,多層圍捕模型平均圍捕時間為85.6 s,單層圍捕模型為144.5 s。多層圍捕模型表現出單層圍捕模型無法企及的優(yōu)勢。這是由于單層圍捕模型過于單一,無法快速有效地分配任務形成多個圍捕圈,而多層圍捕模型由于提前對圍捕機器人進行了劃分,能快速分配機器人形成多個圍捕圈實現圍捕。 本實驗將伏擊圍捕模型與TAM策略應用到Q學習圍捕算法中,并與傳統(tǒng)算法作對比,進行了總計1200次實驗。實驗中每隔1 min出現目標AUV,且目標AUV出現的方向均是隨機的。為保證實驗效果不受能量消耗的影響,這里實驗均忽略能量消耗,實驗結果如圖6所示。 圖6 效率對比實驗Fig.6 Efficiency comparison experiment 實驗結果顯示,基于Q學習的圍捕算法結合環(huán)狀伏擊圍捕模型以及TAM后,Q學習算法收斂速度明顯快于傳統(tǒng)模型下的Q學習算法。這是因為本文提出的圍捕模型和TAM策略通過將圍捕任務劃分為追捕任務、攔截任務和伏擊任務,并在圍捕運動開始之前就將三種任務劃分給最適合的AUV,這使得整個機器人系統(tǒng)學習速度加快。采用TAM策略后,Q學習算法最后收斂于85 s,原Q學習算法收斂于100 s左右,雖然整個圍捕運動的時間下降了,但下降程度只有15 s,這是因為采用TAM策略后參與圍捕的AUV主要任務是將目標AUV驅趕至伏擊圈內,這個過程在一定程度上消耗了時間,但整體上TAM策略的優(yōu)越性是不可忽視的。 為驗證本文提出的能量均衡策略,本實驗設定系統(tǒng)內每2 min隨機發(fā)現一次目標AUV,即進行一次圍捕運動。當因為某一臺參與圍捕的AUV能量耗盡而導致圍捕失敗時實驗即終止,實驗結果如圖7所示。 圖7 能量均衡實驗Fig.7 Energy equilibrium experiment 實驗結果表明EBS方法的系統(tǒng)壽命最終平衡于880 s,傳統(tǒng)Q學習算法平衡于680 s,二者相差200 s,這是因為EBS平衡了AUV的能量消耗,EBS總是保證能量最高的AUV處于能量消耗最快的位置上,能量越低的AUV保持在能量消耗較低的位置,保證了某個AUV不會因為頻繁工作導致能量消耗過快而直接耗盡能量,從而提升了每個AUV的壽命,進而提升了整個系統(tǒng)壽命。IEBS最終收斂于920 s左右,這是由于本實驗圍捕模型范圍較小,EBS輪換機器人在輪換過程中能量消耗較低,所以兩者差距較小,但可以看出IEBS優(yōu)于EBS。 將TAEB及TAIEB方法綜合運用到Q學習圍捕算法中,總共做了30組實驗,每組實驗由每隔1 min一次、總共15次圍捕運動組成,30組實驗總計進行450次圍捕實驗。圍捕目標隨機出現,目標實驗結果如圖8所示。 圖8 TAEB及TAIEB方法實驗Fig.8 TAEB and TAIEB method experiment 實驗結果表明采用TAEB方法圍捕成功率在76%左右,TAIEB方法圍捕成功率在87%左右,傳統(tǒng)Q學習算法在55%左右,TAEB及TAIEB方法圍捕成功率更高。這是因為TAEB及TAIEB對AUV根據其自身能量特點進行了靜態(tài)和動態(tài)任務分配。TAM在系統(tǒng)建立之初對AUV進行任務靜態(tài)劃分,分配高能級AUV對目標AUV進行追擊攔截,追擊攔截任務是整個圍捕任務中能量消耗最高的子任務。EBS將能量消耗過快的AUV輪換位置,平衡整個系統(tǒng)的能量消耗并保證能量多的AUV處于外圍位置以保證追擊攔截任務的成功完成,從而提高了整個圍捕任務的成功率。此外,由于完成一組實驗的時間為900 s,超過了TAEB及傳統(tǒng)Q學習算法有效圍捕系統(tǒng)壽命時間,所以圍捕成功率較低。而TAIEB相較于TAEB及傳統(tǒng)Q學習算法,其有效系統(tǒng)壽命在920 s,所以其圍捕成功率有顯著提高。 針對水下機器人圍捕任務,設計了多層環(huán)狀圍捕模型,并提出了基于此模型的任務分配策略TAM、能量均衡策略EBS以及改進的能量均衡策略IEBS。TAM對圍捕任務進行靜態(tài)分配,使得高能級AUV處于外圍位置以保證追擊攔截任務的成功完成。EBS在系統(tǒng)運行過程中平衡整個系統(tǒng)能量消耗并保證外圍AUV的能量是最多的,提升了圍捕任務的成功率。IEBS在EBS基礎上進一步優(yōu)化能量消耗,最大程度上降低了算法實施過程中不必要的能量損耗。所提出的策略不僅僅可以使用于Q學習圍捕算法而且還可以使用于其他圍捕算法。未來考慮進一步優(yōu)化能量均衡的圍捕任務分配方法并將其運用于更為復雜的情況。2.2 圍捕任務分配策略
2.3 能量均衡策略
2.4 改進的能量均衡策略
3 實驗仿真
3.1 圍捕模型對比實驗
3.2 TAM仿真實驗
3.3 EBS及IEBS仿真實驗
3.4 TAEB及TAIEB仿真實驗
4 結論