• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度強(qiáng)化學(xué)習(xí)的海戰(zhàn)場(chǎng)目標(biāo)搜尋路徑規(guī)劃

      2022-10-29 08:25:08楊清清高盈盈夏博遠(yuǎn)楊克巍
      關(guān)鍵詞:柵格戰(zhàn)場(chǎng)神經(jīng)網(wǎng)絡(luò)

      楊清清, 高盈盈, 郭 玙, 夏博遠(yuǎn), 楊克巍

      (國防科技大學(xué)系統(tǒng)工程學(xué)院, 湖南 長沙 410073)

      0 引 言

      海戰(zhàn)場(chǎng)越來越成為大國軍事對(duì)抗的主戰(zhàn)場(chǎng),海戰(zhàn)場(chǎng)目標(biāo)搜尋是海上作戰(zhàn)的重要構(gòu)成要素,是待救軍事人員的最后一道希望,隨著以人為本理念的深入,海上搜救問題得到越來越多的關(guān)注。當(dāng)遇險(xiǎn)目標(biāo)位置不明時(shí),須進(jìn)行海上搜尋。海上搜尋在整個(gè)搜救過程中是最昂貴、最危險(xiǎn)和最復(fù)雜的部分,也是發(fā)現(xiàn)和救助遇險(xiǎn)目標(biāo)的唯一途徑。海戰(zhàn)場(chǎng)搜救行動(dòng)成功與否的關(guān)鍵在于搜尋預(yù)案的制定,目前實(shí)際搜救過程中搜尋方案的制定過多依賴于主觀決策者的主觀判斷和歷史的經(jīng)驗(yàn)指導(dǎo),行動(dòng)的組織存在一定的盲目性,搜尋任務(wù)規(guī)劃缺乏系統(tǒng)性。因此,研究定量化的搜尋預(yù)案設(shè)計(jì)方法與技術(shù),建立科學(xué)、高效、易實(shí)施的海戰(zhàn)場(chǎng)搜尋方法至關(guān)重要。

      在調(diào)研過程中發(fā)現(xiàn),海戰(zhàn)場(chǎng)待搜尋目標(biāo)具有存活時(shí)間短、待搜尋區(qū)域廣、探測(cè)概率低、漂流軌跡難以預(yù)測(cè)等特征,要求目標(biāo)搜尋規(guī)劃方法必須能夠快速響應(yīng),且支持實(shí)時(shí)規(guī)劃。但是當(dāng)前我國海戰(zhàn)場(chǎng)目標(biāo)搜尋能力距離國際先進(jìn)水平尚有一定差距。在實(shí)際搜救過程中,針對(duì)未知位置的海上目標(biāo)搜尋問題,大多仍然采用機(jī)械的覆蓋搜尋方法,效率較低,且難以準(zhǔn)確量化實(shí)時(shí)調(diào)整搜尋方案。在研究方面,傳統(tǒng)的目標(biāo)搜尋規(guī)劃求解方法,如精確優(yōu)化算法、啟發(fā)式算法、元啟發(fā)式算法等只能針對(duì)明確的搜尋場(chǎng)景進(jìn)行求解,而無法應(yīng)對(duì)搜尋態(tài)勢(shì)實(shí)時(shí)變化的情形。且由于無人機(jī)的快速發(fā)展,傳統(tǒng)搜尋模式和研究方法均不太適用于基于無人機(jī)的靈活多變的搜尋模式需求。而強(qiáng)化學(xué)習(xí)是一種不斷與環(huán)境交互反饋,調(diào)整自身策略以應(yīng)對(duì)環(huán)境變化的動(dòng)態(tài)規(guī)劃方法,得到了多種實(shí)際場(chǎng)景的應(yīng)用驗(yàn)證,適用于海戰(zhàn)場(chǎng)目標(biāo)搜尋路徑規(guī)劃問題的優(yōu)化求解。因此,可結(jié)合強(qiáng)化學(xué)習(xí)等智能方法拓展搜尋方案的制定方法,設(shè)計(jì)海戰(zhàn)場(chǎng)目標(biāo)搜尋的快速響應(yīng)算法,提高搜尋效率,進(jìn)而提升海上作戰(zhàn)效能。

      當(dāng)前的深度強(qiáng)化學(xué)習(xí)方法一般分為兩種:價(jià)值學(xué)習(xí)和策略學(xué)習(xí)。為了能在有限計(jì)算條件下,快速獲得較為精確的計(jì)算結(jié)果,本文將海戰(zhàn)場(chǎng)待搜尋區(qū)域進(jìn)行網(wǎng)格化處理,同時(shí)將搜尋主體的動(dòng)作空間離散化,縮小決策空間,適用于采用基于價(jià)值的學(xué)習(xí)方法?;趦r(jià)值的深度強(qiáng)化學(xué)習(xí)方法代表性算法是深度Q網(wǎng)絡(luò)(deep Q-network,DQN)算法。

      然而,DQN基于使用單個(gè)價(jià)值網(wǎng)絡(luò)的訓(xùn)練效率較低,且完整的分布信息很大程度上被丟失。為了解決DQN算法本身存在的不足,后續(xù)研究者對(duì)其進(jìn)行了大量改進(jìn),如優(yōu)先Q網(wǎng)絡(luò)、雙Q網(wǎng)絡(luò)、競(jìng)爭Q網(wǎng)絡(luò)結(jié)構(gòu)等。近年,也有學(xué)者提出分布式Q學(xué)習(xí)算法、噪聲網(wǎng)絡(luò)結(jié)構(gòu)。但是以上這些算法都可以在某個(gè)方面提升DQN的性能,而且都是基于同一個(gè)網(wǎng)絡(luò)框架。Hessel等將上述所有方法進(jìn)行整合,提出通用性很強(qiáng)的Rainbow算法,引入多步學(xué)習(xí)機(jī)制,可以在訓(xùn)練前期更準(zhǔn)確地估計(jì)目標(biāo)價(jià)值以加快訓(xùn)練速度,在學(xué)習(xí)效率和學(xué)習(xí)效果上都優(yōu)于其他算法。

      本文面向海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃問題,考慮問題的快速響應(yīng)和實(shí)時(shí)規(guī)劃要求,構(gòu)建了具有典型海戰(zhàn)場(chǎng)搜救場(chǎng)景特征的搜尋模型,研究基于深度強(qiáng)化學(xué)習(xí)的規(guī)劃方法,旨在實(shí)現(xiàn)搜尋規(guī)劃的實(shí)時(shí)性、高效性和精確性,為提升我國海戰(zhàn)場(chǎng)目標(biāo)搜尋成功率提供先進(jìn)方法參考與算法支撐。

      1 海戰(zhàn)場(chǎng)目標(biāo)搜尋模型

      首先,構(gòu)建海上搜尋地圖維護(hù)模型,對(duì)搜尋環(huán)境進(jìn)行形式化描述,并對(duì)搜尋概率更新機(jī)制進(jìn)行建模?;谒褜だ碚摵退褜ご鷥r(jià)進(jìn)行目標(biāo)函數(shù)建模。通過構(gòu)建以上數(shù)學(xué)模型,量化搜尋過程中的任務(wù)進(jìn)展程度和目標(biāo)滿足程度。本文考慮無人機(jī)的快速響應(yīng)能力、廣域搜尋能力、長距通信能力等優(yōu)勢(shì),假設(shè)其為海戰(zhàn)場(chǎng)目標(biāo)搜尋的主要設(shè)備。

      1.1 海上搜尋地圖的形式化描述

      將任務(wù)區(qū)域E劃分成×個(gè)網(wǎng)格,如圖1所示。每個(gè)網(wǎng)格都是獨(dú)立的,將每個(gè)網(wǎng)格的中心點(diǎn)坐標(biāo)作為該網(wǎng)格的位置坐標(biāo)。假設(shè)初始先驗(yàn)信息已知,每個(gè)柵格(,)賦予一定的目標(biāo)包含概率(probability of contain, POC)初始值,即目標(biāo)存在于該柵格的概率,(,)的取值范圍為∈{1,2,…,},∈{1,2,…,}。

      圖1 搜尋地圖形式化描述示意圖Fig.1 Search map formal description schematic

      本文假定待搜尋區(qū)域100%包含失事目標(biāo),因此整個(gè)待搜尋區(qū)域的POC為1。假設(shè)初始先驗(yàn)信息已知,且已進(jìn)行歸一化處理,即滿足:

      (1)

      1.2 搜尋概率地圖更新機(jī)制

      待搜尋目標(biāo)的漂流軌跡預(yù)測(cè)是海上搜救的一個(gè)重要研究方向,在實(shí)際搜尋過程中,每個(gè)柵格的目標(biāo)存在概率會(huì)隨著海流、海浪、潮汐等影響因素的改變而變化,實(shí)時(shí)獲取POC矩陣需要結(jié)合海上部署傳感器、氣象衛(wèi)星等多源信息的處理,計(jì)算復(fù)雜度較高。本文重點(diǎn)驗(yàn)證算法的適用性和有效性,簡化了實(shí)時(shí)變化因素。為了降低計(jì)算復(fù)雜性,僅考慮搜尋行動(dòng)對(duì)目標(biāo)存在概率值所產(chǎn)生的后驗(yàn)影響,忽略海洋環(huán)境因素的影響。

      若無人機(jī)在一定時(shí)間內(nèi)完成了對(duì)待搜尋區(qū)域的搜尋任務(wù)后沒有發(fā)現(xiàn)遇險(xiǎn)目標(biāo),則需要更新待搜尋區(qū)域的POC矩陣,并建立下一時(shí)刻的目標(biāo)存在概率模型。目標(biāo)存在于子區(qū)域(,)內(nèi)的先驗(yàn)概率為,則在(,)中搜尋到目標(biāo)的概率()表示為

      (2)

      當(dāng)目標(biāo)類型和無人機(jī)搜尋方式固定時(shí),搜尋目標(biāo)發(fā)現(xiàn)概率(probability of detection, POD)函數(shù)相對(duì)固定。假設(shè)無人機(jī)在柵格內(nèi)執(zhí)行搜尋任務(wù),滿足Koopman的3個(gè)隨機(jī)搜尋條件,則可得無人機(jī)的目標(biāo)探測(cè)概率函數(shù)為

      POD(,)=1-e-=1-e-

      (3)

      式中:為無人機(jī)的飛行速度;為無人機(jī)的飛行時(shí)間;為無人機(jī)在時(shí)間內(nèi)搜尋航行的總路程;為無人機(jī)的探測(cè)寬度即掃海寬度;為搜尋柵格單元的面積;為搜尋單元數(shù)(=1,2,…,)。式(3)中,掃海寬度是經(jīng)過大量的搜救實(shí)驗(yàn)以及通過對(duì)歷史搜救案例的總結(jié)得出的,一般情況下,可以通過查表得出。

      (1) 當(dāng)(,)被搜索過,但沒有發(fā)現(xiàn)目標(biāo),則目標(biāo)仍舊存在于(,)的概率為

      (4)

      1.3 目標(biāo)搜尋規(guī)劃模型

      常規(guī)的海戰(zhàn)場(chǎng)目標(biāo)搜尋方式僅確定待搜尋區(qū)域,再利用平行線等固定搜尋模式來規(guī)劃搜尋路徑,導(dǎo)致搜尋成功率(probability of success, POS)較低。為此,有必要以目標(biāo)存在概率模型為基礎(chǔ),在待搜尋區(qū)域E內(nèi)規(guī)劃搜尋路徑。

      因此,海戰(zhàn)場(chǎng)目標(biāo)搜尋的規(guī)劃模型即為:在無人機(jī)有限的航程內(nèi),對(duì)無人機(jī)的搜尋路徑方案進(jìn)行規(guī)劃,以最大化目標(biāo)發(fā)現(xiàn)的POS,如下所示:

      s.t. length()<

      (5)

      式中:(,)為無人機(jī)是否搜尋子區(qū)域(,),若是則為1,否則為0;length()<表示無人機(jī)搜尋路徑長度小于其航程。

      2 海戰(zhàn)場(chǎng)無人機(jī)搜尋目標(biāo)的強(qiáng)化學(xué)習(xí)模型

      2.1 環(huán)境空間

      海洋監(jiān)測(cè)中心通?;诿商乜_隨機(jī)粒子法進(jìn)行漂流模擬得到海上遇險(xiǎn)目標(biāo)的POC矩陣,并利用柵格法將待搜尋海域劃分為若干子海域,構(gòu)建二維海洋環(huán)境柵格地圖。將目標(biāo)海域E劃分成×個(gè)柵格,將每個(gè)網(wǎng)格的中心點(diǎn)坐標(biāo)作為該網(wǎng)格的位置坐標(biāo)。假設(shè)初始先驗(yàn)信息已知,賦予每個(gè)子區(qū)域(,)一定的初始POC值。每一個(gè)單元(,)都有一個(gè)屬性值,表示子區(qū)域(,)的狀態(tài)值,()=-1表示時(shí)刻以前子區(qū)域(,)已被無人機(jī)搜尋過,()=1表示時(shí)刻下無人機(jī)正處于子區(qū)域(,),()=0表示時(shí)刻及以前子區(qū)域(,)均未被搜尋過。

      2.2 動(dòng)作空間

      圖2 動(dòng)作空間Fig.2 Action space

      2.3 獎(jiǎng)懲函數(shù)設(shè)計(jì)

      在強(qiáng)化學(xué)習(xí)過程中,無人機(jī)搜尋獲取獎(jiǎng)勵(lì)值的大小不僅取決于學(xué)習(xí)算法的優(yōu)劣,也與獎(jiǎng)勵(lì)函數(shù)的定義密切相關(guān)。強(qiáng)化學(xué)習(xí)算法通過設(shè)置獎(jiǎng)勵(lì)函數(shù)對(duì)無人機(jī)所做動(dòng)作進(jìn)行定量化評(píng)價(jià),引導(dǎo)整個(gè)無人機(jī)的搜尋路徑學(xué)習(xí)過程。強(qiáng)化學(xué)習(xí)算法的總體目標(biāo)是引導(dǎo)無人機(jī)獲取最大的累計(jì)獎(jiǎng)勵(lì)值,也就是找到一條由起始點(diǎn)至目標(biāo)點(diǎn)的最優(yōu)。因此,設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)對(duì)于無人機(jī)在不同環(huán)境狀態(tài)下的學(xué)習(xí)效果好壞具有重要意義。

      本文針對(duì)海上目標(biāo)搜尋的實(shí)際情況,基于最優(yōu)搜尋理論中POC和POS等重要參數(shù)概念設(shè)立獎(jiǎng)勵(lì)機(jī)制,并與稀疏獎(jiǎng)賞函數(shù)相結(jié)合設(shè)計(jì)碰撞懲罰機(jī)制。且在模型訓(xùn)練過程中獎(jiǎng)勵(lì)分為兩個(gè)部分,一個(gè)是針對(duì)每個(gè)行動(dòng)的即時(shí)獎(jiǎng)勵(lì),另一個(gè)是針對(duì)整個(gè)行動(dòng)回合表現(xiàn)的回合獎(jiǎng)勵(lì)。

      2.3.1 即時(shí)獎(jiǎng)勵(lì)

      {,,…,}表示無人機(jī)在一個(gè)回合(步)中每一步的即時(shí)獎(jiǎng)勵(lì)集合。為盡量避免無人機(jī)重復(fù)往返同一子海域,設(shè)置已搜尋過的海域搜尋效益獎(jiǎng)勵(lì)為。同時(shí),為避免無人機(jī)繞出目標(biāo)海域或者進(jìn)入危險(xiǎn)區(qū)和障礙區(qū),同樣設(shè)置越界懲罰為。隨著搜尋時(shí)間的增加,子區(qū)域(,)的將以一定比例(0<<1)逐漸衰減,值在搜尋開始前根據(jù)搜救情況具體設(shè)定,設(shè)計(jì)第步的即時(shí)獎(jiǎng)勵(lì)函數(shù)如下:

      (6)

      232 獎(jiǎng)勵(lì)再分配

      每個(gè)動(dòng)作的最終獎(jiǎng)勵(lì)是對(duì)應(yīng)即時(shí)獎(jiǎng)勵(lì)和回合獎(jiǎng)勵(lì)的加成。由于回合獎(jiǎng)勵(lì)是整個(gè)回合中所有動(dòng)作的結(jié)果,因此利用折扣因子對(duì)回合獎(jiǎng)勵(lì)進(jìn)行重新分配:+-·,其中為折扣因子。這種折扣計(jì)算方式假設(shè)越早階段的動(dòng)作對(duì)回合獎(jiǎng)勵(lì)的貢獻(xiàn)越小,折扣越大,而越靠近回合結(jié)束時(shí)的階段動(dòng)作對(duì)回合獎(jiǎng)勵(lì)的貢獻(xiàn)越大,折扣越小。每個(gè)動(dòng)作的最終獎(jiǎng)勵(lì)是相應(yīng)即時(shí)獎(jiǎng)勵(lì)和折扣回合獎(jiǎng)勵(lì)的總和。

      3 基于Rainbow的海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃深度強(qiáng)化學(xué)習(xí)算法

      2018年,DeepMind在DQN的基礎(chǔ)上提出了一種融合6個(gè)改進(jìn)機(jī)制的基于價(jià)值的深度強(qiáng)化學(xué)習(xí)方法:Rainbow。其中融合的改進(jìn)機(jī)制分別為:雙Q網(wǎng)絡(luò)、優(yōu)先經(jīng)驗(yàn)回放、對(duì)決網(wǎng)絡(luò)、多步學(xué)習(xí)、分布式學(xué)習(xí)、噪聲網(wǎng)絡(luò)。Rainbow被證明在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于其他基于價(jià)值的深度強(qiáng)化學(xué)習(xí)算法。因此,本節(jié)采用Rainbow的思想設(shè)計(jì)海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃的深度強(qiáng)化學(xué)習(xí)算法。

      3.1 狀態(tài)向量設(shè)計(jì)

      根據(jù)海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃問題的參數(shù)信息,設(shè)置環(huán)境的當(dāng)前狀態(tài)包含區(qū)域大小、區(qū)域當(dāng)前POC矩陣、區(qū)域各柵格是否被搜索過、當(dāng)前動(dòng)作、初始位置等信息。為了方便神經(jīng)網(wǎng)絡(luò)輸入,將狀態(tài)信息轉(zhuǎn)化成張量形式,如表1所示。

      表1 狀態(tài)向量規(guī)范化描述Table 1 State vector normalized description

      3.2 帶Noise、Dueling和Distributional的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

      3.2.1 利用噪聲改進(jìn)原始DQN的神經(jīng)網(wǎng)絡(luò)參數(shù)

      假設(shè)原網(wǎng)絡(luò)的參數(shù)為,針對(duì)輸入向量,有:

      =(·+)

      (7)

      式中:是激活函數(shù);是輸出向量。

      為了增加神經(jīng)網(wǎng)絡(luò)的隨機(jī)性,鼓勵(lì)智能體進(jìn)行更廣泛的探索,一個(gè)有效方法是對(duì)增加隨機(jī)噪聲,即=,分別是神經(jīng)網(wǎng)絡(luò)的均值和標(biāo)準(zhǔn)差,是隨機(jī)噪聲,°表示點(diǎn)乘。增加噪聲后的神經(jīng)網(wǎng)絡(luò)被稱為噪聲網(wǎng)絡(luò),其對(duì)應(yīng)的參數(shù)為=(,),參數(shù)數(shù)量比原始DQN多一倍。

      3.2.2 利用對(duì)決對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)

      對(duì)決網(wǎng)絡(luò)對(duì)原始DQN的最外一層進(jìn)行了擴(kuò)展:將原有神經(jīng)網(wǎng)絡(luò)的隱藏層連接到價(jià)值和優(yōu)勢(shì)兩個(gè)獨(dú)立部分,然后,將這兩個(gè)部分結(jié)合起來后全連接到輸出層,如圖3所示。

      圖3 對(duì)決網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic diagram of dueling network structure

      令對(duì)決神經(jīng)網(wǎng)絡(luò)的參數(shù)為,其中價(jià)值網(wǎng)絡(luò)為,優(yōu)勢(shì)網(wǎng)絡(luò)為,則最優(yōu)動(dòng)作價(jià)值函數(shù)的對(duì)決神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)定義為

      (8)

      3.2.3 改原有DQN中神經(jīng)網(wǎng)絡(luò)的值輸出為值分布輸出

      在值分布神經(jīng)網(wǎng)絡(luò)中,輸入依舊是一個(gè)狀態(tài),輸出則變成一個(gè)矩陣,矩陣的一行代表一個(gè)動(dòng)作對(duì)應(yīng)價(jià)值的概率分布,如圖4所示。

      圖4 值分布網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Distributional network structure diagram

      (9)

      經(jīng)過上述噪聲、對(duì)決和值分布3種方法的加成,原DQN的神經(jīng)網(wǎng)絡(luò)參數(shù)就變成2,后續(xù)將以2作為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行算法設(shè)計(jì)。

      3.3 算法框架與流程

      結(jié)合Rainbow算法和DQN基本思想,設(shè)計(jì)海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃深度強(qiáng)化學(xué)習(xí)算法框架,如圖5所示。

      圖5 海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃深度強(qiáng)化學(xué)習(xí)算法框架Fig.5 Deep reinforcement learning algorithm framework for target search planning in naval battle field

      具體流程如下。

      根據(jù)-greedy策略,從無人機(jī)搜尋動(dòng)空間中選擇一個(gè)動(dòng)作

      產(chǎn)生新的狀態(tài)+1。

      若回合沒有結(jié)束,獲取環(huán)境輸出的臨時(shí)獎(jiǎng)勵(lì),若回合結(jié)束,獲取環(huán)境輸出的臨時(shí)獎(jiǎng)勵(lì)和回合獎(jiǎng)勵(lì)

      當(dāng)回合結(jié)束時(shí),重新計(jì)算該回合所有動(dòng)作的獎(jiǎng)勵(lì)值:

      (10)

      將[、、+1、]存儲(chǔ)到記憶庫中。

      以上步驟是智能體與環(huán)境交互的過程,每經(jīng)過一定數(shù)量的交互,智能體根據(jù)存儲(chǔ)在記憶庫中的軌跡數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如下述步驟所示。

      利用優(yōu)先經(jīng)驗(yàn)回放策略從記憶庫中采樣數(shù)據(jù)。為記憶庫中的每一條記憶賦予權(quán)重,依據(jù)是導(dǎo)致預(yù)測(cè)值嚴(yán)重偏離目標(biāo)值的那些情況應(yīng)該是重點(diǎn)關(guān)注和訓(xùn)練的。因此,首先計(jì)算預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)值和目標(biāo)網(wǎng)絡(luò)的目標(biāo)值:

      (11)

      (12)

      據(jù)此,計(jì)算預(yù)測(cè)值和目標(biāo)值的偏離程度:

      (13)

      然后,計(jì)算每條記錄被選中的概率,與偏離程度的絕對(duì)值正相關(guān),滿足:

      (14)

      式中:為一個(gè)極小值,避免概率為0。

      然后,按照概率從記憶庫中抽樣。

      (15)

      (16)

      (17)

      (18)

      (19)

      式中:是深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率。

      4 實(shí)例應(yīng)用研究

      4.1 示例描述

      本文以一次民用漁船海上事故為例,對(duì)本文所提算法進(jìn)行示例研究。2018年6月27日3時(shí)許,“碧海159”輪與木質(zhì)漁船“魯沾漁5186”在渤海灣(38°16′.0N,118°08′.8E)處(套爾河2號(hào)浮和3號(hào)浮之間水域)發(fā)生碰撞,商船輪艙破損進(jìn)水,宣布棄船求生,漁船翻扣。商船上有船員23名,漁船上9人?,F(xiàn)場(chǎng)西南風(fēng)4~5級(jí),能見度良好。3:30時(shí),經(jīng)評(píng)估,此險(xiǎn)情屬船舶碰撞特大險(xiǎn)情,險(xiǎn)情指揮由山東省海上搜救中心負(fù)責(zé)。海事部門和水產(chǎn)漁業(yè)部門投入了大量飛機(jī)和船舶開展了聯(lián)合搜尋工作,也協(xié)調(diào)了大型過往商船協(xié)助搜救。但是由于失事附近海域的海況開始變得惡劣,成為搜救工作的一大難點(diǎn)。因此,本文擬根據(jù)此案例背景采用所提出的算法調(diào)用無人機(jī)開展遇險(xiǎn)目標(biāo)搜尋工作。本文的訓(xùn)練樣本數(shù)據(jù)參考北海預(yù)報(bào)中心提供的基于漂流預(yù)測(cè)模型的預(yù)測(cè)結(jié)果樣本特征,隨機(jī)生成符合實(shí)際目標(biāo)存在情況的概率密度值。

      4.2 搜尋態(tài)勢(shì)初始化

      根據(jù)國家海上搜救環(huán)境保障服務(wù)平臺(tái)的海洋氣象數(shù)據(jù),獲取在渤海海域該船舶發(fā)橫側(cè)翻的事故信息,獲得搜救信息為預(yù)測(cè)落水人員可能存在于一個(gè)15 nmile×20 nmile的連續(xù)海域內(nèi)。在該海域內(nèi)負(fù)責(zé)搜尋任務(wù)的無人機(jī)的起始位置隨機(jī)產(chǎn)生,設(shè)置柵格比例為1∶1,即一個(gè)單位時(shí)間段內(nèi),無人機(jī)可搜尋范圍為1 nmile。根據(jù)信息安全保密原則,本文將樣本數(shù)據(jù)脫敏后映射為特征相似的概率矩陣,圖6為無人機(jī)開始搜尋時(shí)構(gòu)建的POC矩陣熱力圖。

      圖6 搜尋區(qū)域POC預(yù)測(cè)熱力圖Fig.6 POC predictive heat map of search area

      圖7為搜救平臺(tái)預(yù)測(cè)得到的落水人員初始POC分布,圖8為歸一化過后的POC分布,分別如下所示。

      圖7 搜救場(chǎng)景中預(yù)測(cè)得到的初始POC矩陣Fig.7 The initial POC matrix predicted in search and rescue scenario

      圖8 歸一化后的POC矩陣Fig.8 Normalized POC matrix

      4.3 參數(shù)設(shè)置

      設(shè)無人機(jī)續(xù)航能力為20、30、40步(1步代表1個(gè)柵格),分析在不同續(xù)航能力情況下的優(yōu)化結(jié)果,算法其他參數(shù)設(shè)置如表2所示。

      表2 各項(xiàng)實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameters setting

      4.4 實(shí)驗(yàn)結(jié)果展示與分析

      4.4.1 損失函數(shù)與獎(jiǎng)勵(lì)函數(shù)曲線

      損失函數(shù)曲線是評(píng)價(jià)算法是否收斂的重要依據(jù),獎(jiǎng)勵(lì)函數(shù)曲線是評(píng)價(jià)算法訓(xùn)練效果的依據(jù)。因此,繪制訓(xùn)練過程的損失函數(shù)和獎(jiǎng)勵(lì)函數(shù)曲線圖,分別如圖9和圖10所示。

      圖9 不同航程下的損失值曲線Fig.9 Loss value curve under different voyage

      圖10 不同航程下的獎(jiǎng)勵(lì)值曲線Fig.10 Bonus curves under different voyages

      為了方便展示,圖9只展示了2 000次訓(xùn)練的收斂曲線,可以看出,Rainbow算法在不同航程情形下均能夠快速收斂。圖10展示了每100次訓(xùn)練的平均獎(jiǎng)勵(lì)值,可以看出,Rainbow算法在10次訓(xùn)練過程中能夠穩(wěn)步提升訓(xùn)練效果,訓(xùn)練前期的提升效果較快,后期提升越來越緩慢。

      4.4.2 與其他搜尋模式的對(duì)比分析

      針對(duì)本文所提出的算法,與當(dāng)前海上搜救實(shí)際業(yè)務(wù)中常用的平行搜尋模式和基于遺傳算法(genetic algorithm, GA)獲取的近似最優(yōu)搜尋路徑進(jìn)行對(duì)比。在相同的初始位置(1,1)和相同的搜尋環(huán)境下對(duì)比搜索效果,如圖11所示。

      圖11 不同航程下的測(cè)試結(jié)果Fig.11 Test results under different voyages

      圖11(a)~圖11(c)分別表示3種搜尋模式的累計(jì)POC成功率對(duì)比,圖11(d)~11(f)分別表示3種搜尋模式的搜尋路徑。從中可以看出,本文所提的智能搜尋模式在30步和40步的情況下效果最優(yōu),在20步情況下,GA的效果最優(yōu)。其原因在于GA的輸入是初始POC矩陣,且在優(yōu)化過程中無法更新,而Rainbow算法每個(gè)步驟觀察到的都是最新的POC矩陣,因此能夠在后期搜索期間做出更合理的決策。實(shí)驗(yàn)顯示出深度強(qiáng)化學(xué)習(xí)算法能夠應(yīng)對(duì)動(dòng)態(tài)變化的環(huán)境。

      圖11(d)~圖11(f)中,藍(lán)色箭頭和線條表示基于常規(guī)平行搜尋模式產(chǎn)生的搜尋路徑,綠色箭頭和線條表示基于Rainbow算法產(chǎn)生的搜尋路徑,紅色箭頭和線條表示基于GA產(chǎn)生的搜尋路徑??芍庇^看出,常規(guī)搜尋模式的路徑較為規(guī)則,但無法盡快搜尋到重點(diǎn)海域。相比之下,基于Rainbow和GA的搜尋路徑可使無人機(jī)快速覆蓋目標(biāo)存在概率最大的海域,但GA無法應(yīng)對(duì)動(dòng)態(tài)變化的環(huán)境要素,在實(shí)際應(yīng)用中面臨環(huán)境變化時(shí)往往需要重新進(jìn)行優(yōu)化,而Rainbow則可以面對(duì)動(dòng)態(tài)環(huán)境進(jìn)行實(shí)時(shí)決策。

      5 結(jié)束語

      本文面向海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃問題,考慮問題求解的快速響應(yīng)性和實(shí)時(shí)動(dòng)態(tài)性要求,提出一種基于Rainbow深度強(qiáng)化學(xué)習(xí)算法的海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃方法,構(gòu)建了海戰(zhàn)場(chǎng)目標(biāo)搜尋規(guī)劃的強(qiáng)化學(xué)習(xí)模型與深度強(qiáng)化學(xué)習(xí)算法。案例分析中,驗(yàn)證了所提算法能夠在經(jīng)過一定訓(xùn)練后穩(wěn)定收斂,訓(xùn)練后的強(qiáng)化學(xué)習(xí)智能體在各種航程條件下的效果均優(yōu)于常規(guī)平行線搜尋模式。下一步研究應(yīng)考慮多個(gè)多種類型搜尋設(shè)備同時(shí)進(jìn)行搜尋的情形,也將考慮更貼合實(shí)際海洋搜尋環(huán)境的仿真模型,基于多智能體深度強(qiáng)化學(xué)習(xí)方法研究海戰(zhàn)場(chǎng)多設(shè)備目標(biāo)搜尋規(guī)劃方法,進(jìn)一步提升海戰(zhàn)場(chǎng)目標(biāo)搜尋的成功率和效率。

      猜你喜歡
      柵格戰(zhàn)場(chǎng)神經(jīng)網(wǎng)絡(luò)
      戰(zhàn)場(chǎng)上的神來之筆
      基于鄰域柵格篩選的點(diǎn)云邊緣點(diǎn)提取方法*
      C-130:戰(zhàn)場(chǎng)多面手
      貼秋膘還有三秒到達(dá)戰(zhàn)場(chǎng)
      意林(2020年20期)2020-11-06 04:06:14
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      不同剖面形狀的柵格壁對(duì)柵格翼氣動(dòng)特性的影響
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于CVT排布的非周期柵格密度加權(quán)陣設(shè)計(jì)
      霸州市| 通榆县| 乌恰县| 平山县| 乐安县| 古丈县| 淅川县| 永州市| 大新县| 钦州市| 镇安县| 安龙县| 都江堰市| 班戈县| 镇巴县| 江口县| 周口市| 炎陵县| 上虞市| 武汉市| 新野县| 宁国市| 怀安县| 吉木乃县| 三原县| 噶尔县| 衡南县| 长海县| 千阳县| 桂平市| 宁波市| 佛学| 伊金霍洛旗| 迁西县| 自贡市| 盐山县| 龙江县| 桂东县| 东方市| 那坡县| 静宁县|