顏 鵬,郭繼峰,白成超
(哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)
飛行移動目標(biāo)軌跡預(yù)測技術(shù)在智能空戰(zhàn)、協(xié)同攔截以及目標(biāo)跟蹤監(jiān)視等任務(wù)場景中具有重要的理論研究和實際應(yīng)用價值。在移動目標(biāo)跟蹤與監(jiān)視任務(wù)中,由于目標(biāo)行為的不確性以及任務(wù)環(huán)境的復(fù)雜性,極易丟失跟蹤的目標(biāo)。特別是在一些復(fù)雜的任務(wù)場景中,由于任務(wù)環(huán)境中分布著大量的障礙物極易遮擋觀測視線,很容易導(dǎo)致目標(biāo)丟失。因此,對移動目標(biāo)運(yùn)動軌跡的預(yù)測可在目標(biāo)丟失之后為目標(biāo)的搜索過程提供指導(dǎo),使得目標(biāo)被快速搜索到,從而實現(xiàn)對目標(biāo)的長期跟蹤與監(jiān)視。
針對目標(biāo)軌跡預(yù)測的方法大致分為基于物理模型的預(yù)測方法、基于數(shù)據(jù)驅(qū)動的預(yù)測方法以及基于規(guī)劃的預(yù)測方法三類。在基于物理模型的預(yù)測方法中,通常根據(jù)目標(biāo)的運(yùn)動模型以及觀測到的目標(biāo)狀態(tài),使用卡爾曼濾波(KF)、擴(kuò)展卡爾曼濾波(EKF)以及無跡卡爾曼濾波(UKF)等濾波方法對目標(biāo)的運(yùn)動狀態(tài)做出一步或多步的預(yù)測。然而以上濾波方法只能處理具有單一運(yùn)動模式的預(yù)測問題,無法處理具有多種運(yùn)動模式的目標(biāo)軌跡預(yù)測問題。文獻(xiàn)[14]根據(jù)臨近空間短距滑翔飛行器的多模式機(jī)動特點(diǎn)設(shè)計了一種基于變結(jié)構(gòu)交互式多模型(IMM)濾波的軌跡預(yù)測方法。在上述基于濾波的預(yù)測方法中假設(shè)目標(biāo)的行為方式服從建立的運(yùn)動模型,若缺乏目標(biāo)的運(yùn)動模型,則無法對目標(biāo)的軌跡進(jìn)行有效的預(yù)測。文獻(xiàn)[15]在假定高超聲速滑翔目標(biāo)具有必定攻擊某目標(biāo)的行為基礎(chǔ)上結(jié)合滑翔目標(biāo)的運(yùn)動模型利用貝葉斯理論迭代地對滑翔目標(biāo)的運(yùn)動軌跡進(jìn)行了預(yù)測。然而,作者并沒有考慮當(dāng)滑翔目標(biāo)具有不確定行為時的預(yù)測問題。綜上所述,上述預(yù)測方法只適用于目標(biāo)運(yùn)動模型已知的問題,對于具有復(fù)雜不確定運(yùn)動行為的目標(biāo),很難建立有效的運(yùn)動模型,因而不能準(zhǔn)確地預(yù)測出目標(biāo)的軌跡。
在基于數(shù)據(jù)驅(qū)動的預(yù)測方法中,通常使用深度神經(jīng)網(wǎng)絡(luò)(DNN)、隱馬爾可夫模型(HMM)以及高斯混合模型(GMM)建立移動目標(biāo)的軌跡預(yù)測模型,之后通過收集的大量目標(biāo)軌跡數(shù)據(jù)訓(xùn)練模型參數(shù),挖掘出目標(biāo)的行為特征,據(jù)此對目標(biāo)的軌跡做出預(yù)測。文獻(xiàn)[19]將行人軌跡的預(yù)測問題轉(zhuǎn)換為一個位置序列生成問題,使用長短期記憶網(wǎng)絡(luò)(LSTM)建立預(yù)測模型,通過編碼觀測到的行人軌跡生成行人未來的軌跡。文獻(xiàn)[20]基于LSTM與卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立了車輛軌跡預(yù)測模型。模型首先使用LSTM將待預(yù)測車輛固定范圍內(nèi)的各車輛的歷史軌跡進(jìn)行編碼,然后按照車輛的空間位置對編碼的軌跡進(jìn)行排列,之后使用CNN進(jìn)行池化處理,最后使用LSTM解碼得到預(yù)測的車輛軌跡。文獻(xiàn)[21]利用高斯混合回歸技術(shù)預(yù)測移動對象的復(fù)雜多模式運(yùn)動行為,建立的預(yù)測模型可以通過數(shù)據(jù)自身預(yù)測移動對象可能性最大的運(yùn)動軌跡。以上基于數(shù)據(jù)驅(qū)動的預(yù)測方法雖然可以在目標(biāo)運(yùn)動模型未知的情況下依靠目標(biāo)的移動數(shù)據(jù)對目標(biāo)的軌跡做出預(yù)測,但預(yù)測對象具有較為確定的行為方式,易于通過監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)出目標(biāo)的行為模式。然而對于具有不確定行為的目標(biāo),這種方法難以達(dá)到較好的預(yù)測精度。
基于規(guī)劃的預(yù)測方法將目標(biāo)軌跡的預(yù)測過程轉(zhuǎn)換為模擬目標(biāo)軌跡規(guī)劃的過程。文獻(xiàn)[22]將人群以及障礙物對行人軌跡的影響等建模為能量,在該地圖上使用快速步進(jìn)法規(guī)劃行人的軌跡,從而達(dá)到預(yù)測行人軌跡的目的。文獻(xiàn)[23]將人行道、建筑物以及行駛的車輛等視為影響行人行為的勢場,構(gòu)建了勢場代價地圖,之后利用A算法在此地圖上規(guī)劃行人的軌跡,以此作為預(yù)測結(jié)果。以上預(yù)測方法都假設(shè)行人按照最優(yōu)的軌跡運(yùn)動,然而在現(xiàn)實世界中,移動目標(biāo)的行為方式很有可能不是最優(yōu)的,因此無法基于最優(yōu)規(guī)劃的準(zhǔn)則預(yù)測目標(biāo)的行為。為此,可以從目標(biāo)的行為軌跡數(shù)據(jù)中學(xué)習(xí)出目標(biāo)的行為方式,在此基礎(chǔ)上預(yù)測目標(biāo)的軌跡。解決這一問題的一大類方法為基于逆強(qiáng)化學(xué)習(xí)的軌跡預(yù)測方法。文獻(xiàn)[26]在馬爾科夫決策過程(MDP)框架下利用最大熵逆強(qiáng)化學(xué)習(xí)(MaxEnt)方法學(xué)習(xí)出行人的行為概率模型,以此預(yù)測行人的軌跡。在此基礎(chǔ)之上,文獻(xiàn)[28]使用多尺度的CNN擬合復(fù)雜城市環(huán)境中的導(dǎo)航代價地圖,然后基于此地圖規(guī)劃行駛路徑。這種直接使用深度神經(jīng)網(wǎng)絡(luò)處理環(huán)境信息得到代價地圖的方法避免了人為手動設(shè)計的過程。此外,文獻(xiàn)[29]使用最大化邊際規(guī)劃方法(MMP)學(xué)習(xí)機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航策略。其中,利用深度神經(jīng)網(wǎng)絡(luò)建立機(jī)器人的導(dǎo)航策略,輸入為感知的環(huán)境狀態(tài)特征,輸出為選擇下一步動作的概率。
雖然以上基于逆強(qiáng)化學(xué)習(xí)的方法可通過模擬目標(biāo)軌跡規(guī)劃的過程實現(xiàn)對目標(biāo)行為軌跡的預(yù)測,然而對于在復(fù)雜環(huán)境中運(yùn)動的、具有不確定行為的目標(biāo),其預(yù)測精度較低,難以學(xué)習(xí)到目標(biāo)的不確定行為特征。為了解決這一問題,本文在一種最大熵逆強(qiáng)化學(xué)習(xí)方法——引導(dǎo)式成本學(xué)習(xí)(GCL)的基礎(chǔ)上引入針對飛行移動目標(biāo)不確定行為特征的改進(jìn)措施,構(gòu)建飛行移動目標(biāo)軌跡預(yù)測模型。首先考慮到目標(biāo)的行為方式受到局部環(huán)境信息以及全局導(dǎo)航信息的影響,基于CNN建立目標(biāo)行為偏好模型與目標(biāo)行為決策模型,通過融合局部環(huán)境信息以及全局導(dǎo)航信息將環(huán)境對目標(biāo)行為的影響編碼到建立的網(wǎng)絡(luò)模型中。其中,目標(biāo)行為偏好模型用于捕捉目標(biāo)的行為特征,指導(dǎo)目標(biāo)行為決策模型的訓(xùn)練,目標(biāo)行為決策模型用于模擬目標(biāo)的行為方式,生成預(yù)測的目標(biāo)軌跡。然后在GCL框架下利用目標(biāo)示例軌跡對建立的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為了有效地從目標(biāo)示例軌跡信息中學(xué)習(xí)出目標(biāo)的不確定行為特征,提高模型的訓(xùn)練效率,本文提出的改進(jìn)措施包括使用目標(biāo)示例軌跡概率分布模型指導(dǎo)目標(biāo)行為偏好模型的訓(xùn)練以及初始化目標(biāo)行為決策模型,同時通過對目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練的方式提高模型訓(xùn)練的質(zhì)量。
(1)
圖1 飛行環(huán)境模型Fig.1 Flying environment model
由于現(xiàn)實中收集的目標(biāo)軌跡數(shù)據(jù)難以調(diào)整其不確定性程度,無法對目標(biāo)軌跡預(yù)測方法進(jìn)行全面分析和驗證。因此,本文手動設(shè)計目標(biāo)的行為模型,使其可以靈活地調(diào)整目標(biāo)行為的不確定性程度。
(2)
(3)
本節(jié)在GCL方法的基礎(chǔ)上實現(xiàn)對目標(biāo)軌跡的預(yù)測。首先介紹GCL方法的基礎(chǔ)理論,其次基于深度神經(jīng)網(wǎng)絡(luò)建立目標(biāo)行為決策模型與行為偏好模型,之后由目標(biāo)示例軌跡數(shù)據(jù)學(xué)習(xí)出目標(biāo)的示例軌跡概率分布模型,用于改進(jìn)目標(biāo)行為決策模型與行為偏好模型的訓(xùn)練過程,然后使用目標(biāo)示例軌跡數(shù)據(jù)對目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練,進(jìn)一步提高目標(biāo)行為偏好模型的訓(xùn)練效率。最后給出模型的訓(xùn)練流程。
GCL方法是一種最大熵逆強(qiáng)化學(xué)習(xí)方法。逆強(qiáng)化學(xué)習(xí)方法解決的任務(wù)一般由馬爾科夫框架定義,表示為M=〈S, A,,〉,式中S表示任務(wù)的狀態(tài)空間,A表示動作空間,T(T(′|,),,′∈S,∈A)表示狀態(tài)轉(zhuǎn)移模型,(0≤≤1)為折扣因子,為獎勵函數(shù)。在強(qiáng)化學(xué)習(xí)任務(wù)中,通過人為手動設(shè)計的獎勵函數(shù)求解最優(yōu)的策略π(|)使得智能體在執(zhí)行該策略時所獲得的累積獎勵最大。對于一些復(fù)雜的任務(wù),人為很難設(shè)計合理的獎勵函數(shù),因此逆強(qiáng)化學(xué)習(xí)解決從示例軌跡數(shù)據(jù)集中學(xué)習(xí)對應(yīng)的獎勵函數(shù)的問題。
在逆強(qiáng)化學(xué)習(xí)框架下預(yù)測目標(biāo)的軌跡時認(rèn)為目標(biāo)的行為過程由一個馬爾科夫框架定義,目標(biāo)的行為方式是其潛在的真實獎勵函數(shù)(,)對應(yīng)的最優(yōu)的行為方式π(|),逆強(qiáng)化學(xué)習(xí)的目標(biāo)則是通過目標(biāo)示例軌跡學(xué)習(xí)出目標(biāo)的獎勵函數(shù)(,)與行為方式π(|)。
在最大熵逆強(qiáng)化學(xué)習(xí)框架下,示例軌跡的概率分布表示為如下的形式:
(4)
(5)
式中:=||表示示例軌跡的個數(shù)。在式(5)的求解過程中,對于高維連續(xù)的任務(wù)環(huán)境,配分函數(shù)的計算非常困難。因此,在GCL方法中使用采樣的手段估計配分函數(shù),如下所示:
(6)
(7)
(8)
因此,在GCL框架可根據(jù)目標(biāo)示例軌跡數(shù)據(jù)集利用式(8)對獎勵函數(shù)(,)進(jìn)行訓(xùn)練,而(,)又通過相關(guān)強(qiáng)化學(xué)習(xí)算法指導(dǎo)采樣策略π(|)的訓(xùn)練過程,使其采樣的軌跡更加接近在獎勵函數(shù)(,)下的最優(yōu)策略采樣的軌跡。通過對(,)與π(|)的交替訓(xùn)練,最終可使得獎勵函數(shù)(,)逼近目標(biāo)的真實獎勵函數(shù)(,),采樣策略π(|)逼近真實的目標(biāo)行為決策策略π(|)。兩個模型的訓(xùn)練過程互相影響,互相促進(jìn)。因此,對(,)與π(|)的建模非常關(guān)鍵,需要充分考慮影響目標(biāo)行為的各種因素,建立具有較強(qiáng)數(shù)據(jù)處理能力與擬合能力的獎勵函數(shù)模型與采樣策略模型。
對于飛行移動目標(biāo)軌跡預(yù)測問題而言,獎勵函數(shù)(,)對應(yīng)目標(biāo)的行為偏好模型,影響目標(biāo)的行為方式;采樣策略π(|)對應(yīng)目標(biāo)的行為決策模型,用于模擬目標(biāo)軌跡產(chǎn)生的過程。
通常,目標(biāo)的行為決策過程以及行為偏好受到目的地位置以及目標(biāo)周圍環(huán)境的影響,因此,本文將目標(biāo)周圍環(huán)境信息以及目的地位置信息作為目標(biāo)行為決策與行為偏好模型的輸入信息。
首先,將飛行環(huán)境Ω進(jìn)行離散化處理,得到大小為×的柵格地圖(∈×),具體定義如下:
=[()]×,
(9)
圖2 目標(biāo)行為決策模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the target behavior decision model
(10)
在建立的目標(biāo)行為決策模型π(|)中,首先使用兩層CNN編碼目標(biāo)周圍環(huán)境信息(),然后將編碼之后的信息與觀測信息()進(jìn)行拼接,之后通過兩層全連接網(wǎng)絡(luò)融合處理得到全局目的地信息與局部環(huán)境信息的混合編碼,最后經(jīng)過激活函數(shù)為softmax的全連接層處理,得到選擇下一步行為動作的概率值(|)。
目標(biāo)行為偏好模型的網(wǎng)絡(luò)結(jié)構(gòu)與目標(biāo)行為決策模型的網(wǎng)絡(luò)結(jié)構(gòu)基本相同,相比于目標(biāo)行為決策模型,其最后一層只有一個輸出值,且激活函數(shù)為tanh,目的是將輸出獎勵值(,)限制在(-1,1)之間。需要注意的是目標(biāo)行為偏好模型的輸入為在狀態(tài)處執(zhí)行動作之后的下一步狀態(tài)′,即(,)→(′)。
具體地,目標(biāo)示例軌跡概率分布模型的網(wǎng)絡(luò)結(jié)構(gòu)以及輸入輸出同目標(biāo)行為決策模型一致,其模型參數(shù)的訓(xùn)練通過最小化以下?lián)p失函數(shù)實現(xiàn):
(11)
在目標(biāo)行為偏好模型的訓(xùn)練過程中,可通過對模型參數(shù)進(jìn)行預(yù)先訓(xùn)練的方式提高模型訓(xùn)練的速度與質(zhì)量。為此,本節(jié)提出基于目標(biāo)示例軌跡的目標(biāo)行為偏好模型預(yù)訓(xùn)練策略。
對于收集的目標(biāo)示例軌跡數(shù)據(jù)集={,,…,},統(tǒng)計其經(jīng)過柵格地圖中每個柵格單元的頻次,則經(jīng)過柵格單元的頻率可表示為:
(12)
式中:min(·)函數(shù)的使用是為了將()限制在[0,1]之間。則目標(biāo)行為偏好模型的預(yù)訓(xùn)練通過最小化以下?lián)p失函數(shù)進(jìn)行:
(13)
式中:()表示目標(biāo)所在柵格單元為時觀測到的輸入狀態(tài);(())表示在狀態(tài)()下目標(biāo)行為偏好模型的輸出值。目標(biāo)行為偏好模型經(jīng)過以上預(yù)訓(xùn)練之后,可在GCL框架下進(jìn)一步訓(xùn)練。
基于GCL算法的目標(biāo)行為決策模型與目標(biāo)行為偏好模型參數(shù)訓(xùn)練流程如圖3所示。
圖3 目標(biāo)行為決策模型與目標(biāo)行為偏好模型參數(shù)訓(xùn)練流程Fig.3 Parameter training flow of the target behavior decision model and behavior preference model
在基于GCL的模型參數(shù)訓(xùn)練流程中,目標(biāo)行為決策模型π(|)使用具有基線的蒙特卡洛策略梯度方法(REINFORCE with Baseline)訓(xùn)練,其中基線函數(shù)使用值函數(shù)網(wǎng)絡(luò)()表示,其網(wǎng)絡(luò)結(jié)構(gòu)與決策模型π(|)的網(wǎng)絡(luò)結(jié)構(gòu)基本一致,不同的是值函數(shù)網(wǎng)絡(luò)()的最后一層只具有一個線性輸出單元。
本文使用Pytorch深度學(xué)習(xí)框架建立神經(jīng)網(wǎng)絡(luò)模型,并使用Adam優(yōu)化器對所建立的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。在建立的網(wǎng)絡(luò)模型中,輸入環(huán)境信息()的大小為11×11,即==11。其中,目標(biāo)示例軌跡概率分布模型的訓(xùn)練過程與目標(biāo)行為偏好模型的預(yù)訓(xùn)練過程共經(jīng)過1000個訓(xùn)練回合,梯度更新使用的批大小為32,學(xué)習(xí)率為0.0001,訓(xùn)練過程中的損失值變化如圖4所示(為了方便顯示,圖中將損失值歸一化到[0,1]之間)。在基于GCL的目標(biāo)行為決策模型與目標(biāo)行為偏好模型的訓(xùn)練過程中,訓(xùn)練最大回合數(shù)=125,每回合采樣軌跡條數(shù)=20,批大小為32,學(xué)習(xí)率分別設(shè)置為0.00002, 0.0002。在具有基線的蒙特卡洛策略梯度方法中,折扣因子=095,值函數(shù)的學(xué)習(xí)率設(shè)為0.001。訓(xùn)練結(jié)果如圖5所示(為了方便顯示,圖中將損失值歸一化到[-1,0]之間)。
圖4 監(jiān)督學(xué)習(xí)過程損失值變化曲線Fig.4 Curves of the loss values during supervised learning
如圖4所示,隨著訓(xùn)練回合的增加,目標(biāo)示例軌跡概率分布模型與目標(biāo)行為偏好模型的損失值下降變緩,在訓(xùn)練后期損失值基本保持不變,表明模型訓(xùn)練完成。從圖5中可以看出,隨著訓(xùn)練回合的增加,目標(biāo)行為偏好模型的損失值的絕對值逐漸減小,表明從目標(biāo)示例軌跡中學(xué)習(xí)到的目標(biāo)行為偏好模型逐步接近目標(biāo)真實的行為偏好,以及以目標(biāo)行為偏好模型為獎勵函數(shù)的目標(biāo)行為決策模型逐步向目標(biāo)真實的行為決策方式逼近。在訓(xùn)練后期,損失值逐漸接近0,表明學(xué)習(xí)過程基本完成。
圖5 目標(biāo)行為偏好模型的損失值變化曲線Fig.5 Curve of the loss value of the target behavior preference model
對比方法
本節(jié)將所提的飛行移動目標(biāo)軌跡預(yù)測方法與其他類型的考慮目標(biāo)行為方式的軌跡預(yù)測方法進(jìn)行對比,對比方法包括:
(1)基于隨機(jī)A的預(yù)測方法。在A算法的基礎(chǔ)上加入了隨機(jī)性,使得其規(guī)劃的軌跡具有不確定性,從而可以對不確定行為軌跡進(jìn)行預(yù)測。目標(biāo)在每次選擇行為動作時以概率選擇A算法規(guī)劃的行為動作,以概率1-從其鄰居節(jié)點(diǎn)中隨機(jī)選擇下一步的行為動作。在以下的對比實驗中設(shè)置=07(取值的確定過程為以0.1為步長,從0.0開始增加的值到1.0,當(dāng)=07時具有最好的預(yù)測性能)?;陔S機(jī)A的預(yù)測方法作為一種最基本的基于規(guī)劃的預(yù)測方法,此處作為對比的基準(zhǔn)。
(14)
(15)
在基于概率模型的預(yù)測方法中,目標(biāo)按照式(14)選擇下一步的行為動作,直到到達(dá)目的地,目標(biāo)經(jīng)過的軌跡即為預(yù)測的軌跡。以上建立的基于概率模型的預(yù)測方法與1.2節(jié)中建立的目標(biāo)真實行為模型類似,故理論上具有較好的預(yù)測性能。
(3)基于模仿學(xué)習(xí)的預(yù)測方法?;谀7聦W(xué)習(xí)的預(yù)測方法使用訓(xùn)練的目標(biāo)示例軌跡概率分布模型π(|)直接模擬目標(biāo)行為的決策過程,以此預(yù)測目標(biāo)的軌跡。基于模仿學(xué)習(xí)的預(yù)測方法作為一種基于數(shù)據(jù)驅(qū)動的預(yù)測方法,在很多任務(wù)中具有較好的預(yù)測性能。
性能指標(biāo)
由于目標(biāo)的行為具有不確定性,因此難以憑借預(yù)測的軌跡直接對比預(yù)測性能。為了對各軌跡預(yù)測方法的預(yù)測性能進(jìn)行合理的對比,本文通過定義目標(biāo)行為軌跡獎勵值評價預(yù)測的行為軌跡。
目標(biāo)行為軌跡獎勵值定義為目標(biāo)在執(zhí)行軌跡={,,,,…,,}的過程中獲得的累計獎勵之和,計算如下:
()=∑(,)
(16)
式中:()表示軌跡對應(yīng)的目標(biāo)行為軌跡獎勵值;(,)表示目標(biāo)在狀態(tài)下執(zhí)行動作所獲得的獎勵值。
本文在計算目標(biāo)行為軌跡獎勵值時,(,)設(shè)計如下:
(17)
式中:表示目標(biāo)在狀態(tài)處距離目的地區(qū)域的距離;+1表示目標(biāo)在狀態(tài)處執(zhí)行動作之后距離目的地區(qū)域的距離。
對比結(jié)果
圖6所示為各預(yù)測方法預(yù)測性能的對比結(jié)果。從圖中可以看出,本文所提的目標(biāo)軌跡預(yù)測算法具有最小的KL散度,即其預(yù)測的目標(biāo)軌跡最接近目標(biāo)真實的行為方式。由于隨機(jī)A算法在大部分情況下按照A算法規(guī)劃的行為進(jìn)行預(yù)測(其他情況下按照隨機(jī)行為進(jìn)行預(yù)測),因此其無法對目標(biāo)的不確定行為軌跡進(jìn)行有效的預(yù)測。相比之下,基于概率模型的預(yù)測方法具有較好的預(yù)測性能,因為其選擇路徑的方式與真實目標(biāo)的行為方式比較相似。此外,由于模仿學(xué)習(xí)方法只是對目標(biāo)軌跡的概率分布進(jìn)行了模擬,即只學(xué)習(xí)到了“平均目標(biāo)行為”,但沒有學(xué)習(xí)到目標(biāo)特有的行為方式,因而也不能對目標(biāo)的軌跡進(jìn)行有效的預(yù)測。
圖6 預(yù)測性能結(jié)果對比Fig.6 Comparison of the prediction performance results
圖7所示為各預(yù)測方法預(yù)測的目標(biāo)軌跡。從中可以看出只有本文提出的算法預(yù)測到了目標(biāo)進(jìn)入可進(jìn)入?yún)^(qū)域隱藏自身行蹤的行為方式,而在其他算法預(yù)測出的軌跡中沒有與目標(biāo)行為方式相似的行為特征。以上結(jié)果表明,通過對目標(biāo)示例軌跡的學(xué)習(xí),本文提出的算法可以學(xué)習(xí)到目標(biāo)的行為特征,從而對目標(biāo)行為軌跡的預(yù)測更加準(zhǔn)確。
圖7 各軌跡預(yù)測方法預(yù)測的目標(biāo)軌跡Fig.7 Target trajectories predicted by each prediction method
圖8 參數(shù)的變化對目標(biāo)軌跡預(yù)測性能的影響Fig.8 Influence of the variation of on the target trajectory prediction performance
圖9 參數(shù)的變化對目標(biāo)軌跡預(yù)測性能的影響Fig.9 Influence of the variation of on the target trajectory prediction performance
本文在GCL算法的基礎(chǔ)上提出了3點(diǎn)改進(jìn)措施,即①使用目標(biāo)示例軌跡概率分布模型將目標(biāo)示例軌跡通過重要性采樣方法加入到采樣軌跡中提高采樣軌跡的質(zhì)量,②使用目標(biāo)示例軌跡概率分布模型初始化目標(biāo)行為決策模型,以及③對目標(biāo)行為偏好模型進(jìn)行預(yù)訓(xùn)練。以下測試每種改進(jìn)方法相對于原始GCL算法的影響。
圖10所示為在以上改進(jìn)措施的不同組合下對目標(biāo)軌跡的預(yù)測性能,從中可以看出,以上3種改進(jìn)措施可以逐步提高對目標(biāo)軌跡的預(yù)測性能。在原始GCL算法下,只能學(xué)習(xí)到目標(biāo)前往目的地的行為方式,無法學(xué)習(xí)到目標(biāo)其他的行為方式。當(dāng)在原始GCL算法中引入目標(biāo)示例軌跡概率分布模型之后,學(xué)習(xí)到的行為偏好模型在目標(biāo)示例軌跡附近具有較高的獎勵,因而可以較好地模擬目標(biāo)的行為方式。在此基礎(chǔ)之上對目標(biāo)行為決策模型的初始化以及對目標(biāo)行為偏好模型的預(yù)訓(xùn)練提高了采樣軌跡的質(zhì)量以及模型訓(xùn)練的質(zhì)量,因而可以更加全面地學(xué)習(xí)出目標(biāo)的行為偏好。以上結(jié)果表明,本文在GCL算法的基礎(chǔ)上提出的改進(jìn)措施對目標(biāo)不確定行為軌跡的預(yù)測具有明顯的提升作用,可以有效提高對目標(biāo)不確定行為軌跡的預(yù)測性能。
圖10 各改進(jìn)措施對目標(biāo)軌跡預(yù)測性能的影響Fig.10 Influence of the improvement measures on the target trajectory prediction performance
針對具有不確定行為方式的飛行移動目標(biāo),本文提出了基于逆強(qiáng)化學(xué)習(xí)方法的目標(biāo)軌跡預(yù)測方法,對目標(biāo)軌跡的預(yù)測轉(zhuǎn)換為對目標(biāo)行為決策過程的模擬。由仿真結(jié)果可知,相對于其他軌跡預(yù)測方法,本文提出的算法可通過對目標(biāo)行為方式的模擬實現(xiàn)對目標(biāo)軌跡的準(zhǔn)確預(yù)測。同時,其產(chǎn)生的預(yù)測軌跡可由目標(biāo)行為偏好模型進(jìn)行解釋,相比于傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的軌跡預(yù)測方法具有更好的可解釋性。此外,學(xué)習(xí)到的目標(biāo)行為偏好模型記錄了目標(biāo)的行為特征,因此具有較好的可遷移性,可用于不同的環(huán)境中預(yù)測目標(biāo)的行為。未來的工作將對目標(biāo)行為偏好模型的可遷移性進(jìn)行深入研究,探索其在不同環(huán)境中的遷移效果。