黨曉方,蔡興雨
(西安電子工程研究所, 陜西 西安 710100)
隨著信息技術的快速發(fā)展,目標跟蹤技術被廣泛應用于軍事和民用領域。目標跟蹤通過傳感器量測數(shù)據(jù)(例如雷達、紅外或聲納)來估計目標的運動狀態(tài)。目標跟蹤通??煞譃闄C動目標跟蹤和非機動目標跟蹤,其中“機動”是指目標在不可預測時突然改變其運動狀態(tài)。對于非機動目標跟蹤,傳統(tǒng)基于卡爾曼濾波器(Kalman Filter, KF)的跟蹤算法被廣泛應用于多種領域[1-3]。對于機動目標跟蹤,傳統(tǒng)方法使用多個模型來擬合復雜的運動狀態(tài),即多模型(Multi-Model, MM)算法[4]。為了使多個模型之間具有更好的協(xié)同效應,交互式多模型算法[5](Inter-active Mutil-Model, IMM)被廣泛使用,大幅提高了機動目標跟蹤的性能。因此,IMM逐漸成為一種被廣泛應用的跟蹤框架[6-8]。然而無論是MM還是IMM,均存在模型集與目標運動狀態(tài)不匹配的問題,即模型集無法描述目標所有可能存在的運動狀態(tài)。此外,當目標的運動狀態(tài)發(fā)生變化時,MM和IMM都需積累一定數(shù)量的觀測值,從而產(chǎn)生模型估計延遲問題[9]。
隨著深度學習技術的發(fā)展,特別是具有記憶能力的遞歸神經(jīng)網(wǎng)絡[10](RNN)和長短期記憶網(wǎng)絡[11](LSTM)被證明在解決序列問題上具有獨特的優(yōu)勢,為解決MM和IMM所面臨的問題提供了新思路[12-16]。RNN和LSTM可以從每一個時間步長的量測中估計目標狀態(tài)。雙向LSTM可以用于估計輸出航跡和真實航跡之間的偏差[14]。雖然LSTM類方法能夠?qū)δ繕藸顟B(tài)進行有效估計[15-18],但是對于較長的序列,LSTM的效果不佳[16]。
本文提出了一種基于Transformer的機動目標跟蹤網(wǎng)絡,該網(wǎng)絡的編碼器部分完全使用Transformer中的注意力機制[19],而在解碼器部分采用全卷積網(wǎng)絡。鑒于目標跟蹤問題的特殊性,即軌跡序列點之間的位置間隔并不固定,因此采取可學習的位置編碼來學習輸入的位置間隔信息。最后,本文提出了一種CN的歸一化方法,將觀測值從固定坐標系轉化為相對坐標系,提高了網(wǎng)絡向不同觀測數(shù)據(jù)的遷移能力。實驗結果表明,TBN網(wǎng)絡在跟蹤機動目標時,與基于LSTM的網(wǎng)絡相比,位置和速度估計誤差分別降低了11.2%和41.9%。此外,注意力機制的全局特性使得TBN能夠處理序列存在缺失觀測的情況,當缺失30%的觀測值時,TBN的跟蹤性能僅下降18%。
本文用Zk、Xk分別表示目標在k時刻的量測值和狀態(tài)值。本文主要考慮了X-Y坐標平面中的雷達跟蹤問題。K代表了總觀測時間。具體來說,Xk=[cx,k,cy,k,vx,k,vy,k]表示二維場景中的目標坐標和相應的速度分量,Zk=[θk,dk]表示雷達觀測到目標的方位角和距離。
(1)
由于神經(jīng)網(wǎng)絡需要大量的數(shù)據(jù)進行訓練,而實際采集數(shù)據(jù)的成本又過高,因此本文基于狀態(tài)空間模型(State Space Model, SSM)模擬了100 000條軌跡段。SSM首先定義了狀態(tài)轉移方程和觀測方程來描述狀態(tài)的轉移過程
(2)
其中,F為狀態(tài)轉移矩陣,用于描述目標運動規(guī)律;nk為轉移噪聲;h為觀測函數(shù),用于描述目標狀態(tài)值和觀測值之間的轉化方式;wk為觀測噪聲。
對于雷達目標跟蹤,Zk被定義為
(3)
其中,σθ為方位角的標準差;σd為距離的標準差。
為了能夠更全面地描述客觀世界中目標的運動規(guī)律,本文考慮了多種運動狀態(tài),其中包含勻速運動(CV)和勻速轉彎運動(CT)。CV的狀態(tài)轉移矩陣定義為
(4)
CT的狀態(tài)轉移矩陣定義為
(5)
其中,w表示機動目標的轉彎率;τ為觀測值的采樣間隔。由文獻[20]可知,狀態(tài)轉移噪聲nk=[nc,k,nc,k,nv,k,nv,k]可以建模為
(6)
輸入網(wǎng)絡訓練的軌跡序列包含真值結果和帶噪觀測序列。在將軌跡序列數(shù)據(jù)送入網(wǎng)絡之前,需要對數(shù)據(jù)進行預處理。為了消除觀測值和狀態(tài)值之間的維度差異性,首先將觀測值轉化到X-Y二維坐標系下:
(7)
文獻[14~15]提出對分段軌跡進行歸一化的方法,即對每段觀測值分別除以對應軌跡段的距離最大值。這種方法雖然能夠消除距離維和速度維之間的維度差異,但同時也消除了不同速度下相鄰點之間的距離間隔的差異性,影響了對目標速度的預測,因而這種差異性也是TBN網(wǎng)絡所需要利用到的語義特征信息,應當給予保留。
因此,本文提出使用CM歸一化方法對數(shù)據(jù)進行預處理,以改善模型的泛化性,并保留了距離間隔的語義信息,其計算式為
(8)
(9)
受Transformer網(wǎng)絡在序列建模問題方面的啟發(fā),本文將其引入雷達機動目標跟蹤任務。Transformer利用注意力機制并行地處理輸入序列數(shù)據(jù),與LSTM相比,其可以更容易地捕獲序列的局部相關性以及全局相關性?;诖?TBN網(wǎng)絡由Transformer結構中的自注意力機制構成的編碼器和1-D全卷積網(wǎng)絡構成的解碼器組成。
TBN網(wǎng)絡由位置編碼結構、N個堆疊的編碼器結構和由3層1-D全卷積層構成的解碼器組成。每個編碼器結構由一個多頭自注意力層、前饋全連接網(wǎng)絡以及在先前結構之后的兩個殘差連接結構(層歸一化結構)組成。圖1展示了本文設計的TBN架構。
圖1 TBN網(wǎng)絡模型架構Figure 1. Architecture of the TBN
2.2.1 位置編碼
在自然語言處理領域中,Transformer向序列添加位置編碼,以表示每個字詞在原序列中的相對或絕對位置。但在雷達機動目標跟蹤領域,輸入序列中的序列值為數(shù)值,并非單詞。因此,不使用原始Transformer中采用的確定性位置正弦編碼方式,而是采用了可學習位置編碼方式[21]
(10)
2.2.2 多頭自注意力層
自注意力機制為Transformer的核心機制,其在長序列建模問題中比LSTM等方法效果好的原因就在于自注意力機制。通過自注意力機制,解碼器在任意時刻的輸出信息均能查詢到編碼器中輸入序列的全部序列信息,并找出對當前輸出最有利用價值的序列信息,對其進行加權求和,得到最終的輸出。而多頭自注意力層是由多個自注意力層堆疊而成的結構。
對于多頭注意力層結構,設其具有M個自注意力層,則輸入序列S1:K∈Rde×K首先線性映射為查詢向量Q、鍵向量K和值向量V
(11)
其中,WQ、WK、WV均為可學習的參數(shù)。
(12)
對于輸入序列中的每個點都進行上述操作,便可得到任意自注意力層的輸出結果為
(13)
最后將所有自注意力層的結果進行拼接,即可得到多頭注意力層的輸出結果
Sa=Concat(head1,…,headM)
(14)
其中,Sa的維度與S1:K的維度一致。在原始的Transformer結構中,在最開始每個自注意力層的輸入均是de×K,因此在后續(xù)整合所有自注意力層輸出時,拼接的輸出向量將會異常龐大,且需要引入一個變換矩陣參數(shù)將其映射回原始維度,這會增加網(wǎng)絡的參數(shù)量。而本文采用先沿著維度de分割的方法,避免出現(xiàn)異常龐大的矩陣,減少了網(wǎng)絡所需要學習的參數(shù)量。
2.2.3 層歸一化結構
為了避免出現(xiàn)梯度消失的問題,在多頭注意力層輸出后應與多頭注意力層的輸入進行相加,然后經(jīng)過層歸一化結構對輸出進行標準化
(15)
其中,μ、σ分別代表輸入數(shù)據(jù)的均值和標準差。
2.2.4 前饋全連接層
為了讓多頭注意力結構的輸出數(shù)據(jù)之間進行交互,即希望通過多頭注意力結構的輸出映射出所希望的輸出向量結果,需要引入前饋全連接層。前饋全連接層由兩層帶有ReLU激活函數(shù)的全連接層構成。
2.2.5 Transformer網(wǎng)絡的優(yōu)勢
Transformer的架構模式使其能夠并行地處理輸入數(shù)據(jù),而LSTM等時序網(wǎng)絡需要串行地處理輸入數(shù)據(jù),即當前時刻的輸出依賴于上一時刻的輸出,當序列過長時,易出現(xiàn)梯度消失或梯度爆炸等問題。而Transformer網(wǎng)絡的并行數(shù)據(jù)處理能力使得其不會受限于時序數(shù)據(jù)的長度,因此可以有效地避免梯度消失和爆炸的問題。
將實際的帶噪觀測序列進行分段處理,得到n份軌跡片段,將其通過數(shù)據(jù)預處理部分進行歸一化后,輸入到TBN中,并輸出R個預測的軌跡片段,將其進行拼接并按照式(16)所示進行逆歸一化得到最終的預測軌跡序列。
(16)
圖2 軌跡序列處理流程Figure 2. Trajectory sequence processing
(17)
最終所有的輸出軌跡片段都會經(jīng)過拼接處理,得到完整的軌跡預測結果。
本文給出了軌跡數(shù)據(jù)集和網(wǎng)絡參數(shù),并設計實驗來測試和驗證TBN模型的跟蹤性能。
設定軌跡序列數(shù)據(jù)集規(guī)模為300 000條。實驗參數(shù)如表1所示。此外,假設Dmax=5 km且每間隔1 s觀測一次目標。
表1 航跡數(shù)據(jù)集參數(shù)Table 1. Parameters of the trajectory data set
TBN網(wǎng)絡由4個編碼器組成,每個編碼器中的多頭注意力層包含8個注意力層。本文將編碼維度設置為512。解碼器中的1-D卷積層的輸出維度分別是64、16、4。網(wǎng)絡使用參數(shù)為β1=0.90,β2=0.98,ε=10-9的Adam優(yōu)化器進行迭代優(yōu)化參數(shù)。學習率在前10次迭代采用線性熱啟動的方式啟動,并在后續(xù)迭代中采用動態(tài)調(diào)整策略進行衰減。設置批次大小為32,迭代次數(shù)為400次,計算顯卡設備為NVIDIA TITAN Xp GPU。
本文將提出的TBN+CM歸一化模型與IMM算法和LSTM+min-max歸一化模型(LSTM+MM)進行對比。同樣,也構建了LSTM+CM歸一化模型。
設置初始狀態(tài)為[2 km,2 km,50 m·s-1,0 m·s-1]且轉彎率為0°的目標,并進行蒙特卡羅實驗生成名為A1的60步長軌跡段。在第10步和第40步時,目標的轉彎率機動變化為-1°和5°。在軌跡A1上評估了TBN+CM、LSTM+MM、LSTM+CM和IMM算法。跟蹤結果如表2和圖3所示。
表2 航跡數(shù)據(jù)集A1實驗結果Table 2. Numerical results of several methods for tracking trajectory A1
(a)
(b)
(c)
(d)圖3 機動目標跟蹤結果Figure 3. The results of tracking a maneuvering target
圖3展示了本文所提算法跟蹤目標的情況。圖4(a)和圖4(b)展示了軌跡A1的RMSE結果。此外,軌跡A1的平均RMSE列在了表2中。在表格2中,LSTM+CM的RMSE小于LSTM+MM,證明了本文提出的CM歸一化方法通過降低軌跡學習的復雜性,從而提高了網(wǎng)絡的跟蹤性能。同時,表2中加粗的結果表明TBN+CM的跟蹤誤差最小。因為引入了CM歸一化的方式,使得基于CM的方法估計速度時,總是優(yōu)于基于MM的方法。
(a)
(b)圖4 機動目標跟蹤RMSE誤差結果(a)位置誤差 (b)速度誤差Figure 4. The RMSE of tracking a maneuvering target(a)Position error (b)Velocity error
此外,將軌跡A1的初始位置進行變化,得到軌跡A2和A3。對表3中列出的軌跡設置了不同數(shù)量的缺失值。表3中的結果表明,本文提出的TBN+CM可以對缺失值進行有效預測,然而LSTM+MM由于其固定的歸一化方式導致其跟蹤有缺失值的軌跡失敗。
表3 在不同初始位置的軌跡跟蹤結果Table 3. Results of tracking trajectories at different initial position
本文設計了一種基于注意力機制的TBN網(wǎng)絡以跟蹤雷達觀測的機動目標軌跡,并構建了一個大規(guī)模的軌跡數(shù)據(jù)集用于訓練網(wǎng)絡,最終提出了具有良好遷移能力的CM歸一化來預處理軌跡。實驗結果表明,TBN算法優(yōu)于現(xiàn)有基于LSTM的跟蹤網(wǎng)絡和IMM等傳統(tǒng)算法。此外,TBN網(wǎng)絡可以在缺少觀測值的情況下工作。未來的工作可以考慮使用輕量級Transformer網(wǎng)絡來改善跟蹤性能。由于本文未考慮數(shù)據(jù)關聯(lián)問題,因此關聯(lián)跟蹤集成網(wǎng)絡也值得探索。