梁欣凱,宋闖,郝明瑞,趙佳佳,鄭多
(復(fù)雜系統(tǒng)控制與智能協(xié)同技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100074)
隨著時(shí)代的發(fā)展,軍事領(lǐng)域?qū)_定位的需求越來(lái)越迫切。一般而言,明確自身和敵方位置,是完成路徑規(guī)劃、避障、精確打擊、群體協(xié)同等任務(wù)的基礎(chǔ)。因此,定位技術(shù)是一項(xiàng)基本技術(shù),關(guān)系著軍事領(lǐng)域多方面的應(yīng)用與發(fā)展。
過(guò)去以及現(xiàn)在,全球定位系統(tǒng)(GPS)、北斗系統(tǒng)、伽利略系統(tǒng)憑借其能夠提供高精度的定位與授時(shí)信息,已經(jīng)在越來(lái)越多的領(lǐng)域發(fā)揮著重要的作用。然而在復(fù)雜的野外環(huán)境或室內(nèi)環(huán)境,由于建筑物或障礙物等遮擋影響,GPS等定位系統(tǒng)[1]無(wú)法有效工作,因此需要尋求其他的定位方式,但是最近提出的射頻定位技術(shù),如基于WiFi或藍(lán)牙,卻存在需要前期部署的局限。
為了克服上述困難,研究人員借助圖像這種信息量豐富的載體,提出了視覺(jué)定位技術(shù)。傳統(tǒng)的視覺(jué)定位技術(shù)從給定的圖像中提取線索或特征如SIFT[2]匹配尋找地理參考系圖像庫(kù)中具有相近特征的圖像,來(lái)輸出對(duì)應(yīng)的位置和姿態(tài)信息。其進(jìn)一步延伸出視覺(jué)同時(shí)定位與地圖構(gòu)建技術(shù)(visual simultaneous localization and mapping,vSLAM[3])和運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)(SFM[4]),這些技術(shù)廣泛應(yīng)用于室內(nèi)機(jī)器人如掃地機(jī)器人等。但是該類技術(shù)存在兩方面問(wèn)題:一方面,并不是所有的線索或特征都對(duì)定位有效,尤其當(dāng)光照、天氣環(huán)境等發(fā)生重大變化,或出現(xiàn)大范圍遮擋、小范圍高動(dòng)態(tài)變化、重疊或運(yùn)動(dòng)模糊等,以上方法提取的特征隨之發(fā)生嚴(yán)重畸變,造成圖像間特征匹配錯(cuò)誤,最終導(dǎo)致定位失??;另一方面,傳統(tǒng)視覺(jué)定位技術(shù)往往需要構(gòu)建場(chǎng)景地圖,而地圖的大小與場(chǎng)景范圍相關(guān),所以包含數(shù)以百萬(wàn)計(jì)的特征元素大場(chǎng)景地圖下的特征匹配的實(shí)時(shí)性遭遇嚴(yán)重考驗(yàn)。因此需要提取跟定位更密切相關(guān)的局部特征與全局特征,增強(qiáng)對(duì)非位置信息參數(shù)變化的魯棒性。
近些年,借助卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)高級(jí)抽象特征提取的優(yōu)勢(shì)和循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)序列數(shù)據(jù)間關(guān)系的理解,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)、語(yǔ)音識(shí)別等領(lǐng)域取得巨大成功。基于此,部分研究人員將深度學(xué)習(xí)技術(shù)與視覺(jué)定位相結(jié)合,提出了基于位姿回歸的PoseNet[5]及其基于貝葉斯網(wǎng)絡(luò)的改進(jìn)[6];為了解決PoseNet中全連接層計(jì)算效率低下的問(wèn)題[7],利用LSTM處理卷積網(wǎng)絡(luò)輸出1 024維向量間的關(guān)系信息,進(jìn)而預(yù)測(cè)位姿;為了將視覺(jué)定位技術(shù)應(yīng)用于序列圖像[8],將雙向long short-term memory(LSTM)應(yīng)用于PoseNet改進(jìn)。盡管以上的深度學(xué)習(xí)定位算法對(duì)環(huán)境變化和大場(chǎng)景表現(xiàn)出良好的適應(yīng)性,并且能夠利用序列圖像位姿關(guān)系進(jìn)行位姿約束,但是其缺乏圖像間運(yùn)動(dòng)視差信息、圖像間位姿信息、圖像間像素關(guān)系信息相互的耦合,進(jìn)而缺乏場(chǎng)景三維結(jié)構(gòu)特征的約束,其定位精度提高存在天然瓶頸。
為了解決以上所提到序列圖像視覺(jué)定位面臨的問(wèn)題,本文研究了基于LSTM與孿生網(wǎng)絡(luò)的序列圖像視覺(jué)定位技術(shù),利用CNN對(duì)目標(biāo)特征識(shí)別的優(yōu)勢(shì)與LSTM能良好提取時(shí)序信息的優(yōu)勢(shì),通過(guò)孿生網(wǎng)絡(luò)獲得圖像間運(yùn)動(dòng)視差信息與LSTM獲得圖像間位姿關(guān)系信息的耦合,依靠端對(duì)端方式,學(xué)習(xí)圖像像素特征、圖像對(duì)應(yīng)場(chǎng)景三維結(jié)構(gòu)特征與圖像對(duì)應(yīng)的位姿信息的映射關(guān)系。最終,通過(guò)開(kāi)源數(shù)據(jù)庫(kù)Microsoft 7-Scenes和仿真生成的協(xié)同跟蹤樣本與衛(wèi)星圖像樣本,驗(yàn)證了所提出算法的準(zhǔn)確性與有效性。
視覺(jué)定位的任務(wù)就是確定任意坐標(biāo)系下一張圖像所對(duì)應(yīng)的位姿信息。視覺(jué)定位技術(shù)[5-10]首先建立帶有未知參數(shù)θ的模型f(x,θ),然后通過(guò)最小化代價(jià)函數(shù)獲得參數(shù)θ值,最后通過(guò)參數(shù)已知的模型預(yù)測(cè)目標(biāo)圖像位姿信息。
(1)
式中:dp和dq分別是預(yù)測(cè)位置值、姿態(tài)值與真實(shí)值之間的距離函數(shù),通常為L(zhǎng)1或L2范數(shù);β是一個(gè)平衡位置與姿態(tài)誤差的手工權(quán)值。
LSTM是一類特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),其適合于處理與預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件;孿生網(wǎng)絡(luò)能夠解析2張圖像間的對(duì)應(yīng)關(guān)系,廣泛地應(yīng)用于雙目立體匹配[11],運(yùn)動(dòng)視差[12]、光流[13]等方面?;诖耍疚乃鶚?gòu)建深度神經(jīng)網(wǎng)絡(luò)的主要目的是通過(guò)運(yùn)動(dòng)視差信息與位姿時(shí)序信息的相互耦合,進(jìn)而利用圖像間位姿關(guān)系信息的一致性縮小圖像回歸六自由度位姿的誤差,進(jìn)而實(shí)現(xiàn)精確的視覺(jué)定位。
PoseNet[5]指出分別訓(xùn)練位置與姿態(tài)的效果遠(yuǎn)遠(yuǎn)不如位姿耦合訓(xùn)練,因此本文將位姿耦合起來(lái)作為損失函數(shù)(參考式(1))。由式(1)可知,存在起平衡位置損失與姿態(tài)損失作用的超參數(shù)β。由于不同應(yīng)用場(chǎng)景β的選擇不同,因此為了避免費(fèi)時(shí)遍歷選擇合適的β數(shù)值[5],針對(duì)如何人工選擇β值進(jìn)行了經(jīng)驗(yàn)歸納,但是該基于專家知識(shí)的方案難以直接應(yīng)用于實(shí)際場(chǎng)景,因此需要一類β值的自動(dòng)學(xué)習(xí)策略。
圖1 基于LSTM的六自由度位姿回歸網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Six-degree-of-freedom pose regression network structure based on LSTM
圖2 基于孿生網(wǎng)絡(luò)的圖像間位姿變換回歸網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Image reconstruction regression network structure based on siamese network
(2)
式中:D為連續(xù)圖像的幀數(shù);
(3)
(4)
雖然式(2)解決了β自動(dòng)尋優(yōu)的問(wèn)題,但是該損失函數(shù)依然沒(méi)有包含關(guān)于圖像間關(guān)系信息,因此借助基于孿生網(wǎng)絡(luò)的圖像間位姿變換回歸網(wǎng)絡(luò)輸出量,建立如下的損失函數(shù):
(5)
式中:
loss_var(t)=var_pos(t)+var_att(t);
本節(jié)分別在開(kāi)源數(shù)據(jù)庫(kù)Microsoft 7-Scenes和仿真數(shù)據(jù)庫(kù)驗(yàn)證所提出的基于LSTM與孿生網(wǎng)絡(luò)的序列圖像視覺(jué)定位方案的有效性和準(zhǔn)確性,并與其他主流的深度學(xué)習(xí)視覺(jué)定位算法進(jìn)行了比較,表現(xiàn)了本文所提出算法的優(yōu)勢(shì)。
Microsoft 7-Scenes:該數(shù)據(jù)庫(kù)包含了7類典型室內(nèi)辦公室場(chǎng)景的RGBD圖像數(shù)據(jù),該數(shù)據(jù)庫(kù)由手持Kinect采集,像素分辨率為640×480。由于手持采集再累加室內(nèi)因素,因此該數(shù)據(jù)庫(kù)包含大量運(yùn)動(dòng)模糊、重疊、紋理缺失的圖像數(shù)據(jù),所以該數(shù)據(jù)庫(kù)是進(jìn)行視覺(jué)定位與跟蹤性能評(píng)價(jià)的常用數(shù)據(jù)庫(kù)之一。
仿真數(shù)據(jù)庫(kù):包含紅外SE-Workbench-IR仿真軟件生成的協(xié)同跟蹤圖像與基于衛(wèi)星圖像的機(jī)場(chǎng)數(shù)據(jù)如圖3、圖4,像素分辨率為640×480。以不依賴通信的協(xié)同編隊(duì)定位為出發(fā)點(diǎn),通過(guò)前視攝像頭以相距目標(biāo)150~650 m(采樣間隔10 m),相對(duì)俯仰角、滾轉(zhuǎn)角、偏航角在-20°~20°(采樣間隔為3°)進(jìn)行采樣,預(yù)測(cè)目標(biāo)與自身的位姿關(guān)系;以無(wú)人機(jī)自主降落為出發(fā)點(diǎn),依靠距機(jī)場(chǎng)直線距離9 km左右的衛(wèi)星圖變化得到不同距離不同角度機(jī)場(chǎng)圖像。圖3、圖4分別為以上2種數(shù)據(jù)庫(kù)的典型樣本。
圖3 紅外SE-Workbench-IR生成的協(xié)同跟蹤圖像Fig.3 Collaborative tracking image generated by SE-Workbench-IR
為了強(qiáng)算法的魯棒性,對(duì)原始圖像進(jìn)行如下增廣處理:如增加高斯與椒鹽噪聲,左右上下翻轉(zhuǎn),亮度對(duì)比度變換等操作,最終為了適應(yīng)于網(wǎng)絡(luò)結(jié)構(gòu)輸入的像素條件,將圖像裁剪成224×224,作為輸入量。
圖4 基于衛(wèi)星圖像的機(jī)場(chǎng)數(shù)據(jù)Fig.4 Airport data based on satellite imagery
本文利用ADAM求解器進(jìn)行優(yōu)化處理,其中ADAM的權(quán)值β1=0.9,β2=0.999,ε=10-10。將初始學(xué)習(xí)率設(shè)置為0.000 2,并根據(jù)訓(xùn)練迭代次數(shù)分階段將學(xué)習(xí)率進(jìn)行指數(shù)下降。此外,本文基于tensorflow框架實(shí)現(xiàn)所提出的算法,在NVIDIA Titan X GPU訓(xùn)練120 000次,批處理量為32。
本文所提出算法在以上提到的數(shù)據(jù)庫(kù)進(jìn)行定位驗(yàn)證,其實(shí)驗(yàn)結(jié)果如表1、表2與圖5所示。
表1 本文算法與其他基于深度學(xué)習(xí)視覺(jué)定位算法在Microsoft 7-Scenes的定位誤差均值的對(duì)比Table 1 Comparison of the median value of the algorithm in this paper with other depth-based learning visual positioning algorithms in Microsoft 7-Scenes
表2 本文算法在仿真數(shù)據(jù)庫(kù)的定位性能Table 2 Positioning performance of the algorithm in the simulation database
圖5 基于LSTM與孿生網(wǎng)絡(luò)的視覺(jué)定位算法在 7-Scenes的定位效果(紅圓點(diǎn)為真實(shí)位置、藍(lán)×為預(yù)測(cè)位置、綠方塊為定位誤差)Fig.5 Positioning effect of visual positioning algorithm based on LSTM and siamese network in 7-Scenes (Red dot is the real position,the blue × is the predicted position,and the green square is the positioning error)
通過(guò)表1可以看出,本文提出的基于LSTM與孿生網(wǎng)絡(luò)的視覺(jué)定位技術(shù)無(wú)論在位置回歸方面還是姿態(tài)回歸方面均超過(guò)了之前的基于深度學(xué)習(xí)的視覺(jué)定位性能。
通過(guò)圖5可以看出,左圖分別為預(yù)測(cè)的位姿信息和真實(shí)的位姿信息,坐標(biāo)分別為x,y,z,單位為m,右圖為位姿誤差坐標(biāo)系與單位與左圖一致。雖然7-Scenes數(shù)據(jù)庫(kù)自身具有運(yùn)動(dòng)模糊,光照劇烈變化等對(duì)于視覺(jué)定位精度產(chǎn)生影響的特性,但是該方案體現(xiàn)的定位效果已經(jīng)可以滿足室內(nèi)應(yīng)用需要,進(jìn)一步驗(yàn)證了本文方案的有效性與可靠性。
通過(guò)表2可知,在大范圍場(chǎng)景下,本文提出的視覺(jué)定位依然具有良好的定位性能,同時(shí)其運(yùn)算時(shí)間并沒(méi)有隨著場(chǎng)景范圍的擴(kuò)大而增加,其運(yùn)算時(shí)間在百毫秒量級(jí),遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)視覺(jué)定位方案。(因?yàn)闄C(jī)場(chǎng)數(shù)據(jù)沒(méi)有真實(shí)的姿態(tài)角度信息,因此沒(méi)有進(jìn)行評(píng)判。)
由于協(xié)同跟蹤圖像背景始終發(fā)生變化,在沒(méi)有經(jīng)過(guò)嚴(yán)格前后景分割的基礎(chǔ)下,SIFT算法始終無(wú)法準(zhǔn)確估計(jì)目標(biāo)對(duì)象相對(duì)于自身的位姿關(guān)系,該試驗(yàn)進(jìn)一步證明基于LSTM與孿生網(wǎng)絡(luò)的視覺(jué)定位技術(shù)不僅僅能夠克服場(chǎng)景變化的影響而且能夠在捕獲圖像中的感興趣顯著區(qū)域具有優(yōu)勢(shì)。
針對(duì)軍事領(lǐng)域迫切需求的視覺(jué)定位技術(shù),基于LSTM與孿生網(wǎng)絡(luò)的序列圖像視覺(jué)定位技術(shù),繼承了深度學(xué)習(xí)提取高級(jí)特征的優(yōu)勢(shì),突破了遮擋,紋理不清晰,重疊等傳統(tǒng)視覺(jué)定位技術(shù)的桎梏,達(dá)到良好的定位精度,滿足實(shí)際應(yīng)用基本要求。此外,該算法在仿真數(shù)據(jù)庫(kù)的應(yīng)用,也為飛行器編隊(duì)協(xié)同飛行、精確制導(dǎo)打擊等方向應(yīng)用奠定了基礎(chǔ)。