摘要:無人機已廣泛應用于物資運輸、應急救援、泵站巡檢、水利工程項目巡檢等軍事和民用領域,其中無人機定位技術是其實現(xiàn)自主飛行及實際應用的關鍵。在泵站及地下管網等復雜環(huán)境中,衛(wèi)星信號微弱或中斷,給無人機姿態(tài)的獲取帶來嚴峻挑戰(zhàn)。針對此問題,文章結合實際工程案例,提出了一種基于多尺度特征融合的無人機姿態(tài)估計方法,該方法能夠直接從輸入的RGB(紅、綠、藍)圖像中回歸出無人機的6自由度姿態(tài)信息。該方法利用CNN(卷積神經網絡)提取圖像中的多尺度空間特征;通過兩個并行的AttnLSTM(注意力機制長短期記憶網絡)從兩個不同方向處理數(shù)據(jù),實現(xiàn)結構化降維并提升模型的泛化能力;同時,引入Multi-Head Attention(多頭注意力)機制,進一步提煉關鍵信息,實現(xiàn)多尺度特征的有效融合。實驗結果表明,該模型在公開數(shù)據(jù)集上表現(xiàn)出色,能夠準確估計無人機的姿態(tài)信息。
關鍵詞:無人機姿態(tài);多尺度特征融合;AttnLSTM;Multi-Head Attention
中圖分類號:TP391" " "文獻標識碼:A" " "文章編號:1674-0688(2024)11-0094-06
0 引言
近年來,無人機姿態(tài)估計在機器視覺和機器人技術領域備受關注。隨著機器視覺技術的不斷進步,基于單視覺的無人機姿態(tài)估計方法也隨之更新與迭代。這些進展主要包括基于卷積神經網絡(CNN)的姿態(tài)估計方法的發(fā)展、長序列數(shù)據(jù)中長期依賴關系的有效處理、注意力機制的應用等。當前,主流的無人機姿態(tài)估計方法主要依賴于CNN實現(xiàn)。CNN憑借其高效的圖像特征提取能力及強大的端到端學習能力,能夠直接從圖像中回歸出無人機的姿態(tài)信息,包括位置和方向,從而提升了姿態(tài)估計的快捷性和準確性。PoseNet、DANN(域對抗神經網絡)[1]及基于ResNet的方法等,都是這一領域的代表性成果。Kendall等[2]提出的PoseNet(一種基于深度學習的實時人體姿勢檢測技術)是最早的應用方案之一,它利用GoogleNet進行特征提取,并通過全連接層輸出所需的6自由度姿態(tài)信息。然而,PoseNet在面對光照突變或圖像紋理減少等復雜場景時,其模型準確度可能會受到影響。為了更有效地從長序列數(shù)據(jù)中學習長期依賴關系并提取輸入序列中的重要特征,長短期記憶網絡(LSTM)、門控循環(huán)單元(GRU)等遞歸神經網絡(RNN)被引入到無人機姿態(tài)估計任務中。Peng等[3]提出了一種結合CNN和LSTM的方法,該方法利用LSTM對輸入的長序列數(shù)據(jù)進行結構化降維,并選擇最具相關性的特征來完成姿態(tài)估計任務,從而提高了姿態(tài)估計的平滑性和準確性。Shao等[4]提出了將CNN與BiLSTM相結合的方法,BiLSTM具備處理長期序列數(shù)據(jù)的能力,能夠全面提取重要特征,提高模型精度。在深度學習中,注意力機制模擬了人類對信息的選擇性關注行為,使模型能夠動態(tài)地調整注意力權重,從而在處理輸入數(shù)據(jù)時突出關鍵信息部分。在無人機姿態(tài)估計任務中,自注意力機制能夠自動聚焦于圖像中的關鍵區(qū)域,并增強對這些重要特征的提取能力。
盡管上述方法在各自的應用領域取得了成功,但是仍存在一些局限性,如依賴大規(guī)模數(shù)據(jù)集的、對復雜環(huán)境的適應性不足,以及缺乏處理長序列數(shù)據(jù)的能力等。針對這些問題,本文結合實際工程案例,提出了一種單視覺無人機姿態(tài)估計模型。該模型集成了預訓練的GoogleNet網絡、AttnLSTM和Multi-Head Attention機制,有效克服了現(xiàn)有方法的局限性。
1 案例概述
環(huán)北部灣廣東水資源配置工程是一項國家級重大水利建設項目,它從西江取水,輸送至云浮、茂名、湛江等地,全長約499.9 km。該項目主要由1條主干線、3條分干線和5座泵站等組成,并管理著沿線眾多設備。目前,供水管隧檢測主要采用管隧檢測機器人,這些機器人通過臍帶纜與主控設備相連,行進過程中無需自主判斷方位。然而,在長距離供水管隧病害檢測中,如果缺乏定位系統(tǒng),則無法確定機器人的具體位置。
現(xiàn)有的水下定位技術主要包括聲學、慣性、 視覺導航和地球物理導航等。聲學定位分為多普勒速度計程儀(DVL)與水聲定位系統(tǒng)兩類[5]。DVL于聲吶多普勒效應進行測速,具有算法簡單、精度高且誤差不隨時間累積的優(yōu)點,但可能會出現(xiàn)對地失鎖現(xiàn)象。水聲定位系統(tǒng)則分為長基線、短基線和超短基線3種[6],可為無人水下機器人提供位置信息,但需要在水下安裝應答器,并且在隧洞內易受多次反射干擾,導致定位誤差增大。慣性導航是基于牛頓慣性原理的自主導航方法[7],分為捷聯(lián)式與平臺式。其中,捷聯(lián)式因體積小、結構簡單而被廣泛應用于大多數(shù)慣性導航系統(tǒng)中。視覺導航則通過攝像設備判斷位置,直觀且適用于小范圍內高精度定位,如檢測機器人的自主回收過程。地球物理導航主要包括地形匹配、地磁匹配和重力匹配 3類。對于長距離供水管隧檢測而言,由于管隧底部特征差異不大,重力場變化也不如海洋中明顯,因此在隧洞內定位較為困難。
上述水下管網定位技術均可獨立使用,但各有優(yōu)點和缺點。由2種及以上導航技術結合形成的綜合導航系統(tǒng)能夠集成不同導航技術的優(yōu)點[8],增強導航系統(tǒng)的穩(wěn)定性與精確性,已成為目前管隧檢測機器人廣泛使用的導航模式,也是未來地下管網技術的發(fā)展方向。盡管組合定位模式形式多樣,但是在長距離、封閉空間的供水管隧內,定位系統(tǒng)仍面臨多次反射波干擾及密集鐵磁性結構設施的綜合影響。目前,結合無人機的視覺定位技術在供水管定位中已展現(xiàn)出良好效果。
2 無人機姿態(tài)估計方法
針對案例的實際情況,本文設計了一種由視覺圖像直接回歸無人機姿態(tài)的模型,該模型由CNN、AttnLSTM及Multi-Head Attention模塊構成(圖1)。模型表達式如下:
其中:[I]為輸入圖像, [f?]為神經網絡,P為無人機姿態(tài),P是相對任意全局參考系而定義的。每個姿態(tài)由6自由度構成,包括位置p(x,y,z)和方向q,本文選用四元數(shù)q(w,x,y,z)表示方向。
模型的輸入由圖像及對應的無人機真實姿態(tài)組成。模型訓練過程采用Adam優(yōu)化器,并在歐幾里德?lián)p失函數(shù)的指導下進行。目標損失函數(shù)為
2.1 CNN架構
CNN是一種專為處理具有網格結構的數(shù)據(jù)(如時間序列數(shù)據(jù)和圖像數(shù)據(jù))而設計的深度學習模型,其組成部分主要包括卷積層、激活函數(shù)、池化層及全連接層。在CNN中,卷積層利用濾波器提取輸入數(shù)據(jù)的特征,激活函數(shù)引入非線性因素,池化層則負責減少數(shù)據(jù)維度并防止過擬合現(xiàn)象。GoogleNet是Google團隊于2014年提出的一種深度卷積神經網絡架構[9],其核心在于引入了Inception模塊,該模塊通過并行使用不同大小的卷積核(如1×1、3×3、5×5)以及池化操作,能夠提取多尺度特征,從而有效捕捉局部和全局信息。鑒于GoogleNet的這一特點,本文在數(shù)據(jù)輸入后采用GoogleNet提取圖像的多尺度空間特征。
鑒于數(shù)據(jù)集規(guī)模有限以及回歸任務的輸出具有連續(xù)性的和無限性,無法從頭開始訓練GoogleNet,因此本文選擇使用預訓練的分類網絡GoogleNet。通過遷移學習,模型能夠快速收斂,從而減少訓練時間。由于GoogleNet原本設計用于分類任務,無法直接輸出多尺度特征向量,因此需要對其網絡結構進行相應的修改。類似PoseNet的做法,本文在最后執(zhí)行的平均池化層后添加全連接層,以輸出2 048維的特征向量。Inception模塊結構見圖2。
2.2 AttnLSTM網絡
LSTM是一種專為解決傳統(tǒng)RNN在處理長序列數(shù)據(jù)時遭遇的梯度消失或梯度爆炸問題而設計的網絡架構。LSTM的核心在于引入了記憶單元(memory cell)以及3個門控機制:輸入門、遺忘門和輸出門。這些門控機制協(xié)同工作,控制信息的流動,使模型能夠學習到長期依賴關系,從而更有效地處理和預測時間序列中的元素[10]。其中,輸入門控制新信息進入記憶單元的程度,遺忘門決定舊信息的保留或遺忘程度,而輸出門則調節(jié)信息輸出到隱藏狀態(tài)的程度。
AttnLSTM是結合了自注意力機制(Attention)與LSTM的網絡模型。自注意力機制能夠提升模型對輸入序列中重要特征的關注度,進而增強LSTM處理長距離依賴的能力。鑒于AttnLSTM在結構化降維方面具有更優(yōu)的表現(xiàn),本文在全連接層輸出后直接采用了AttnLSTM。然而,實驗結果顯示,直接將2 048維特征向量作為AttnLSTM的輸入進行姿態(tài)回歸,其姿態(tài)回歸精度相較于PoseNet并未顯著提升。原因在于,盡管AttnLSTM具備處理遠距離特征的記憶單元,但是全連接層輸出的2 048維特征向量對于AttnLSTM而言仍過于冗長。因此,將該向量重塑為32×64的矩陣[11],并分別從向下和向左兩個方向展平為兩個序列,然后分別應用AttnLSTM進行處理。
2.3 Multi-Head Attention(多頭注意力機制)
Multi-Head Attention機制是注意力機制的一種變體,它利用多個并行的自注意力頭(heads)捕捉輸入序列中不同子空間內的特征;其核心思想在于,將單一的注意力頭分解為多個獨立的注意力頭,每個頭都能獨立地在不同的子空間中計算注意力權重,從而能夠從多個角度關注不同的信息。
在分別應用AttnLSTM后,將各AttnLSTM的輸出直接進行拼接,并在拼接后的結果上直接應用Multi-Head Attention。這種方法能夠進一步提煉關鍵信息,并實現(xiàn)多尺度特征的融合。模型的最終輸出通過兩個全連接層分別回歸得到無人機的位置信息和方向信息。
3 數(shù)據(jù)集的選擇
監(jiān)督學習是機器學習的一個分支,其核心在于利用已標記真實值的數(shù)據(jù)來訓練模型,使模型能夠學習到輸入與輸出之間的映射關系。因此,獲取這些已標記的數(shù)據(jù)集對于監(jiān)督學習尤為重要。在圖像定位任務中,目前存在多個可供研究的公開數(shù)據(jù)集,如室內7 Scenes數(shù)據(jù)集(包括Chess、Fire、Heads、Office、Pumpkin、Red Kitchen和Stairs等場景)[12]、室外Cambridge Landmark數(shù)據(jù)集[2]以及TUMLSI數(shù)據(jù)集[11]等。
3.1 數(shù)據(jù)集介紹
本文主要采用了Cambridge Landmark數(shù)據(jù)集,該數(shù)據(jù)集包含4個不同的場景,提供了大規(guī)模室外城市環(huán)境中用于訓練和測試的帶姿態(tài)標記的數(shù)據(jù)。這些數(shù)據(jù)是在不同光線條件和天氣狀況下采集的。Cambridge Landmark數(shù)據(jù)集如圖3所示。
3.2 數(shù)據(jù)預處理
Cambridge Landmark數(shù)據(jù)集包含在不同光線和天氣條件下拍攝的圖像,因此存在亮度不均、較暗及模糊等問題。為確保輸入圖像的一致性和提升訓練效果,對原始圖像進行了以下預處理步驟:首先,進行中心剪裁,確保所有圖像具有相同大小的同時保持圖像的寬高比不變,這是通過計算新的高度和寬度來實現(xiàn)的。其次,針對圖像模糊問題,采用圖像銳化技術以增強圖像邊緣,減輕模糊圖像對圖像質量的影響。最后,實施均值圖像減法,即計算所有圖像在每個像素位置上的平均值以生成一個均值圖像,并從所有圖像中減去該均值圖像,以此減少圖像之間的光照差異,進而提升模型的泛化能力。
4 實驗結果
實驗結果表明,本文提出的方法在多個場景中均能有效實現(xiàn)無人機的姿態(tài)估計。為進一步驗證該方法的有效性和優(yōu)越性,將其與其他基于CNN的無人機姿態(tài)估計方法進行了對比分析。
4.1 實驗設置
首先,將Places[9]的預訓練權重賦予模型的GoogleNet部分,其余部分的權重則隨機生成。其次,所有實驗均在NVIDIA GPU環(huán)境下完成,采用PyTorch框架中的Adam優(yōu)化器對模型進行優(yōu)化。最后,針對所有特征序列,設置了以下參數(shù):批次大小為75,最大迭代次數(shù)為30 000~50 000,Googlenet輔助損失權重為0.3,位置信息損失權重為1,方向信息損失函數(shù)權重為50,Dropout概率為0.4。Adam優(yōu)化器的參數(shù)設置如下:學習率lr=0.000 1,betas=(0.9,0.999),eps=1[e?8]。
4.2 結果比較
幾種模型方法在Cambridge Landmark數(shù)據(jù)集上單圖像定位的結果見表1。該數(shù)據(jù)集包含King's College、Old Hospital、Shop Facade和St Mary's Church 4個場景。實驗結果表明,本文提出的AttnLSTM方法平均減少了7.69%的位置誤差和30.07%的方向誤差。
在Cambridge Landmark數(shù)據(jù)集的King’s College場景下,模型分別經過30 000次和45 000次迭代后,預測值與真實值在三維空間中的散點分布(圖4)。從圖4中可以看出,當?shù)螖?shù)為30 000時,模型的準確度較高且穩(wěn)定,而迭代次數(shù)增加后出現(xiàn)過擬合趨勢。
5 結論
為應對衛(wèi)星信號弱或中斷的情況,確保無人機姿態(tài)信息的準確返回,本文提出了一種多尺度特征融合的無人機姿態(tài)估計方法。該方法創(chuàng)新性地結合了自注意力機制與LSTM,并引入了Multi-Head Attention機制,實現(xiàn)了從單張RGB圖像直接回歸6自由度無人機姿態(tài)信息。為降低光線、天氣及雜亂場景等因素對準確度的影響,進行了數(shù)據(jù)預處理。同時,為提升模型收斂速度,采用了預訓練的GoogleNet模型。此外,本文提出了AttnLSTM單元,優(yōu)化了模型的結構化降維效果,并通過引入Multi-Head Attention機制進一步提煉關鍵信息,實現(xiàn)了多尺度特征融合。本文將所提出的方法與其他無人機姿態(tài)估計方法進行了對比實驗。結果表明,該方法能夠準確回歸無人機姿態(tài),并且在相同數(shù)據(jù)集上的準確度高于其他基于CNN的無人機姿態(tài)估計方法。在未來的研究中,可繼續(xù)探索更深層次的網絡架構及更先進的注意力機制,以提升模型的魯棒性和泛化能力。同時,可考慮引入多模態(tài)數(shù)據(jù)融合技術,如IMU、地磁和激光測距等數(shù)據(jù),以進一步提高模型準確度。
6 參考文獻
[1]Ganin Y,Ustinova E,Ajakan H,et al.Domain-adver-sarial training of neural networks[J].Journal of Machine Learning Research,2016,17:2096-2030.
[2]KENDALL A,GRIMES M,CIPOLLA R.PoseNet:a convolutional network for real-time 6-dof camera relocalization[C/OL].2015 IEEE International Conference on Computer Vision(ICCV),2015:2938-2946.DOI:10.1109/ICCV.2015.336.
[3]PENG B,CHEN Y,ZHENG T,et al.Safety positioning for UAV swarms in harsh environments[J].The Magazine of Computer Communications,2022,36(4):46-53.
[4] SHAO Y H,HAN B,LUO Y.A method based on CNN-BiLSTM for UAV navigation error compensation in GNSS denied environment[C/OL].2023 9th International Conference on Computer and Communications(ICCC),2023:689-694.DOI:10.1109/ICCC59590.2023.10507546.
[5]陳鵬,陳洋,王威.無人機聲學定位技術綜述[J].華南理工大學學報(自然科學版),2022,50(12):109-123.
[6]郭忠文,羅漢江,洪鋒,等.水下無線傳感器網絡的研究進展[J].計算機研究與發(fā)展,2010,47(3):377-389.
[7]吳艷峰,鮑敬源,韓云峰,等.基于聲學的水下慣性導航系統(tǒng)校準技術研究[J].傳感器與微系統(tǒng),2024,43(5):35-38.
[8]李想,王燕,齊濱,等.聯(lián)合多傳感器的水下多目標無源聲學定位[J].聲學學報,2024,49(1):16-27.
[9]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[J/OL].IEEE Computer Society,2014.DOI:10.1109/CVPR.2015.7298594.
[10]楊麗,吳雨茜,王俊麗,等.循環(huán)神經網絡研究綜述[J].計算機應用,2018,38(S2):1-6,26.
[11]WALCH F,HAZIRBAS C,LEAL-TAIXE L,et al.Image-based localization using LSTMs for structured feature correlation[C/OL].2017 IEEE International Conference on Computer Vision(ICCV),2017:627-637.DOI:10.1109/ICCV.2017.75.
[12]SHOTTON J,GLOCKER B,ZACH C,et al.Scene coordinate regression forests for camera relocalization in RGB-D images[C/OL].2013 IEEE Conference on Computer Vision and Pattern Recognition,2013:2930-2937.DOI:10.1109/CVPR.2013.377.
[13]KENDALL A,CIPOLLA R.Modelling uncertainty in deep learning for camera relocalization[C/OL].IEEE International Conference on Robotics amp; Automation,2016:4762-4769.DOI:10.1109/ICRA.2016.7487679.