仉 新,鄭飂默,譚振華,李 鎖
(1.沈陽理工大學(xué) 機(jī)械工程學(xué)院,沈陽 110159;2.中國科學(xué)院沈陽計(jì)算技術(shù)研究所有限公司,沈陽 110168;3.東北大學(xué) 軟件學(xué)院,沈陽 110169)
同時(shí)定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)是搭載傳感器的移動(dòng)機(jī)器人通過對(duì)未知環(huán)境進(jìn)行觀測(cè)構(gòu)建環(huán)境地圖,同時(shí)實(shí)現(xiàn)自主定位與導(dǎo)航的技術(shù)[1]。SLAM是移動(dòng)機(jī)器人實(shí)現(xiàn)自主導(dǎo)航的關(guān)鍵,廣泛應(yīng)用于自動(dòng)駕駛、無人機(jī),虛擬現(xiàn)實(shí)和智能家居等領(lǐng)域[2]。由于視覺傳感器成本低且獲取場(chǎng)景信息豐富,視覺SLAM受到廣泛關(guān)注。閉環(huán)檢測(cè)是SLAM的重要模塊,對(duì)于減小視覺里程計(jì)產(chǎn)生的累計(jì)誤差,提升機(jī)器人位姿估計(jì)的準(zhǔn)確性,構(gòu)建全局一致性地圖具有重要作用[3]。隨著SLAM的廣泛應(yīng)用,復(fù)雜場(chǎng)景下閉環(huán)檢測(cè)準(zhǔn)確性低和魯棒性差的問題亟待解決[4]。
學(xué)者們對(duì)閉環(huán)檢測(cè)進(jìn)行廣泛研究,視覺詞袋模型(Bag of Visual Words,BoVW)是實(shí)現(xiàn)閉環(huán)檢測(cè)的傳統(tǒng)方法,通過提取人工特征,聚類不同的視覺單詞,以單詞向量的形式來描述圖像,度量圖像相似性實(shí)現(xiàn)閉環(huán)檢測(cè)。全局特征(Global Characteristics Information of a Scene,GIST)采用二維濾波方法處理區(qū)域紋理信息,提取圖像的整體特征,提升閉環(huán)檢測(cè)效率[5]。但是傳統(tǒng)特征對(duì)光照、季節(jié)、視角、遮擋,動(dòng)態(tài)物體以及大尺度等環(huán)境變化敏感,影響閉環(huán)檢測(cè)的準(zhǔn)確性和魯棒性。
深度學(xué)習(xí)不需要人工設(shè)計(jì)特征,具備強(qiáng)大的特征自主提取能力,對(duì)環(huán)境變化具有較好的魯棒性,廣泛應(yīng)用于人臉識(shí)別、場(chǎng)景分類和醫(yī)療診斷等領(lǐng)域。Hou等利用深度學(xué)習(xí)實(shí)現(xiàn)閉環(huán)檢測(cè),相比BoVW和GIST方法,在光照變化場(chǎng)景下提升了閉環(huán)檢測(cè)的準(zhǔn)確性[6]。Sünderhauf等利用AlexNet網(wǎng)絡(luò)提取圖像特征,表明中高層特征更好地應(yīng)對(duì)場(chǎng)景外觀和視角變化[7]。牛津大學(xué)視覺幾何組Simonyan等提出了VGG網(wǎng)絡(luò),采用連續(xù)的卷積核代替AlexNet的卷積核,通過增加網(wǎng)絡(luò)深度提升網(wǎng)絡(luò)的性能,在ImageNet挑戰(zhàn)賽取得了優(yōu)異成績(jī)[8]。
傳統(tǒng)深度學(xué)習(xí)方法可以自主提取圖像特征,但淺層特征難以準(zhǔn)確地描述圖像的豐富信息,忽略了圖像的空間細(xì)節(jié)特征。隨著層數(shù)的加深,具有一定的局限性。隨著網(wǎng)絡(luò)層數(shù)的加深,增加了存儲(chǔ)和計(jì)算資源;最大池化層未考慮特征間空間位置關(guān)系,丟失圖像細(xì)節(jié)信息;神經(jīng)元的輸入和輸出為標(biāo)量,模型表達(dá)能力受限。
為解決上述問題,提升SLAM系統(tǒng)閉環(huán)檢測(cè)的準(zhǔn)確性和魯棒性,提高圖像特征提取和表達(dá)能力,實(shí)現(xiàn)復(fù)雜場(chǎng)景下移動(dòng)機(jī)器人自主定位和導(dǎo)航,本文提出了一種融合特征編碼和動(dòng)態(tài)路由優(yōu)化的視覺定位方法。
深度卷積神經(jīng)網(wǎng)絡(luò)具有局部區(qū)域感知、時(shí)空域上采樣和權(quán)重共享等特點(diǎn),在語音、文字、圖像,視頻識(shí)別和分類等領(lǐng)域取得了巨大的突破。隨著網(wǎng)絡(luò)層數(shù)的加深,提升了網(wǎng)絡(luò)的學(xué)習(xí)能力,但是會(huì)降低網(wǎng)絡(luò)的收斂速度。同時(shí),梯度反向傳播使得梯度變?yōu)闊o限小,無法有效調(diào)整網(wǎng)絡(luò)權(quán)重,難以實(shí)現(xiàn)反向梯度傳導(dǎo),出現(xiàn)梯度爆炸、梯度消失及計(jì)算量大等問題。
為解決深度卷積神經(jīng)網(wǎng)絡(luò)的梯度消失和網(wǎng)絡(luò)退化等問題,He等提出了殘差網(wǎng)絡(luò)(Residual Network,ResNet),殘差網(wǎng)絡(luò)跳躍式結(jié)構(gòu)簡(jiǎn)單,且特征提取能力強(qiáng),廣泛應(yīng)用于人臉識(shí)別、自動(dòng)駕駛和圖像分類等方向[9]。ResNet通過引入殘差機(jī)制,采用恒等映射構(gòu)建殘差單元,降低了網(wǎng)絡(luò)參數(shù)量和計(jì)算復(fù)雜度,提高運(yùn)算效率,解決了網(wǎng)絡(luò)退化問題,提升了網(wǎng)絡(luò)性能[10]。根據(jù)網(wǎng)絡(luò)層數(shù)劃分,ResNet包含ResNet-18、ResNet-34、ResNet-50,ResNet-101和ResNet-152等典型網(wǎng)絡(luò)結(jié)構(gòu)。其中,ResNet-18和ResNet-34由基本殘差模塊構(gòu)成,ResNet-50、ResNet-101和ResNet-152由bottleneck模塊構(gòu)成。
殘差單元是殘差網(wǎng)絡(luò)的基本組成部分,如圖1所示,殘差單元由卷積層Conv、批處理歸一化層BN以及非線性激活函數(shù)Relu構(gòu)成。
殘差網(wǎng)絡(luò)的基本結(jié)構(gòu)是殘差單元,如圖2所示。首先,將輸入數(shù)據(jù)傳入卷積層Conv、非線性激活函數(shù)層Relu和批處理歸一化層BN;然后將結(jié)果傳入多個(gè)殘差單元;經(jīng)批處理歸一化層BN及全連接層,獲得輸出結(jié)果。ResNet采用旁路連接,將輸入直接發(fā)送到輸出,避免信息丟失,能夠有效解決梯度爆炸和梯度消失問題。
圖2 殘差網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of ResNet
為提升圖像特征的提取和表達(dá)能力,避免空間位置特征丟失,提高閉環(huán)檢測(cè)的準(zhǔn)確率和魯棒性,實(shí)現(xiàn)移動(dòng)機(jī)器人的自主定位和建圖,本文提出融合特征編碼和動(dòng)態(tài)路由優(yōu)化的視覺定位方法。首先,采用預(yù)訓(xùn)練的ResNet模型作為特征提取器,提取圖像的淺層幾何特征和深層語義特征,融合殘差機(jī)制和GhostVLAD特征編碼方式,獲取圖像的全局特征描述符,減少圖像數(shù)據(jù)中的噪聲信息,加快訓(xùn)練中模型的收斂速度;其次,通過熵密度峰值優(yōu)化動(dòng)態(tài)路由,利用CapsNet提取圖像特征間的相對(duì)位置和方向,參數(shù)簡(jiǎn)單且魯棒性強(qiáng),實(shí)現(xiàn)優(yōu)化網(wǎng)絡(luò)整體性能;最后,將全局特征描述符和特征向量相結(jié)合,包含特征間的相對(duì)位置分布關(guān)系,保留特征間的差異性和關(guān)聯(lián)性,提高SLAM系統(tǒng)定位和建圖的準(zhǔn)確性。
為提升場(chǎng)景位置識(shí)別的準(zhǔn)確性,解決深度神經(jīng)網(wǎng)絡(luò)的梯度消失、網(wǎng)絡(luò)退化以及計(jì)算量大等問題,加快訓(xùn)練中模型收斂速度,滿足SLAM系統(tǒng)實(shí)時(shí)性要求,提出基于特征編碼策略的殘差網(wǎng)絡(luò)模型。綜合考慮模型的參數(shù)量及訓(xùn)練效果,采用如圖3所示的ResNet-50模型作為特征提取基礎(chǔ)網(wǎng)絡(luò),提取圖像淺層幾何特征和深層語義特征,為閉環(huán)檢測(cè)帶來了新的研究思路。特征編碼通過對(duì)提取的圖像特征聚類,提升殘差網(wǎng)絡(luò)對(duì)圖像的識(shí)別能力。局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)計(jì)算圖像特征描述子及其聚類中心的差矢量,將局部特征聚類為全局特征,可以解決圖像檢索和圖像分類問題[11]。Arandjelovi?等對(duì)局部特征進(jìn)行聚類,提取特征之間的分布關(guān)系,獲得全局特征描述,提出了結(jié)合神經(jīng)網(wǎng)絡(luò)的VLAD編碼算法NetVLAD,該算法相對(duì)于VLAD算法更加靈活,適用于相似場(chǎng)景識(shí)別問題[12]。為提取高質(zhì)量的圖像特征描述子,Arandjelovi等人結(jié)合NetVLAD和“ghost”中心點(diǎn),提出了GhostVLAD算法[13],如圖4所示。
圖3 ResNet-50結(jié)構(gòu)圖Fig.3 The structure of ResNet-50
圖4 GhostVLAD算法流程Fig.4 The algorithm flowchart of GhostVLAD
GhostVLAD是全局描述子,通過加入G個(gè)ghost聚類中心,對(duì)輸入圖像進(jìn)行外觀描述,采用自動(dòng)加權(quán)降低低質(zhì)量圖像的權(quán)重。NetVLAD是GhostVLAD的一種特殊形式,即當(dāng)0G=時(shí),ghost類數(shù)目設(shè)定為0時(shí),GhostVLAD計(jì)算結(jié)果和NetVLAD結(jié)果一致。
ResNet的輸入是真實(shí)場(chǎng)景的彩色圖像,輸入圖像大小為224*224*3。如圖5所示,去除ResNet-50最后的均值池化層和全連接層,引入GhostVLAD層,將含噪聲的信息分配到ghost類,降低噪聲數(shù)據(jù)的干擾。通過對(duì)融合后的ResNet網(wǎng)絡(luò)和GhostVLAD模塊進(jìn)行訓(xùn)練,對(duì)GhostVLAD層進(jìn)行降維,得到512維的輸出向量,有效降低了計(jì)算量,提升了場(chǎng)景識(shí)別的魯棒性。
圖5 基于GhostVLAD的ResNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Network structure of ResNet based on GhostVLAD
為提升卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)識(shí)別圖像的準(zhǔn)確性,保留圖像特征間的空間位置關(guān)系,2017年Hinton等首次提出了膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)[14],CapsNet的動(dòng)態(tài)路由機(jī)制采用k-means聚類,只適用于處理球形數(shù)據(jù),對(duì)初始聚類中心敏感。本文采用密度峰值優(yōu)化的動(dòng)態(tài)路由,通過優(yōu)化熵的最小值求解最優(yōu)截?cái)嗑嚯x,提升膠囊網(wǎng)絡(luò)的整體性能。
Sabour提出膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)來改善CNN特征提取的局限性,通過更新主膠囊和數(shù)字膠囊之間的動(dòng)態(tài)路由機(jī)制,得到高層級(jí)的實(shí)體表示,不僅減少了網(wǎng)絡(luò)參數(shù),而且避免發(fā)生過擬合[15]。通過MNIST數(shù)據(jù)集實(shí)驗(yàn)驗(yàn)證,CapsNet相比CNN在數(shù)字識(shí)別、交通標(biāo)志識(shí)別以及醫(yī)學(xué)圖像分析等方面分類準(zhǔn)確率高[16,17]。
CapsNet結(jié)構(gòu)的基本單元是膠囊,采用膠囊代替CNN中的神經(jīng)元表示圖像的特征[18]。每個(gè)膠囊是一組神經(jīng)元的集合,多個(gè)膠囊構(gòu)成整個(gè)膠囊網(wǎng)絡(luò)。每個(gè)膠囊表示全部或部分實(shí)體,向量的長度代表實(shí)體存在的概率,向量的方向代表圖像中實(shí)體的各種屬性,如姿態(tài)(位置、大小和方向)、紋理,形變和顏色等。采用動(dòng)態(tài)路由替代最大或平均池化層,實(shí)現(xiàn)由向量輸出替代標(biāo)量輸出,利用向量化的膠囊來編碼特征信息[19]。膠囊間的信息傳播過程如圖6所示。
圖6 膠囊間的信息傳播過程Fig.6 Information transmission between capsules
經(jīng)典CapsNet包含輸入層、卷積層(Conv1)、初始膠囊層(PrimaryCaps)、數(shù)字膠囊層(DigitalCaps),全連接層和輸出層,如圖7所示。相比CNN的池化策略,CapsNet的信息傳遞機(jī)制充分地保留了特征間的空間位置關(guān)系,實(shí)現(xiàn)了圖片信息的準(zhǔn)確傳遞。加權(quán)系數(shù)由預(yù)測(cè)向量和高層膠囊之間的內(nèi)積決定。內(nèi)積越大,膠囊神經(jīng)元間的加權(quán)系數(shù)越大,低層膠囊向高層膠囊傳遞的特征信息越多;內(nèi)積越小,膠囊神經(jīng)元間的加權(quán)系數(shù)越小,低層膠囊向高層膠囊傳遞的特征信息越少。實(shí)驗(yàn)可得通過3次迭代就可得到較好的耦合系數(shù),不會(huì)增大計(jì)算量。
圖7 膠囊網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 The structure of CapsNet
膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制采用k-means聚類算法,將低層特征轉(zhuǎn)換為高層特征,且只適用于處理球形數(shù)據(jù),對(duì)初始聚類中心敏感。密度峰聚類(Density Peaks Clustering,DPC)算法適用于任意形狀的數(shù)據(jù),參數(shù)簡(jiǎn)單且魯棒性強(qiáng)[20]。采用密度峰值優(yōu)化的動(dòng)態(tài)路由,通過優(yōu)化熵的最小值求解最優(yōu)截?cái)嗑嚯x,解決膠囊網(wǎng)絡(luò)對(duì)初始聚類中心敏感問題,實(shí)現(xiàn)低層特征到高層特征的聚合,利用向量表示特征間的相對(duì)位置和方向,提高網(wǎng)絡(luò)整體性能。
DPC算法主要包含局部密度iρ和鄰近距離iδ。采用高斯核定義局部密度為:
其中,Z為標(biāo)準(zhǔn)化系數(shù)。將式(11)代入式(13)(14),構(gòu)造關(guān)于截?cái)嗑嚯x的函數(shù),通過優(yōu)化熵的最小值求解最優(yōu)截?cái)嗑嚯x。實(shí)驗(yàn)可知,當(dāng)熵為最小值時(shí),可得到截?cái)嗑嚯x的最優(yōu)值。具體優(yōu)化過程為:
步驟1 低層膠囊的權(quán)重映射;
將殘差網(wǎng)絡(luò)特征輸入GhostVLAD層獲取特征點(diǎn)和聚類中心的殘差之和,整合特征得到全局特征描述符,通過膠囊網(wǎng)絡(luò)獲取表示特征分布的特征向量,提取差異化特征,將全局特征描述符和特征向量相結(jié)合,ResNet-50特征對(duì)應(yīng)圖8中抽象的紅、黃及綠色塊等,CapsNet的全連接層對(duì)應(yīng)圖8中藍(lán)色塊及特征向量,表示特征之間的相對(duì)位置分布關(guān)系。融合后保留了特征之間的差異性和關(guān)聯(lián)性,提升特征識(shí)別能力,提高SLAM系統(tǒng)定位和建圖的準(zhǔn)確性。
圖8 融合膠囊網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的特征向量Fig.8 The feature vectors based on capsule network and residual network
如圖9所示,通過對(duì)融合后的特征進(jìn)行L2歸一化和主成分分析(Principal Component Analysis,PCA)降維,計(jì)算圖像特征相似性用于閉環(huán)檢測(cè),剔除數(shù)據(jù)中的冗余圖像特征和噪聲,提升計(jì)算效率的同時(shí),顯著提高了圖像的表達(dá)能力,有效建立環(huán)境一致性地圖,提升SLAM系統(tǒng)定位和建圖的準(zhǔn)確性和魯棒性。
圖9 閉環(huán)檢測(cè)流程圖Fig.9 The flowchart of loop closure detection
為驗(yàn)證本文所提出的閉環(huán)檢測(cè)方法的有效性,利用SLAM數(shù)據(jù)集進(jìn)行性能評(píng)估,Gardens Point和TUM是常用的標(biāo)準(zhǔn)數(shù)據(jù)集。選用實(shí)驗(yàn)平臺(tái)為:處理器為i7-8750H,運(yùn)行內(nèi)存32GB,運(yùn)行環(huán)境為Ubuntu 16.04系統(tǒng)。
1)準(zhǔn)確率(precision)和召回率(recall)是評(píng)價(jià)閉環(huán)檢測(cè)效果的常用指標(biāo),以召回率為橫軸,準(zhǔn)確率為縱軸,使用準(zhǔn)確率-召回率曲線評(píng)價(jià)算法有效性。
其中,TP為檢測(cè)到正確的閉環(huán)數(shù),F(xiàn)P為檢測(cè)到錯(cuò)誤的閉環(huán)數(shù),F(xiàn)N為沒有檢測(cè)到真實(shí)的閉環(huán)數(shù)。
2)準(zhǔn)確率-召回率曲線下的面積(Area Under the Curve,AUC)是評(píng)價(jià)閉環(huán)檢測(cè)的主要指標(biāo),AUC值越接近1,表明算法平均準(zhǔn)確率越高,性能越好。
3)絕對(duì)軌跡誤差(Absolute Trajectory Error,ATE) 是評(píng)估SLAM定位準(zhǔn)確度的主要指標(biāo)。絕對(duì)軌跡誤差是估計(jì)軌跡與真實(shí)軌跡之間的差值。
Gardens Point數(shù)據(jù)集:采集于昆士蘭科技大學(xué)校園,包含視角變化、光照變化,動(dòng)態(tài)物體及遮擋因素。圖像示例如表1所示。
表1 Gardens Point數(shù)據(jù)集Tab.1 Gardens Point dataset
由三個(gè)圖像序列組成,其中圖像序列day-left和day-right均采集于白天行經(jīng)道路左右兩側(cè)的場(chǎng)景,子圖像序列night-right采集于夜晚行經(jīng)相同道路時(shí)右側(cè)的場(chǎng)景。
為驗(yàn)證本文方法(Res-CapsNet)的有效性,分別對(duì)Gardens Point數(shù)據(jù)集進(jìn)行閉環(huán)檢測(cè)對(duì)比實(shí)驗(yàn)分析,數(shù)據(jù)集包含視角、光照、動(dòng)態(tài)物體和遮擋等場(chǎng)景變化。與基于BoVW、GIST、AlexNet、VGG的閉環(huán)檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖10-12所示,其中,紫色線條表示視覺詞袋模型(BoVW),紅色線條表示基于全局GIST特征的閉環(huán)檢測(cè),綠色線條表示基于AlexNet的閉環(huán)檢測(cè),橙色線條表示基于VGG的閉環(huán)檢測(cè),藍(lán)色線條表示本文方法(Res-CapsNet)。
圖10為Gardens Point數(shù)據(jù)集的光照相同、視角變化場(chǎng)景下閉環(huán)檢測(cè)實(shí)驗(yàn)結(jié)果,可以測(cè)試方法對(duì)視角變化的魯棒性。基于Res-CapsNet閉環(huán)檢測(cè)準(zhǔn)確率-召回率曲線的AUC值為0.97,平均準(zhǔn)確率也最高,而基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的AUC值分別為0.95,0.97,0.84,0.63,在視角變化場(chǎng)景下,當(dāng)閉環(huán)檢測(cè)召回率達(dá)到80%時(shí),基于Res-CapsNet閉環(huán)檢測(cè)準(zhǔn)確率達(dá)到96.49%,而對(duì)比基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的準(zhǔn)確率分別為94.97%,96.18%,73.28%,48.69%,采用基于VGG及AlexNet的閉環(huán)檢測(cè)效果相差不大,且準(zhǔn)確率高于基于BoVW及GIST閉環(huán)檢測(cè)方法,說明基于卷積神經(jīng)網(wǎng)絡(luò)模型提取的特征,對(duì)于視角變化場(chǎng)景具有較好魯棒性。高召回率下基于Res-CapsNet的閉環(huán)檢測(cè)方法仍保持了較高的準(zhǔn)確率。
圖10 白天-左側(cè)與白天-右側(cè)數(shù)據(jù)集準(zhǔn)確率-召回率曲線Fig.10 Precision-Recall of day-left vs day-right datasets
圖11為Gardens Point數(shù)據(jù)集的視角相同、光照變化場(chǎng)景下閉環(huán)檢測(cè)實(shí)驗(yàn)結(jié)果,可以測(cè)試方法對(duì)光照變化的魯棒性?;赗es-CapsNet閉環(huán)檢測(cè)的準(zhǔn)確率-召回率曲線的AUC值為0.81,平均準(zhǔn)確率最高,而基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的AUC值分別為0.59,0.49,0.37,0.25。隨著召回率逐漸增加,準(zhǔn)確率逐漸降低。在視角變化場(chǎng)景下,當(dāng)閉環(huán)檢測(cè)召回率達(dá)到80%時(shí),基于Res-CapsNet的準(zhǔn)確率達(dá)到65.55%,而對(duì)比基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的準(zhǔn)確率分別為43.73%,37.64%,27.80%,49.89%,高召回率下Res-CapsNet準(zhǔn)確率較高。
圖11 白天-右側(cè)與夜晚-右側(cè)數(shù)據(jù)集準(zhǔn)確率-召回率曲線Fig.11 Precision-Recall of day-right vs night-right datasets
圖12為Gardens Point數(shù)據(jù)集的視角和光照均明顯變化場(chǎng)景下閉環(huán)檢測(cè)實(shí)驗(yàn)結(jié)果,可以測(cè)試方法對(duì)視角和光照變化的魯棒性。隨著光照及視角的變化,各種方法的性能都有所下降,基于Res-CapsNet閉環(huán)檢測(cè)的準(zhǔn)確率-召回率曲線的AUC值為0.75,平均準(zhǔn)確率最高,而基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的AUC值分別為0.55,0.43,0.16,0.14,在視角和光照變化場(chǎng)景下,當(dāng)閉環(huán)檢測(cè)召回率達(dá)到80%時(shí),基于Res-CapsNet閉環(huán)檢測(cè)的準(zhǔn)確率達(dá)到57.53%,對(duì)比基于VGG、AlexNet、BoVW及GIST閉環(huán)檢測(cè)的準(zhǔn)確率分別為32.99%,34.47%,13.72%,14.84%。BoVW和GIST的魯棒性較低,表明傳統(tǒng)特征容易受光照和視角變化影響,由于卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征,丟失了空間細(xì)節(jié)信息,基于AlexNet和VGG閉環(huán)檢測(cè)方法的準(zhǔn)確率有所提升,在保證較高召回率的情況下基于Res-CapsNet閉環(huán)檢測(cè)準(zhǔn)確率最高。
圖12 白天-左側(cè)與夜晚-右側(cè)數(shù)據(jù)集準(zhǔn)確率-召回率曲線Fig.12 Precision-Recall of day-left vs night-right datasets
TUM數(shù)據(jù)集:由德國慕尼黑工業(yè)大學(xué)采集于室內(nèi)環(huán)境,包含動(dòng)態(tài)和大尺度場(chǎng)景,對(duì)運(yùn)動(dòng)模糊、旋轉(zhuǎn)、結(jié)構(gòu),紋理和閉環(huán)等情況具有針對(duì)性,滿足不同測(cè)試需求。數(shù)據(jù)集由Kinect相機(jī)采集,包含RGB彩色圖和深度圖,圖像大小為640*480,及相機(jī)真實(shí)的位姿軌跡文件,參數(shù)如表2所示。
表2 TUM數(shù)據(jù)集參數(shù)Tab.2 Parameters of TUM dataset
其中:“sitting”圖像序列包含人體的較小的肢體運(yùn)動(dòng),屬于低動(dòng)態(tài)場(chǎng)景?!皐alking”圖像序列包含動(dòng)態(tài)行走的行人,屬于高動(dòng)態(tài)場(chǎng)景?!皁ffice”圖像序列包含軌跡超過18米的辦公場(chǎng)景,屬于大尺度場(chǎng)景。對(duì)圖像預(yù)處理,采用縮放函數(shù)壓縮為224*224*3的彩色圖像作為特征提取網(wǎng)絡(luò)(ResNet50)的輸入,其中224為圖像尺寸,3為RGB三通道。與目前經(jīng)典的ORB-SLAM2進(jìn)行對(duì)比,采用絕對(duì)軌跡誤差A(yù)TE評(píng)價(jià)SLAM系統(tǒng)準(zhǔn)確性。
TUM數(shù)據(jù)集提供相機(jī)真實(shí)位姿,對(duì)比估計(jì)位姿與真實(shí)位姿評(píng)價(jià)SLAM系統(tǒng)位姿估計(jì)的準(zhǔn)確性。圖13為TUM序列真實(shí)軌跡與估計(jì)軌跡對(duì)比圖,其中,黑色曲線表示真實(shí)軌跡,紅色曲線表示ORB-SLAM2估計(jì)軌跡,藍(lán)色曲線表示Res-CapsNet估計(jì)軌跡。
圖13為Res-CapsNet和ORB-SLAM2算法在低動(dòng)態(tài)、高動(dòng)態(tài)及大尺度場(chǎng)景的SLAM系統(tǒng)軌跡對(duì)比結(jié)果。如圖13(a)、圖13(b)所示,在低動(dòng)態(tài)場(chǎng)景下Res-CapsNet和經(jīng)典ORB-SLAM2方法估計(jì)結(jié)果較好,均與真實(shí)軌跡接近,表明Res-CapsNet和ORB-SLAM2方法在低動(dòng)態(tài)場(chǎng)景下,SLAM系統(tǒng)定位準(zhǔn)確性都很好。如圖13(c)、圖13(d)所示,在高動(dòng)態(tài)場(chǎng)景下ORB-SLAM2的軌跡估計(jì)誤差較大,是由于相機(jī)劇烈抖動(dòng)或快速移動(dòng)情況,ORB-SLAM2不能準(zhǔn)確區(qū)分場(chǎng)景中的靜態(tài)和動(dòng)態(tài)特征,受動(dòng)態(tài)特征影響導(dǎo)致位姿估計(jì)準(zhǔn)確性降低。Res-CapsNet估計(jì)軌跡更接近真實(shí)軌跡,準(zhǔn)確性更高。如圖13(e)、圖13(f)所示,相比ORB-SLAM2,大尺度場(chǎng)景下Res-CapsNet保持著較高的準(zhǔn)確性。綜上所述,復(fù)雜場(chǎng)景下Res-CapsNet保持較高的準(zhǔn)確性和魯棒性。
圖13 SLAM系統(tǒng)絕對(duì)軌跡誤差對(duì)比Fig.13 Absolute trajectory error comparison for SLAM
表3是ORB-SLAM2與Res-CapsNet在TUM數(shù)據(jù)集下,真實(shí)軌跡和估計(jì)軌跡之間的絕對(duì)軌跡誤差結(jié)果。低動(dòng)態(tài)場(chǎng)景下,由于ORB-SLAM2采用RANSAC方法剔除低動(dòng)態(tài)場(chǎng)景外點(diǎn)運(yùn)動(dòng)干擾,ORB-SLAM2與Res-CapsNet準(zhǔn)確率相差不大,SLAM系統(tǒng)性能沒有明顯提升;高動(dòng)態(tài)及大尺度場(chǎng)景下相比ORB-SLAM2,Res-CapsNet絕對(duì)軌跡誤差下降明顯,在fr3/walking_ xyz、fr3/walking_halfsphere、fr3/long_ office和fr2/desk序列中,性能分別提升了72.68%、60.73%、20.88%和27.91%,表明復(fù)雜場(chǎng)景下,基于Res-CapsNet的SLAM系統(tǒng)定位準(zhǔn)確性更高,魯棒性更好。
表3 絕對(duì)軌跡誤差對(duì)比Tab.3 Comparison of absolute trajectory error
表4為特征提取速度對(duì)比。Res-CapsNet的特征提取時(shí)間是256 ms/Frame,雖然高于深度學(xué)習(xí)發(fā)展中經(jīng)典的AlexNet和Faster R-CNN的計(jì)算速度,但是遠(yuǎn)低于ResNet和VGG16的特征計(jì)算速度。可見,Res-CapsNet可以滿足復(fù)雜場(chǎng)景下SLAM系統(tǒng)的實(shí)時(shí)性要求。
表4 特征提取速度對(duì)比Tab.4 Comparison of feature extraction speed
表5為網(wǎng)絡(luò)模型的內(nèi)存消耗對(duì)比,其中:經(jīng)典的AlexNet內(nèi)存消耗為183 MB,VGG內(nèi)存消耗為229 MB,F(xiàn)astRCNN-VGG內(nèi)存消耗為367 MB,由于AlexNetb將100個(gè)路標(biāo)以批量方式一次性送入GPU,內(nèi)存消耗最多,高達(dá)880 MB。Res-CapsNet內(nèi)存消耗為237 MB,可以滿足有限GPU內(nèi)存資源的嵌入式系統(tǒng),或移動(dòng)設(shè)備上的應(yīng)用需求。
表5 內(nèi)存消耗對(duì)比Tab.5 Comparison of memory consumption
綜上所述,Res-CapsNet提升了深層網(wǎng)絡(luò)對(duì)圖像特征的識(shí)別和描述能力,提高了復(fù)雜場(chǎng)景下移動(dòng)機(jī)器人定位及建圖的準(zhǔn)確性,GPU內(nèi)存消耗低,可以滿足復(fù)雜場(chǎng)景下的實(shí)時(shí)性需求。
為實(shí)現(xiàn)復(fù)雜場(chǎng)景下移動(dòng)機(jī)器人自主定位和建圖,提高閉環(huán)檢測(cè)準(zhǔn)確性和魯棒性,減少視覺里程計(jì)累積誤差,建立全局一致性環(huán)境地圖,提出了融合特征編碼和動(dòng)態(tài)路由優(yōu)化的視覺定位方法。采用ResNet提取圖像深層特征,引入GhostVLAD特征編碼實(shí)現(xiàn)圖像特征聚類,解決了網(wǎng)絡(luò)的梯度消失和網(wǎng)絡(luò)退化問題,提升了網(wǎng)絡(luò)收斂速度;通過優(yōu)化熵的最小值求解最優(yōu)截?cái)嗑嚯x,采用熵密度峰值改善膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制,提取特征之間的相對(duì)空間位置信息;結(jié)合全局特征描述符和CapsNet提取的特征向量,提升了深層網(wǎng)絡(luò)對(duì)圖像特征的識(shí)別和描述能力,保留了特征間的差異性和關(guān)聯(lián)性,提升了網(wǎng)絡(luò)整體性能。實(shí)驗(yàn)結(jié)果表明,Res-CapsNet平均準(zhǔn)確率最高,有效實(shí)現(xiàn)了光照、視角變化和動(dòng)態(tài)場(chǎng)景等復(fù)雜場(chǎng)景下移動(dòng)機(jī)器人的閉環(huán)檢測(cè),提高了移動(dòng)機(jī)器人定位和建圖的準(zhǔn)確性和魯棒性。