游通飛,孔令華,劉文玉,易定容,殷 江
視覺SLAM在動態(tài)場景下的圖像處理方法
游通飛1,2,孔令華1,2,劉文玉1,易定容3,殷 江1,2
(1. 福建工程學(xué)院 機(jī)械與汽車工程學(xué)院,福建 福州 350118;2. 福建工程學(xué)院 數(shù)字福建工業(yè)制造物聯(lián)網(wǎng)實驗室,福建 福州 350118;3. 華僑大學(xué) 機(jī)電及自動化學(xué)院,福建 廈門 361021)
SLAM一直是機(jī)器人領(lǐng)域的研究熱點,近年來取得了萬眾矚目的進(jìn)步,但很少有SLAM算法考慮到動態(tài)場景的處理。針對視覺SLAM場景中動態(tài)目標(biāo)的處理,提出一種在動態(tài)場景下的圖像處理方法。將基于深度學(xué)習(xí)的語義分割算法引入到ORB_SLAM2方法中,對輸入圖像進(jìn)行分類處理的同時剔除人身上的特征點?;谝呀?jīng)剔除特征點的圖像進(jìn)行位姿估計。在TUM數(shù)據(jù)集上與ORB_SLAM2進(jìn)行對比,在動態(tài)場景下的絕對軌跡誤差和相對路徑誤差精度提高了90%以上。在保證地圖精度的前提下,改善了地圖的適用性。
視覺SLAM;動態(tài)場景;ORB-SLAM2;特征點;剔除
SLAM(simultaneous localization and mapping),中文名為同步定位與地圖構(gòu)建,它從提出到發(fā)展已經(jīng)有三十余年[1-2]。根據(jù)使用傳感器的類型,將SLAM分為激光SLAM和視覺SLAM[3]。隨著SLAM技術(shù)的進(jìn)一步完善,該方法被廣泛應(yīng)用到機(jī)器人技術(shù)上。視覺SLAM技術(shù)因其性價比高、效果佳,成為當(dāng)下的研究熱點。目前大多數(shù)視覺SLAM的研究工作主要是集中在靜態(tài)環(huán)境中展開的,真實場景下往往都是呈現(xiàn)動態(tài)形式[4]。這些靜態(tài)場景下的算法處理起真實環(huán)境時,結(jié)果往往不盡人意。為了解決視覺SLAM在動態(tài)場景下工作的魯棒性,Kai Wang等人[5]通過識別和處理移動和潛在可移動對象,增強(qiáng)了視覺SLAM中的建圖和定位精度。具體來說,利用前一幀和當(dāng)前一幀的位姿信息來細(xì)化后一幀的分割,確定所有潛在的可移動的對象,發(fā)送到vSLAM模塊進(jìn)一步計算相應(yīng)幀的跟蹤和建圖,使分割精度得以提高。DynaSLAM[6]中,作者提出了一種檢測動態(tài)對象系統(tǒng)。使用MASK-RCNN對物體進(jìn)行實例分割,然后對具有移動性的對象進(jìn)行分割。該工作還引入了背景區(qū)域填充的方法,可以修復(fù)動態(tài)目標(biāo)遮擋的區(qū)域。在DS-SLAM[7]中作者通過檢測物體的運動一致性,判斷人是否是動態(tài)對象,并獲得語義分割后的人的標(biāo)簽。降低了基于視覺的SLAM中動態(tài)對象的影響。針對視覺SLAM場景中動態(tài)目標(biāo)的問題,本文在ORB-SLAM2處理動態(tài)環(huán)境基礎(chǔ)上,引入語義分割算法[8-9]。根據(jù)人身的ORB特征點在幀間變化的特點,判斷人是否運動。將語義分割中人的類別作為動態(tài)物體進(jìn)行特征點剔除,最終達(dá)到所建地圖不會因人的運動而受到干擾。
ORB-SLAM2[10]算法是由跟蹤線程、局部建圖線程、閉環(huán)檢測線程這3個平行線程和全局BA(bundle adjustment)優(yōu)化線程組成,如圖1所示。跟蹤線程是將相機(jī)收集到的每一幀數(shù)據(jù)進(jìn)行ORB特征提取,通過相機(jī)位姿跟蹤和局部地圖跟蹤獲得局部地圖與當(dāng)前幀的匹配。利用最小化投影誤差優(yōu)化位姿,判斷是否生成關(guān)鍵幀。局部建圖線程是對上一線程所得新關(guān)鍵幀進(jìn)行處理,剔除地圖中質(zhì)量偏低的點。通過三角化的方法來恢復(fù)出共視程度比較高的關(guān)鍵幀地圖點,檢查當(dāng)前關(guān)鍵幀與相鄰幀重復(fù)的地圖點,進(jìn)行地圖點融合。當(dāng)前幀相連的關(guān)鍵幀及地圖點做局部BA優(yōu)化,剔除多余的關(guān)鍵幀。閉環(huán)探測和閉環(huán)校正組成閉環(huán)檢測線程。其中閉環(huán)探測是通過計算當(dāng)前幀與相連關(guān)鍵幀的詞袋(bag of words,BoW)模型最低得分,判斷當(dāng)前關(guān)鍵幀是否產(chǎn)生閉環(huán)并進(jìn)行連續(xù)性檢測并計算相似變換。閉環(huán)校正主要包含閉環(huán)融合和圖優(yōu)化這兩個部分。全局BA優(yōu)化線程是對全局的位姿和地圖點進(jìn)行優(yōu)化,達(dá)到更新地圖的目的。
PSPNet(pyramid scene parsing network)[11]算法利用基于不同區(qū)域的上下文池化來實現(xiàn)全局上下文信息的能力。PSPNet算法結(jié)構(gòu)如圖2所示,指定一個輸入圖像(a),首先經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)得到特征圖feature map(b),特征圖分別進(jìn)入金字塔解析模塊和連接層。一部分特征圖經(jīng)過金字塔解析模塊處理后的特征圖進(jìn)行向上采樣,向上采樣的結(jié)果傳入到連接層與另一部分特征圖進(jìn)行結(jié)合,獲得特征表示,該特征包含局部和全局上下文信息(c)。金字塔池化模塊處理后得到的結(jié)果輸入卷積層,語義分割的預(yù)測(d)便可呈現(xiàn)。
圖1 ORB_SLAM2 系統(tǒng)線程和結(jié)構(gòu)
金字塔池模塊有4種不同的尺度的特征。其中最上層代表生成單個bin輸出的全局池。下方的其余金字塔將特征圖分成不同的子區(qū)域,形成不同位置的表示。大小各異的特征圖是由金字塔池化模塊中各層次輸出得到,若金字塔的大小為,為使全局特征不變,每一個金字塔層將使用1×1卷積層去減小上下文的維度到原來的1/。低維度的特征圖上采樣得到與原始特征圖大小相同的特征。各層次的特征進(jìn)行連接即為金字塔池化全局特征。
為解決ORB-SLAM2算法在動態(tài)場景下的漂移量大、目標(biāo)丟失等問題,本文提出將ORB-SLAM2算法和語義分割算法進(jìn)行結(jié)合。目前,基于深度學(xué)習(xí)的語義分割算法中,PSPNet算法表現(xiàn)出優(yōu)秀的分割性能,是近些年語義分割中具有高精度算法的代表,故選擇PSPNet算法作為本文的語義分割算法。系統(tǒng)流程圖如圖3所示。其中,PSPNet是在數(shù)據(jù)集PASCAL VOC2012進(jìn)行訓(xùn)練,該數(shù)據(jù)集是目前衡量語義分割的標(biāo)準(zhǔn)數(shù)據(jù)集之一[12]。
圖2 PSPNet算法結(jié)構(gòu)
圖3 剔除動態(tài)點方法
本文的方法是將原始圖像分別輸入至ORB-SLAM2算法和PSPNet算法中。在ORB-SLAM2跟蹤線程中進(jìn)行提取特征點時,經(jīng)過PSPNet網(wǎng)絡(luò)分割過的圖像傳入ORB-SLAM2中。此時,分割圖像中的人作為動態(tài)對象,ORB-SLAM2將剔除分布在人身上的特征點。剔除人身上特征點后的其余特征點繼續(xù)進(jìn)行特征匹配和位姿估計。
把人作為動態(tài)對象的特征點剔除后,ORB-SLAM2算法在動態(tài)場景下工作的能力得到了明顯提升,展示出較好的抗干擾能力。
本文使用公共數(shù)據(jù)集TUM RGB-D[13]對SLAM系統(tǒng)穩(wěn)定性進(jìn)行評估。該數(shù)據(jù)集是由德國慕尼黑工業(yè)大學(xué)提出的一個標(biāo)準(zhǔn)RGB-D數(shù)據(jù)集,目前經(jīng)常用來評估RBG-D的一個數(shù)據(jù)集。該數(shù)據(jù)集是用來評估SLAM系統(tǒng)或VO算法在具有移動物體的動態(tài)環(huán)境下性能。數(shù)據(jù)集中的圖像是使用Kinect傳感器進(jìn)行獲取,包含彩色圖像、深度圖像和地面真實軌跡的數(shù)據(jù),其中彩色圖像和深度圖像時間戳一一對應(yīng)。數(shù)據(jù)集自帶了兩種評估SLAM系統(tǒng)的程序,分別是相對位姿誤差(relative pose error,RPE)和絕對軌跡誤差(absolute trajectory error,ATE)。
在一定的時間間隔內(nèi)衡量軌跡的局部精度被稱為相對位姿誤差(RPE),用于評價系統(tǒng)的漂移量。
式中:?SE(3)是估計位姿;?SE(3)是真實位姿;代表時間或者幀數(shù);表示時間間隔。
通過比較估計和地面真實軌跡(ground truth)之間的絕對距離被稱為絕對軌跡誤差,用于評價軌跡的全局一致性。
其中?SE是估計位姿到真實位姿的轉(zhuǎn)換矩陣。
本文是在TUM數(shù)據(jù)集的rgbd_dataset_ freiburg3_walking_xyz、rgbd_dataset_freiburg3_ walking_halfsphere、rgbd_dataset_freiburg3 _walking _static、rgbd_dataset_freiburg3_sitting_static四個序列工作性能的對比。表1、2、3是ORB-SLAM2和本文方法的對比結(jié)果。walking_xyz、walking_ half- sphere、walking_static、sitting_static絕對軌跡誤差圖和相對位姿誤差圖分別如圖4、5、6、7、8、9、10、11所示。其中,左邊圖為絕對軌跡誤差,右邊圖為相對位姿誤差。
表1 絕對軌跡誤差對比(ATE)
表2 相對位姿誤差對比(RPE)
表3 相對旋轉(zhuǎn)誤差對比(RRE)
從表1~3可以觀察到,在前3個動態(tài)環(huán)境下,無論相對位姿誤差還是絕對軌跡誤差,改進(jìn)后的ORB-SLAM2系統(tǒng)的Rmse、Mean、Median和Std值比傳統(tǒng)ORB-SLAM2都提高了90%以上。而在第4個靜態(tài)環(huán)境下,最高只比ORB-SLAM2提高了27.68%。實驗數(shù)據(jù)表明:改進(jìn)后的ORB-SLAM2系統(tǒng)能較好地克服動態(tài)環(huán)境下系統(tǒng)的漂移并達(dá)到軌跡全局一致性的效果。
圖4 ORB-SLAM2在walking_xyz下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖5 本文方法在walking_xyz下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖6 ORB-SLAM2在walking_halfsphere下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖7 本文方法在walking_halfsphere下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖8 ORB-SLAM2在walking_static下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖9 本文方法在walking_static下的誤差(左:軌跡誤差;右:相對位姿誤差)
在耗時上,將ORB-SLAM2和改進(jìn)后的ORB-SLAM2分別在TUM數(shù)據(jù)集上運行并取3次結(jié)果求平均值,如表4所示。ORB-SLAM2平均耗時57.439ms,改進(jìn)后的ORB-SLAM2平均耗時79.681ms。對比改進(jìn)前后的ORB-SLAM2耗時,改進(jìn)后的耗時比傳統(tǒng)ORB-SLAM2多用了22.242ms,這是因為改進(jìn)后的ORB-SLAM2引入了語義分割,增加了系統(tǒng)的耗時。
圖10 ORB-SLAM2在sitting_static下的誤差(左:軌跡誤差;右:相對位姿誤差)
圖11 本文方法在sitting_static下的誤差(左:軌跡誤差;右:相對位姿誤差)
表4 兩種方法在TUM數(shù)據(jù)集的耗時
本文基于SLAM系統(tǒng)中ORB-SLAM2算法,針對動態(tài)場景下的目標(biāo),提出了ORB-SLAM2算法和語義分割算法進(jìn)行融合的方法。在場景中把人看作是動態(tài)對象,剔除人身上的特征點。在TUM數(shù)據(jù)集上進(jìn)行實驗驗證,結(jié)果表明:本文提出的方法在動態(tài)場景下的絕對軌跡誤差和相對路徑誤差比原ORB-SLAM2算法至少提高了90%以上的精度,同時系統(tǒng)耗時增加22.242ms,該方法在動態(tài)環(huán)境中能夠保持系統(tǒng)的魯棒性。
[1] Durrant-Whyte H, Bailey Tim. Simultaneous localization and mapping: part I[J]., 2006, 13(2): 99-10.
[2] 張金鳳, 石朝俠, 王燕清. 動態(tài)場景下基于視覺特征的SLAM方法[J]. 計算機(jī)工程, 2020, 46(10): 95-102.
ZHANG Jinfeng, SHI Chaoxia, WANG Yanqing. SLAM method based on visual features in dynamic scene[J]., 2020, 46(10): 95-102.
[3] 江國來. 共融移動服務(wù)機(jī)器人導(dǎo)航與交互關(guān)鍵技術(shù)研究[D]. 深圳: 中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院), 2019.
JIANG Guolai. Research on Key Technologies of Navigation and Interaction of Inclusive Mobile Service Robot[D]. Shenzhen: University of Chinese Academy of Sciences, 2019.
[4] HAN Shuangquan, XI Zhihong. Dynamic scene semantics SLAM based on semantic segmentation[J]., 2020, 8: 43563-43570.
[5] WANG Kai, LIN Yimin, WANG Luowei, et al. A unified framework for mutual improvement of SLAM and semantic segmen- tation[C]//(ICRA), 2019: 5224-5230.
[6] Bescos Berta, Fácil José M, Civera Javier, et al. Dyna SLAM: tracking, mapping and in painting in dynamic scenes[J]., 2018, 3(4): 4076-4083.
[7] YU Chao, LIU Zuxin, LIU Xinjun, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//s(IROS), 2018: 1168-1174.
[8] 王召東, 郭晨. 一種動態(tài)場景下語義分割優(yōu)化的ORB_SLAM2[J].大連海事大學(xué)學(xué)報, 2018, 44(4): 121-126.
WANG Zhaodong, GUO Chen. An improved ORB_SLAM2 in dynamic scene with semantic segmentation[J]., 2018, 44(4): 121-126.
[9] 王晨, 湯心溢, 高思莉. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外場景理解算法[J]. 紅外技術(shù), 2017, 39(8): 728-733.
WANG Chen, TANG Xinyi, GAO Sili. Infrared scene understanding algorithm based on deep convolutional neural network[J]., 2017, 39(8): 728-733.
[10] Mur-Artal Raul, D Tardos Juan. ORB-SLAM2: an opensource slam system for monocular, stereo, and rgb-d cameras[J]., 2017, 33(5): 1255-1262.
[11] ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[C]//, 2017: 6230-6239.
[12] 李瀚超, 蔡毅, 王嶺雪. 全局特征提取的全卷積網(wǎng)絡(luò)圖像語義分割算法[J]. 紅外技術(shù), 2019, 41(7): 595-599, 615.
LI Hanchao, CAI Yi, WANG Lingxue. Image semantic segmentation based on fully convoluted network with global feature extraction[J]., 2019, 41(7): 595-599.
[13] Sturm Jürgen, Engelhard Nikolas, Endres Felix, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//.., 2012: 573-580.
[12] 吳繼平, 張桂玲, 楊楚明. 工業(yè)檢測型紅外熱像儀: GB/T19870 —2018[S]. 全國工業(yè)過程測量控制和自動化標(biāo)準(zhǔn)化技術(shù)委員會[2018-05-14].
WU Jiping, ZHANG Guiling, YANG Chuming. Industrial inspecting thermal imagers: GB/T19870—2018[S]. National Industrial Process Measurement Control and Automation Standardization Technical Committee [2018-05-14].
[13] 白廷柱, 金偉其. 光電成像原理與技術(shù)[M]. 北京: 北京理工大學(xué)出版社, 2006.
BAI Tingzhu, JIN Weiqi.[M]. Beijing: Beijing University of Technology Press, 2006.
[14] Usamentiaga R, Venegas P, Guerediaga J, et al. Infrared thermography for temperature measurement and non-destructive testing[J]., 2014, 14(7): 12305-12348.
[15] 武漢凱爾文光電技術(shù)有限公司產(chǎn)品中心. JQ-D70Z 熱成像人體測溫黑體[EB/OL]. [2021-08-19]. https://http://www.whkelvin.com/ pros _ show. php?id=84.
Product Center of Wuhan Kelvin Photoelectric Technology Co. Ltd. JQ- D70Z blackbody of screening thermograph[EB/OL]. [2021-08-19]. https: // http://www.whkelvin.com/pros_show.php?id=84.
[16] Pascoe D, Ring E, Mercer J, et al. International standards for pandemic screening using infrared thermography[C]/,2010:,,, 2010, 7626: 76261Z.
Image Processing Method for Visual Simultaneous Localization and Mapping in Dynamic Scene
YOU Tongfei1,2,KONG Linghua1,2,LIU Wenyu1,YI Dingrong3,YIN Jiang1,2
(1.,,350118,; 2.,350118,;3.,,361021,)
Simultaneous localization and mapping(SLAM) has always been a research hotspot in the robotics field. In recent years, remarkable progress has been made in SLAM research, but few SLAM algorithms have considered the processing of dynamic scenes. Therefore, in this study, an image processing method for dynamic target processing in a visual SLAM scene is proposed. The semantic segmentation algorithm based on deep learning was introduced into the ORB_SLAM2 method and input image classification processing was accomplished while removing the feature points on the body. Pose estimation was performed based on images with eliminated feature points. Compared to ORB_SLAM2 on the TUM dataset, the absolute trajectory error and relative path error accuracy were improved by more than 90% in the dynamic scene. To ensure the accuracy of the generated map, the applicability of the map was improved.
visual SLAM, dynamic scene, ORB- LAM2, feature points, remove
TP391
A
1001-8891(2021)10-0960-08
2020-06-06;
2020-07-28.
游通飛(1994-),男,福建福州人,碩士研究生,研究方向:視覺SLAM和語義分割。
孔令華(1963-),男,加拿大人,教授,博士,碩士生導(dǎo)師,研究方向:三維視覺和多光譜檢測。E-mail:15392030898@163.com。
國家自然科學(xué)基金資助項目(51775200)。