龔云 徐昊天 呂鳴雨
摘 要:針對(duì)視覺(jué)SLAM系統(tǒng)在室內(nèi)場(chǎng)景下易受行人干擾,導(dǎo)致定位精度和穩(wěn)定性下降的問(wèn)題,提出了一種室內(nèi)剔除行人特征點(diǎn)的視覺(jué)SLAM算法,該算法在傳統(tǒng)的ORB_SLAM2算法中集成了一個(gè)新的動(dòng)態(tài)目標(biāo)檢測(cè)線程,此線程使用YOLOV5s目標(biāo)檢測(cè)算法識(shí)別并剔除行人動(dòng)態(tài)信息。首先,系統(tǒng)對(duì)YOLOV5s引入坐標(biāo)注意力機(jī)制,提取圖像中與目標(biāo)相關(guān)的特征;其次,將彩色圖像同時(shí)輸入到ORB_SLAM2算法和動(dòng)態(tài)目標(biāo)檢測(cè)線程中,ORB_SLAM2算法實(shí)時(shí)估計(jì)相機(jī)位姿,動(dòng)態(tài)目標(biāo)檢測(cè)線程識(shí)別和剔除行人動(dòng)態(tài)目標(biāo),從而減少其對(duì)ORB_SLAM2算法的干擾;最后,將2個(gè)線程的輸出融合至靜態(tài)地圖構(gòu)建線程,生成無(wú)行人干擾的地圖構(gòu)建結(jié)果。針對(duì)文中算法,在不同數(shù)據(jù)集下開(kāi)展試驗(yàn)驗(yàn)證。結(jié)果表明:相對(duì)于ORB_SLAM2算法,改進(jìn)算法在TUM的高動(dòng)態(tài)數(shù)據(jù)集中絕對(duì)軌跡精度提高了96.51%,相對(duì)軌跡精度提高了96.57%,相對(duì)軌跡誤差的旋轉(zhuǎn)精度提高了96.47%。室內(nèi)剔除行人特征點(diǎn)的視覺(jué)SLAM算法充分過(guò)濾了行人特征點(diǎn),提高了SLAM系統(tǒng)的精度,為室內(nèi)導(dǎo)航、建圖等領(lǐng)域提供了一種新的解決方案。
關(guān)鍵詞:SLAM算法;動(dòng)態(tài)場(chǎng)景;注意力機(jī)制;動(dòng)態(tài)目標(biāo)檢測(cè);目標(biāo)剔除
中圖分類(lèi)號(hào):TP 391.41;TP 242
文獻(xiàn)標(biāo)志碼:
A
文章編號(hào):1672-9315(2023)06-1195
-12
DOI:10.13800/j.cnki.xakjdxxb.2023.0618開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Visual SLAM algorithm for pedestrian feature points exclusion indoors
GONG Yun,XU Haotian,LYU Mingyu
(College of Geomatics,Xian University of Science and Technology,Xian 710054,China)
Abstract:To address the issue of visual SLAM systems being susceptible to interference from pedestrians in indoor scenarios,resulting in decreased localization accuracy and stability,
this paper proposed a visual SLAM algorithm for removing pedestrian feature points indoors.This algorithm integrates a new dynamic object detection thread into the traditional ORB_SLAM2 algorithm,utilizing the YOLOv5s object detection algorithm to identify and remove dynamic objects such as pedestrians.Firstly,a coordinate attention mechanism was introduced to effectively extract image features relevant to the target.Secondly,both the color image and the dynamic object detection thread were simultaneously input into the ORB_SLAM2 algorithm.The ORB_SLAM2 algorithm is responsible for real-time camera pose estimation,while the dynamic object detection thread identifying and removing dynamic objects, thereby reducing its? interference with the ORB_SLAM2 algorithm.
Finally,the outputs of these two threads were fused into a static map construction thread to generate a map construction result free from pedestrian interference.Experimental results on various datasets indicate that,compared with the original ORB_SLAM2 algorithm, the absolute trajectory accuracy of the improved algorithm in the high dynamic data set of TUM is increased by 96.51%,the relative trajectory accuracy is increased
by 96.57%,and the rotation accuracy of the relative trajectory error is increased by 96.47%.The visual SLAM algorithm
that eliminates pedestrian feature points indoors fully filters the pedestrian feature points,improves the accuracy of the SLAM system,and provides a new solution for indoor navigation,mapping and other fields.
Key words:SLAM algorithm;dynamic scenes;attention;dynamic object detection;object-removal
0 引 言近年來(lái),隨著智能化和自動(dòng)化的不斷推進(jìn),同時(shí)定位與建圖(Simultaneous Localization and Mapping,SLAM)在室內(nèi)導(dǎo)航、機(jī)器人控制等領(lǐng)域中得到了廣泛的應(yīng)用,解決了機(jī)器人在未知環(huán)境中“定位”與“建圖”這2個(gè)關(guān)鍵問(wèn)題[1]。根據(jù)機(jī)器人采集信息時(shí)使用的傳感器不同,可將SLAM分為激光SLAM和視覺(jué)SLAM(Visual SLAM,VSLAM)。相對(duì)于激光SLAM,視覺(jué)SLAM使用了造價(jià)成本較低的相機(jī)并且其體型較小,容易與常規(guī)傳感器互相搭配獲取豐富的圖像信息。視覺(jué)SLAM在大多數(shù)靜態(tài)環(huán)境假設(shè)下,都有著不錯(cuò)的表現(xiàn),然而在室內(nèi)環(huán)境中,行人此類(lèi)動(dòng)態(tài)信息經(jīng)常出現(xiàn)在機(jī)器人視野范圍內(nèi),會(huì)對(duì)SLAM系統(tǒng)的特征點(diǎn)匹配和追蹤造成干擾,并且會(huì)導(dǎo)致后期建圖出現(xiàn)“重影”等問(wèn)題,影響系統(tǒng)的精度和穩(wěn)定性[2]。因此,為了讓移動(dòng)機(jī)器人在室內(nèi)場(chǎng)景下更好地構(gòu)建環(huán)境地圖,如何在系統(tǒng)前端有效剔除行人此類(lèi)動(dòng)態(tài)特征點(diǎn),成為了SLAM研究的熱點(diǎn)議題[3]。目前,針對(duì)室內(nèi)剔除行人特征點(diǎn)的視覺(jué)SLAM算法已經(jīng)有一些研究,如通過(guò)幾何約束檢測(cè)物體的運(yùn)動(dòng)狀態(tài),利用極線約束估算出圖像像素,沿著極線的界限以此來(lái)檢測(cè)環(huán)境中運(yùn)動(dòng)的物體[4]?;赥SDF (Truncated Signed Distance Function)映射方法,通過(guò)在TSDF中的顏色信息估計(jì)傳感器位姿,再利用體素哈希表示方法結(jié)合配準(zhǔn)殘差,空閑空間表示的算法過(guò)濾行人的特征點(diǎn)信息[5]。HE提出基于輪廓的行人分割算法,嘗試通過(guò)提取行人的邊界輪廓來(lái)剔除行人特征點(diǎn)[6]。在復(fù)雜的室內(nèi)環(huán)境中,由于光照變化和背景干擾等因素,輪廓提取的效果可能并不理想,導(dǎo)致行人特征點(diǎn)的準(zhǔn)確剔除存在困難;BEWLEY等提出的基于運(yùn)動(dòng)估計(jì)的行人追蹤算法通過(guò)跟蹤行人在連續(xù)幀中的運(yùn)動(dòng)來(lái)剔除其特征點(diǎn)[7]。由于室內(nèi)環(huán)境中人流量大且行人運(yùn)動(dòng)頻繁,傳統(tǒng)的行人追蹤算法往往容易在復(fù)雜場(chǎng)景中丟失目標(biāo)。近年來(lái)SLAM在結(jié)合深度學(xué)習(xí)方面已經(jīng)取得了顯著的研究進(jìn)展,BESCOS等提出的Dyna-SLAM,主要通過(guò)語(yǔ)義分割和MASK-RCNN進(jìn)行動(dòng)態(tài)信息分割,實(shí)現(xiàn)了對(duì)動(dòng)態(tài)特征點(diǎn)的精準(zhǔn)過(guò)濾[8];高興波等提到,DS-SLAM,Dyna-SLAM是近年來(lái)針對(duì)剔除行人特征點(diǎn)的有效方法[9],其中DS-SLAM將SegNet通過(guò)語(yǔ)義分割網(wǎng)絡(luò)與動(dòng)態(tài)檢測(cè)方法結(jié)合,減少了動(dòng)態(tài)目標(biāo)對(duì)系統(tǒng)的影響,2種方法耗時(shí)較為嚴(yán)重[10];KEHL等提出了Detect-SLAM系統(tǒng),利用SSD目標(biāo)檢測(cè)網(wǎng)絡(luò)通過(guò)訓(xùn)練好模型對(duì)動(dòng)態(tài)目標(biāo)進(jìn)行檢測(cè),在視覺(jué)里程計(jì)中實(shí)現(xiàn)了對(duì)動(dòng)態(tài)特征點(diǎn)的剔除[11];ZHANG等通過(guò)研究RGB-SLAM,也利用深度學(xué)習(xí)對(duì)動(dòng)態(tài)物體進(jìn)行精準(zhǔn)分割,其分割精度較高,與DS-SLAM,Dyna-SLAM類(lèi)似,同樣存在實(shí)時(shí)性差等問(wèn)題[12];WANG等提出了動(dòng)態(tài)場(chǎng)景下的語(yǔ)義SLAM系統(tǒng)利用YOLOV3目標(biāo)檢測(cè)算法完成了系統(tǒng)對(duì)動(dòng)態(tài)信息的識(shí)別與過(guò)濾[13]。為了剔除行人對(duì)SLAM系統(tǒng)的干擾,探討了一種基于室內(nèi)剔除行人特征點(diǎn)的視覺(jué)SLAM算法。該算法結(jié)合了目標(biāo)檢測(cè)、特征點(diǎn)匹配和追蹤等技術(shù),能夠準(zhǔn)確有效地剔除行人特征點(diǎn),提高SLAM系統(tǒng)的精度和穩(wěn)定性。具體研究?jī)?nèi)容包括:
1) YOLOV5s目標(biāo)檢測(cè)算法的改進(jìn),引入坐標(biāo)注意力機(jī)制(Coordinate-Attention,CA)來(lái)提高算法檢測(cè)行人的精度;
2) 利用改進(jìn)后的目標(biāo)檢測(cè)算法對(duì)行人的運(yùn)動(dòng)軌跡進(jìn)行追蹤與識(shí)別;
3)? 對(duì)SLAM系統(tǒng)中的特征點(diǎn)進(jìn)行篩選,保留與定位相關(guān)的特征點(diǎn),排除受行人運(yùn)動(dòng)干擾的特征點(diǎn)。利用過(guò)濾動(dòng)態(tài)信息后得到的關(guān)鍵幀構(gòu)建靜態(tài)場(chǎng)景下的稠密點(diǎn)云地圖。
1 SLAM算法特征點(diǎn)提取與匹配
1.1 ORB特征點(diǎn)算法當(dāng)視覺(jué)感應(yīng)器把獲取圖像傳遞到視覺(jué)里程計(jì)系統(tǒng)時(shí),要通過(guò)傳入圖像判斷相機(jī)動(dòng)作,但因?yàn)閳D像本身是由亮度和顏色構(gòu)成的矩陣,直接由矩陣角度來(lái)進(jìn)行動(dòng)作評(píng)估可能會(huì)存在問(wèn)題。常見(jiàn)的辦法是從圖像中選取幾個(gè)有代表性的特征點(diǎn),并通過(guò)這些點(diǎn)來(lái)預(yù)測(cè)所需要的位姿信號(hào)。特征點(diǎn)獲取與匹配則是視覺(jué)SLAM系統(tǒng)中十分關(guān)鍵的環(huán)節(jié)。ORB(Oriented FAST and Rotated BRIEF)算法是一種較為輕量級(jí)的特征點(diǎn)提取算法,適用于實(shí)時(shí)性要求較高的SLAM系統(tǒng)[14]。對(duì)于ORB特征點(diǎn)算法主要分為3個(gè)步驟:FAST特征點(diǎn)檢測(cè)、BRIEF特征描述子生成和方向分配。其主要是對(duì)FAST方法的提升與改進(jìn),由于傳統(tǒng)的FAST角點(diǎn)檢測(cè)算法在方向性方面存在一些不可控性,所以O(shè)RB算法添加了尺度與旋轉(zhuǎn)描述,以此來(lái)增加特征點(diǎn)的旋轉(zhuǎn)不變性。
1.2 圖像金字塔為了實(shí)現(xiàn)增加特征點(diǎn)的旋轉(zhuǎn)不變性,ORB算法使用圖像金字塔構(gòu)建多個(gè)不同尺度的圖像。金字塔通過(guò)將圖像按照一定的倍率進(jìn)行縮放,構(gòu)建出一個(gè)復(fù)雜的圖像結(jié)構(gòu),其中每一層都包含著不同的分辨率,使得整個(gè)圖像結(jié)構(gòu)更加清晰、完整。ORB算法可以有效地從多個(gè)尺寸的圖像中提取出有用的特征,保持圖像的尺寸穩(wěn)定性。在特征匹配算法中,可以匹配不同層級(jí)上提取的特征點(diǎn),從而實(shí)現(xiàn)對(duì)不同尺度圖像的特征匹配。這使得SLAM系統(tǒng)能夠穩(wěn)健地估計(jì)相機(jī)的運(yùn)動(dòng)并構(gòu)建準(zhǔn)確的環(huán)境模型,
適用于不同的尺度和視角。圖像金字塔如圖1所示。
2 室內(nèi)動(dòng)態(tài)場(chǎng)景下的SLAM算法
2.1 YOLOV5s目標(biāo)檢測(cè)選用YOLOV5s目標(biāo)檢測(cè)算法,過(guò)濾行人此類(lèi)動(dòng)態(tài)信息,該算法與傳統(tǒng)的兩階段目標(biāo)檢測(cè)算法Faster R-CNN不同,YOLOV5s采用了單階段檢測(cè)方法,它無(wú)需候選框生成和篩選階段完成目標(biāo)檢測(cè)。首先使用了一種名為CSPDarknet53的特征提取網(wǎng)絡(luò),用于從輸入圖像中提取高質(zhì)量的特征[15];其次YOLOV5s引入了網(wǎng)絡(luò)分支,用于生成不同尺度的特征圖。這些分支包括不同的卷積層,用于檢測(cè)不同大小的目標(biāo);緊接著該算法輸出層包括多個(gè)不同尺度的預(yù)測(cè)頭部,每個(gè)頭部負(fù)責(zé)不同尺度的目標(biāo)檢測(cè),每個(gè)預(yù)測(cè)頭部包括類(lèi)別預(yù)測(cè)、邊界框預(yù)測(cè)和置信度預(yù)測(cè)。類(lèi)別預(yù)測(cè)使用Softmax函數(shù)[16]輸出目標(biāo)的類(lèi)別概率,邊界框預(yù)測(cè)用于確定目標(biāo)的位置,而置信度預(yù)測(cè)用于篩選檢測(cè)結(jié)果;最后為了減少重疊的邊界框,YOLOV5s使用非極大值抑制(Non-Maximum Suppression,NMS)算法來(lái)篩選最終的檢測(cè)結(jié)果[17]。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
2.2 改進(jìn)后的YOLOV5s目標(biāo)檢測(cè)算法YOLOV5s算法無(wú)論是在速度、精度還是擴(kuò)展性上都在實(shí)際項(xiàng)目中有著不錯(cuò)的表現(xiàn),但在有些復(fù)???????? 雜場(chǎng)景移動(dòng)網(wǎng)絡(luò)中還需對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)、模塊添加等方面加以改進(jìn),從而可以提升其性能。
對(duì)此將對(duì)算法添加一種新的注意力機(jī)制“坐標(biāo)注意力機(jī)制”[18],也被稱(chēng)為CA,是一種輕量級(jí)的注意力機(jī)制,它主要關(guān)注通道之間的關(guān)系,包括一些簡(jiǎn)單的線性變換和非線性激活函數(shù),而不是像“空間注意力機(jī)制”[19](Spatial Attention,SA)一樣在空間維度上進(jìn)行全局操作,大大降低了計(jì)算成本,相對(duì)于其他更復(fù)雜的注意力機(jī)制其可以有效地捕捉通道之間的相關(guān)性,有助于在卷積層之間更好地整合特征信息,使得YOLOV5s算法在資源受限的情況下仍能取得良好的性能。CA注意力機(jī)制將復(fù)雜的信息結(jié)構(gòu)分解成2個(gè)獨(dú)立的一維特征,從而實(shí)現(xiàn)在不同空間方向上的聚類(lèi)和聚集。該機(jī)制旨在從一個(gè)角度捕捉遠(yuǎn)程相互依存的關(guān)系,同時(shí)又能夠準(zhǔn)確地記錄雙方的位置信息。通過(guò)將多個(gè)通道的注意力信息進(jìn)行分析,可以構(gòu)建一個(gè)一維的注意力圖,該圖可以捕捉到多個(gè)方向的信息,包括空間坐標(biāo)信息,并且可以實(shí)現(xiàn)對(duì)位置的敏感性,這樣可以大大提升模型在定位和識(shí)別任務(wù)中的準(zhǔn)確性[20]。CA模塊結(jié)構(gòu)如圖4所示,涉及以下2個(gè)步驟:Coordinate信息嵌入和Coordinate注意力機(jī)制輸出。
首先,通過(guò)一維平均池化,將2個(gè)獨(dú)立的方向感知特征圖分別壓縮,以便從中提取出特定方向的信息;
接著,將這些特征圖編碼成注意力圖,并將相應(yīng)的位置信息輸入[21]。為了進(jìn)一步提高位置信息的精確性,對(duì)全局池化進(jìn)行分解操作,此步驟可以確保在編碼過(guò)程中保留更多的位置信息,如下式
由表1可知改進(jìn)后的目標(biāo)檢測(cè)算法在檢測(cè)精度上有一定的提升,mAP增加了11.3%,驗(yàn)證了改進(jìn)后算法的可行性。
2.3 動(dòng)態(tài)SLAM系統(tǒng)算法框架算法框架的各線程主要工作內(nèi)容如下:
1)跟蹤線程:改進(jìn)后彩色圖像會(huì)被系統(tǒng)分別傳入ORB_SLAM2算法與改進(jìn)后的目標(biāo)檢測(cè)算法YOLOV5s中,經(jīng)過(guò)YOLOV5s對(duì)動(dòng)態(tài)特征點(diǎn)檢測(cè)并剔除后的數(shù)據(jù)傳回至ORB_SLAM2中,對(duì)目標(biāo)區(qū)域進(jìn)行后續(xù)的位姿估計(jì)與優(yōu)化;
2)目標(biāo)檢測(cè)線程:為了識(shí)別與剔除動(dòng)態(tài)信息而在跟蹤線程中新添加的線程,通過(guò)改進(jìn)后的目標(biāo)檢測(cè)算法,為后續(xù)跟蹤線程與地圖的構(gòu)建過(guò)濾其中的動(dòng)態(tài)信息[23];3)靜態(tài)地圖構(gòu)建線程:通過(guò)利用動(dòng)態(tài)信息過(guò)濾后的地圖關(guān)鍵幀,生成靜態(tài)點(diǎn)云地圖或靜態(tài)八叉樹(shù)地圖。算法的系統(tǒng)框架圖5所示。
3 試驗(yàn)及其結(jié)果分析
3.1 所用數(shù)據(jù)集介紹選用TUM數(shù)據(jù)集來(lái)做對(duì)比試驗(yàn)[24]。每個(gè)原始數(shù)據(jù)中的rgb文件包含三通道格式為png的彩色圖像,且depth文件下包含16位單通道png圖像,groundturth.txt是獲取到的真實(shí)軌跡數(shù)據(jù);rgb.txt為彩圖的時(shí)間戳以及其名稱(chēng);depth.txt則是深度圖的時(shí)間戳以及名稱(chēng)。文中對(duì)試驗(yàn)類(lèi)別進(jìn)行分類(lèi)一種是前綴為“walking”開(kāi)頭的序列,代表了高動(dòng)態(tài)數(shù)據(jù)集,在該數(shù)據(jù)集中人物運(yùn)動(dòng)幅度較大且豐富;一種是前綴為“sitting”的低動(dòng)態(tài)數(shù)據(jù)集序列,其中人物運(yùn)動(dòng)幅度較小,大部分以坐姿為主,只有小范圍活動(dòng)。為了研究該算法的實(shí)用性,將在研究數(shù)據(jù)集的基礎(chǔ)上針對(duì)實(shí)際環(huán)境,對(duì)其進(jìn)行行人特征點(diǎn)過(guò)濾處理試驗(yàn),試驗(yàn)場(chǎng)所設(shè)置在西安科技大學(xué)臨潼校區(qū)的測(cè)繪樓,該場(chǎng)所相對(duì)寬敞,場(chǎng)景紋理較弱,特征物比較明顯,
并且存在處于運(yùn)動(dòng)狀態(tài)下的行人,為后續(xù)試驗(yàn)提供了較為真實(shí)的試驗(yàn)環(huán)境,真實(shí)環(huán)境如圖6所示。
3.2 試驗(yàn)結(jié)果及分析
3.2.1 基于TUM數(shù)據(jù)集下的效果對(duì)比試驗(yàn)利用改進(jìn)后的目標(biāo)檢測(cè)算法YOLOV5s對(duì)動(dòng)態(tài)信息進(jìn)行過(guò)濾處理,由于該算法會(huì)對(duì)所有目標(biāo)進(jìn)行識(shí)別標(biāo)識(shí),故必須讓此算法通過(guò)對(duì)所需識(shí)別的數(shù)據(jù)進(jìn)行數(shù)據(jù)集訓(xùn)練,在訓(xùn)練過(guò)程中改進(jìn)加入CA注意力機(jī)制,如圖7所示,從而達(dá)到對(duì)TUM數(shù)據(jù)集場(chǎng)景中動(dòng)態(tài)信息的精準(zhǔn)過(guò)濾,為SLAM前端提供語(yǔ)義信息。
當(dāng)不進(jìn)行動(dòng)態(tài)信息過(guò)濾,經(jīng)過(guò)相機(jī)采集特征提取得到結(jié)果后沒(méi)有對(duì)行人特征點(diǎn)進(jìn)行區(qū)分,使得特征點(diǎn)主要集中在人身上,如圖8(a)所示,而且人一直有可能處于運(yùn)動(dòng)的狀態(tài),如果使用這類(lèi)特征點(diǎn)進(jìn)行后續(xù)位姿估計(jì),將會(huì)直接導(dǎo)致結(jié)果精度大大降低,影響整個(gè)系統(tǒng)的可用性。所以根據(jù)目標(biāo)檢測(cè)算法識(shí)別完成后的結(jié)果,對(duì)其在ORB_SLAM2[25]系統(tǒng)中進(jìn)行特征點(diǎn)提取,與傳統(tǒng)算法不同的是,文中算法結(jié)果將剔除行人身上的特征點(diǎn)如圖8(b)所示,降低其對(duì)整個(gè)SLAM系統(tǒng)的影響。
3.2.2 基于錄制數(shù)據(jù)下的效果對(duì)比試驗(yàn)對(duì)于實(shí)際環(huán)境,在ORB-SLAM2系統(tǒng)前端中同樣增加了目標(biāo)檢測(cè)模塊,對(duì)來(lái)往行人進(jìn)行識(shí)別,在深度相機(jī)獲取到上述數(shù)據(jù)后,進(jìn)行2個(gè)不同的步驟,一個(gè)分支對(duì)獲取的RGB圖像進(jìn)行特征提取,另一個(gè)分支通過(guò)預(yù)先訓(xùn)練好的室內(nèi)行人目標(biāo)檢測(cè)模型對(duì)每個(gè)特征點(diǎn)所在位置的局部圖像進(jìn)行檢測(cè),從而得到對(duì)應(yīng)特征點(diǎn)所屬的物體類(lèi)別及其置信度。在獲取了特征點(diǎn)的類(lèi)別信息和置信度之后,將進(jìn)一步對(duì)提取出來(lái)的特征點(diǎn)進(jìn)行分類(lèi),將行人此類(lèi)動(dòng)態(tài)信息的特征點(diǎn)從靜態(tài)物體部分的特征點(diǎn)中剔除,最終生成無(wú)行人干擾的稠密點(diǎn)云地圖。系統(tǒng)框架如圖9所示。
圖10為真實(shí)室內(nèi)環(huán)境下對(duì)行人進(jìn)行目標(biāo)檢測(cè)試驗(yàn),圖10(a)為添加CA通道注意力機(jī)制前,模擬多人情況下,人物進(jìn)行往返直線運(yùn)動(dòng),運(yùn)動(dòng)過(guò)程盡量平穩(wěn)。識(shí)別結(jié)果包含了除行人以外的物體。圖10(b)則是經(jīng)過(guò)改進(jìn)后的YOLOV5s算法經(jīng)過(guò)訓(xùn)練后對(duì)行人進(jìn)行目標(biāo)檢測(cè)后的結(jié)果,結(jié)果既可以驗(yàn)證改進(jìn)后目標(biāo)檢測(cè)算法的準(zhǔn)確性,也可以為下文動(dòng)態(tài)信息更準(zhǔn)確的剔除提供有利條件。
經(jīng)過(guò)上述目標(biāo)檢測(cè)后將對(duì)室內(nèi)錄制視頻中的動(dòng)態(tài)信息行人特征點(diǎn)進(jìn)行剔除ORB_SLAM2原系統(tǒng)無(wú)法識(shí)別動(dòng)態(tài)區(qū)域,可以發(fā)現(xiàn)在行人身上提取了大量的特征點(diǎn),這種情況將會(huì)影響SLAM的定位精度;相對(duì)于圖11(a)和圖11(b)利用上文提到的改進(jìn)后的YOLOV5s目標(biāo)檢測(cè)算法識(shí)別動(dòng)態(tài)信息區(qū)域,并在SLAM系統(tǒng)中標(biāo)記動(dòng)態(tài)區(qū)域,剔除了行人此類(lèi)動(dòng)態(tài)信息的特征點(diǎn)。而圖11(c)和圖11(d)則為原始ORB_SLAM2系統(tǒng)算法與所提算法系統(tǒng)運(yùn)行時(shí)的關(guān)鍵幀,可以發(fā)現(xiàn)左側(cè)原ORB_SLAM2系統(tǒng)關(guān)鍵幀在同一條件下關(guān)鍵幀變化較為明顯,而文中算法系統(tǒng)下則趨于直線運(yùn)動(dòng)。
3.2.3 基于TUM數(shù)據(jù)集下的精度對(duì)比為了驗(yàn)證改進(jìn)算法后的可行性,以及直觀看出改進(jìn)后所提升的性能,將針對(duì)TUM數(shù)據(jù)集,對(duì)改進(jìn)前后算法精度指標(biāo)進(jìn)行對(duì)比,計(jì)算在不同動(dòng)態(tài)數(shù)
據(jù)集下的絕對(duì)軌跡誤差(ATE)與相對(duì)軌跡誤差
(15)表2~5分別為絕對(duì)軌跡誤差、相對(duì)軌跡誤差和相對(duì)軌跡誤差的旋轉(zhuǎn)誤差對(duì)比結(jié)果,并且對(duì)比了DS-SLAM、Dyna-SLAM和文中算法在動(dòng)態(tài)環(huán)境下SLAM的均方根誤差。
由表2~4可知,ORB_SLAM2系統(tǒng)在行人處于頻繁運(yùn)動(dòng)狀態(tài)數(shù)據(jù)集freiburg3_walking組中,絕對(duì)軌跡誤差與相對(duì)軌跡誤差數(shù)值都偏高,且精度較低,而在運(yùn)動(dòng)頻率較低的數(shù)據(jù)集freiburg3_sitting系列下,兩個(gè)誤差數(shù)值相差并不大,因?yàn)槠渥陨砟苓^(guò)濾少許動(dòng)態(tài)特征點(diǎn)。由此表明原始ORB_SLAM2系統(tǒng)并不適用于高動(dòng)態(tài)頻率的場(chǎng)景,故需要結(jié)合改進(jìn)后YOLOV5s目標(biāo)檢測(cè)技術(shù)對(duì)其中的高動(dòng)態(tài)特征點(diǎn)進(jìn)行識(shí)別并提出,結(jié)合表2~5可知,文中算法ATE精度提高了96.51%;RPE精度提升了96.57%;相對(duì)旋轉(zhuǎn)誤差精度提升96.47%,有效降低了動(dòng)態(tài)信息對(duì)系統(tǒng)的影響。動(dòng)態(tài)環(huán)境下的SLAM算法RMSE對(duì)比中,文中算法的RMSE值小于DS-SLAM,但稍大于Dyna-SLAM,這是由于Dyna-SLAM系統(tǒng)降低了實(shí)時(shí)性而提高了精度[30]。在探討SLAM系統(tǒng)時(shí)研究速度也是重要的對(duì)比指標(biāo),表6對(duì)比了ORB_SLAM2算法與文中算法,Dyna-SLAM算法以及DS-SLAM算法的運(yùn)行速度,由于文中算法添加了目標(biāo)檢測(cè)線程,所以運(yùn)行時(shí)間略大于ORB_SLAM,但與DS-SLAM算法、Dyna-SLAM算法相比,具有明顯優(yōu)勢(shì)。
圖12(a)~(d)直觀地表現(xiàn)出了原始ORB_SLAM2系統(tǒng)與文中算法在各類(lèi)數(shù)據(jù)集下的ATE(上)以及RPE(下)可視化結(jié)果。
圖12(a)~(d)分別為原始ORB_SLAM2(左)系統(tǒng)與文中算法(右)的運(yùn)動(dòng)軌跡與軌跡誤差結(jié)果。在ATE中藍(lán)色虛線為2種算法針對(duì)自身所估算出的相機(jī)位姿軌跡,而灰色實(shí)線是將真實(shí)軌跡與估算的軌跡對(duì)應(yīng)連接,實(shí)線越短,則表示所對(duì)應(yīng)2種誤差值誤差越小。而RPE圖中表示2種算法的誤差波動(dòng)范圍,波動(dòng)越密集表明誤差范圍越小。
從圖12可以看到,在ORB_SLAM2系統(tǒng)處于高動(dòng)態(tài)數(shù)據(jù)集時(shí),系統(tǒng)有著比較大的誤差,是因?yàn)榄h(huán)境中人物大幅度的運(yùn)動(dòng)導(dǎo)致了該系統(tǒng)識(shí)別了動(dòng)態(tài)信息的特征點(diǎn),并且無(wú)法處理此類(lèi)特征點(diǎn),使得大量精度產(chǎn)生了偏差,這表明原始ORB_SLAM2系統(tǒng)并不適合此種場(chǎng)景。而將該系統(tǒng)與改進(jìn)后的目標(biāo)檢測(cè)算法相結(jié)合后,無(wú)論是在運(yùn)動(dòng)軌跡還是在軌跡誤差上都有一個(gè)比較良好的結(jié)果。在目標(biāo)檢測(cè)算法的支持下,系統(tǒng)精準(zhǔn)地剔除了環(huán)境中
動(dòng)態(tài)信息特征點(diǎn),并消除了運(yùn)動(dòng)物體對(duì)相機(jī)定位的影響。
3.2.4 建圖結(jié)果對(duì)文中算法與ORB_SLAM算法針對(duì)TUM數(shù)據(jù)集以及錄制數(shù)據(jù)進(jìn)行稠密點(diǎn)云建圖試驗(yàn)。在ORB_SLAM算法中由于行人的干擾導(dǎo)致了建圖過(guò)程出現(xiàn)“重影”,相機(jī)位姿估計(jì)出現(xiàn)誤差,從而導(dǎo)致后期地圖無(wú)法應(yīng)用。結(jié)果如圖13所示。
相比于ORB_SLAM2,文中算法利用目標(biāo)檢測(cè)線程,過(guò)濾了行人此類(lèi)動(dòng)態(tài)信息,在視覺(jué)里程計(jì)中剔除了其特征點(diǎn),消除了行人對(duì)位姿估計(jì)的影響,利用靜態(tài)地圖構(gòu)建線程,通過(guò)關(guān)鍵幀構(gòu)建靜態(tài)稠密點(diǎn)云地圖,如圖14所示。
4 結(jié) 論
1)通過(guò)對(duì)消融試驗(yàn)的比較,添加CA注意力機(jī)制的目標(biāo)檢測(cè)算法,在精度上提升了11.3%,也提高了對(duì)行人識(shí)別的準(zhǔn)確率。
2)通過(guò)添加改進(jìn)后YOLOV5s的動(dòng)態(tài)目標(biāo)檢測(cè)線程,識(shí)別行人動(dòng)態(tài)因素,并在跟蹤線程的視覺(jué)里程計(jì)中將其特征點(diǎn)過(guò)濾。之后得到關(guān)鍵幀,并在靜態(tài)地圖構(gòu)建線程中完成無(wú)“重影”的靜態(tài)稠密點(diǎn)云地圖。
3)通過(guò)對(duì)TUM數(shù)據(jù)集中的算法精度進(jìn)行比較測(cè)試,所提算法的絕對(duì)軌跡精度提高了96.51%,相對(duì)軌跡精度提高了96.57%,相對(duì)軌跡誤差的旋轉(zhuǎn)精度提高了96.47%。
4)通過(guò)比較不同算法的處理速度,所提算法與Dyna-SLAM算法、DS-SLAM算法相比,具有一定優(yōu)勢(shì)。但由于添加線程原因,相較于ORB_SLAM算法略有不足。
參考文獻(xiàn)(References):
[1] 吳皓,遲金鑫,田國(guó)會(huì).基于視覺(jué)SLAM的物體實(shí)例識(shí)別與語(yǔ)義地圖構(gòu)建[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(9):48-54.
WU Hao,CHI Jinxin,TIAN Guohui.Object instance recognition and semantic map construction based on visual SLAM[J].Huazhong University of Science and Technology Journal(Natural Science Edition),2019,47(9):48-54.
[2] MUR-ARTAL R,TARDOS J D.Orb-slam2:an opensou-rce slam system for monocular,stereo,and rgbd c-ameras[J].IEEE Transactions on Robotics,2017,33(5):1255-1262.
[3]
張峻寧,蘇群星,劉鵬遠(yuǎn),等.一種自適應(yīng)特征地圖匹配的改進(jìn)VSLAM算法[J].自動(dòng)化學(xué)報(bào),2019,45(3):553-565.
ZHANG Junning,SU Qunxing,LIU Pengyuan,et al.An
improved VSLAM algorithm based on adaptive feature map[J].Acta Automatica Sinica,2019,45(3):553-565.
[4] LABB M,MICHAUD F.RTAB-Map as an open-source lidar and visual simultaneous localization and mapping library for large-scale and long-term online operation[J].Journal of Field Robotics,2019,36(2):416-446.
[5]
PALAZZOLO E,BEHLEY J,LOTTES P,et al.ReFusion:3D reconstruction in dynamic environments for RGB-D cameras exploiting residuals[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,USA:IEEE,2019:7855-7862.
[6] HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual re-cognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[7]
BEWLEY,ALEX,et al.Simple online and realtime trac-king with a deep association metric[J].Proceedings of the IEEE International Conference on Image Processing(ICIP),2016,40(8):433-456.[8]BESCOS B,F(xiàn)ACIL J M,CIVERA J,et al.DynaSLAM:Tracking,mapping,and inpainting in dynamic scenes[J].IEEE Robotics and Automation Letters,2018,3(4):4076-4083.[9]
高興波,史旭華,葛群峰,等.面向動(dòng)態(tài)物體場(chǎng)景的視覺(jué)SLAM綜述[J].機(jī)器人,2021,43(6):733-750.
GAO Xingbo,SHI Xuhua,GE Qunfeng,et al.Overview of visual SLAM for dynamic object scene[J].Robot,2021,43(6):733-750.[10]
BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:A deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.[11]
KEHL W,MILLETARI F,TOMBARI F,et al.Deep learning of local RGB-
D patchesfor 3D object detection and 6D pose estimation[J].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017,39(12):2481-2495.
[12]ZHANG T W,ZHANG H Y,LI Y,et al.FlowFusion:Dynamic dense RGBD SLAM based on optical flow[C]//IEEE International Conference on Robotics and Automation.Piscataway,USA:IEEE,2020,10(9):7322-7328.[13]
WANG Z M,ZHANG Q,LI J S,et al.A computationally efficient semantic SLAM solution for dynamic scenes[J].Remote Sensing,2019,11(11):1363.[14]
RAN T,YUAN L,ZHANG J B,et al.RS-SL-AM:arobust semantic SLAM in dynamic environments based on RGBD sensor[J].IEEE Sensors Journal,2021,21(18):20657-20664.
[15]JADERBERG M,SIMONYAN K,ZISSERMAN A.Spatial transformer networks[J].Advances in Neural Information Processing Systems,2015,9(2):2017-2025.
[16]LI W,LIU K,ZHANG L,et al.Object detection based on an adaptive attention mechanism[J].Scientific Reports,2020,10(1):1-13.
[17]
JIA W,XU S Q,LIANG Z,et al.Real-timeautomatichelmet detection of motorcyclists in urban traffic usingimproved YOLOv5 detector[J].IET Image Processing,2021,15(14):3623-3637.[18]
GUO C,F(xiàn)AN B,ZHANG Q,et al.AugFPN:Improving multi-scale feature learning for object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:12595-12604.[19]
LIU S,HUANG D,WANG Y.Adaptive NMS:Refining pedestrian detection in a crowd[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:6459-6468.[20]
REDMON J,F(xiàn)ARHADI A.YOLO9000:better,faster,stronger[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:7263-7271.[21]
ZHU X,LYU S,WANG X,et al.TPH-YOLOv5:Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:2778-2788.[22]
WANG X,GIRSHICK R,GUPTA A,et al.Nonlocal neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018:7794-7803.[23]
薛旭升,張旭輝,毛清華,等.基于雙目視覺(jué)的掘進(jìn)機(jī)器人定位定向方法研究[J].西安科技大學(xué)學(xué)報(bào),2020,40(5):781-789.
XUE Xusheng,ZHANG Xuhui,MAO Qinghua,et al.Localization and orientation method of roadheader robot basedon binocular vision[J].Journal of Xian University of Science and Technology,2020,40(5):781-789.
[24]STURM J,ENGELHARD N,ENDRES F,et al.A benchmark for the evaluation of RGB-D SLAM systems[J].2012 IEEE/RSJ International Conference on Intelligent Robots and Systems,Vilamoura,2012:573-580.
[25]
AI Y B,RUI T,YANG X Q,et al.Visual SLAM in dynamic environments based on object detection[J].Defence Technology,2021,17(5):1712-1721.[26]
房立金,劉博,萬(wàn)應(yīng)才.基于深度學(xué)習(xí)的動(dòng)態(tài)場(chǎng)景語(yǔ)義 SLAM[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48(1):121-126.
FANG Lijin,LIU Bo,WAN Yingcai.Dynamic scene semantic SLAM based on deep learning[J].Journal of Huazhong University of Science and Technology(Natural Science Edition),2020,48(1):121-126.[27]
ZHONG F W,WANG S,HANG Z Q,et al.DetectS-LAM:Making object detection and SLAM mutually beneficial[C]//IEEE Winter Conference on Applications of Computer Vision.Piscataway,USA:IEEE,2018:1001-1010.[28]
WANG Z M,ZHANG Q,LI J S,et al.A computationally efficient semantic SLAM solution for dynamic scenes[J].Remote Sensing,2019,11(11):1363.
[29]VON GIOI R G,JAKUBOWICZ J,MOREL J M,et al.LSD:a fast line segment detector with a false detection control[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,32(4):722-732.
(責(zé)任編輯:高佳)