郝 雯,張雯靜,梁 瑋,肖照林,金海燕
(1.西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,陜西 西安 710048;2.陜西省網(wǎng)絡(luò)計(jì)算與安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710048)
由于自動(dòng)駕駛、室內(nèi)導(dǎo)航、以及智能機(jī)器人代替人到復(fù)雜危險(xiǎn)的環(huán)境中執(zhí)行探測、巡防等大量現(xiàn)實(shí)應(yīng)用的需要,關(guān)于場景的認(rèn)知與識(shí)別研究引起了人們極大的關(guān)注[1]。對(duì)于具有強(qiáng)大識(shí)別能力的人類,可以快速地獲取場景中物體的類別以及物體間的拓?fù)潢P(guān)系,對(duì)是否到過該場景做出準(zhǔn)確的判斷或者從場景地圖中對(duì)要識(shí)別的地點(diǎn)進(jìn)行定位。但對(duì)于計(jì)算機(jī)來說,自動(dòng)地從復(fù)雜場景中識(shí)別物體并且分析出它們之間的拓?fù)潢P(guān)系,完成場景的分析與識(shí)別,仍具有很大的困難。這主要是由于場景中物體類別繁雜,排列無規(guī)律,加之物體類內(nèi)的差異性和類間的相似性,都增加了計(jì)算機(jī)對(duì)場景識(shí)別的難度。因此,針對(duì)場景的識(shí)別仍然是一個(gè)富有挑戰(zhàn)的課題。
由于場景圖像獲取的便利性與快捷性,目前已有很多學(xué)者提出針對(duì)圖像的場景識(shí)別方法[2-3]。文獻(xiàn)[3-5]通過設(shè)計(jì)不同的卷積神經(jīng)網(wǎng)絡(luò)(Con?volutional Neural Network,CNN)模型提取圖像場景中的目標(biāo)特征、場景特征,并將兩者結(jié)合起來獲得獨(dú)特的場景特征表示。但是,由于采集圖像時(shí)無法避免的光照條件、尺度變化以及時(shí)間特征的差異,會(huì)使同一個(gè)場景的圖像具有較大的差異 性。圖1為Oxford RobotCar數(shù) 據(jù) 集[6]中 同 一個(gè)場景在不同時(shí)間獲取的圖像數(shù)據(jù)。圖1(a)為場景在夜晚獲取的圖片,圖1(b)和1(c)為白天不同天氣下獲取的圖片。可以看出,雖然捕獲的為同一個(gè)場景的圖片,但是由于采集圖像的時(shí)間不同,光照條件不同,場景圖像間有很大的差異,這加大了場景的識(shí)別難度。另外,由于二維成像中三維信息的丟失,基于圖像的空間關(guān)系局限于二維空間,包括上、下、左、右以及其兩兩組合的位置關(guān)系,對(duì)于空間物體間的位置關(guān)系表示有一定的局限性[7]。利用視覺系統(tǒng)(單目攝像頭或多目攝像頭)也能夠快捷便利獲取場景的圖像信息,但是需要大量的數(shù)據(jù)處理才能測量深度,計(jì)算復(fù)雜度較高,并且對(duì)場景的紋理豐富程度要求較高,在低紋理場景中幾乎無法工作。多目立體視覺可以通過多視角圖像以及恢復(fù)的相機(jī)參數(shù)作為輸入來對(duì)場景進(jìn)行稠密重建,但其比較適合室內(nèi)規(guī)模較小場景數(shù)據(jù)的獲取。基于結(jié)構(gòu)光設(shè)備的深度測量也是另外一種常見的場景數(shù)據(jù)獲取方式,其測量范圍普遍較近,難以適用于室外遠(yuǎn)距離環(huán)境。
圖1 Oxford RobotCar數(shù)據(jù)集中同一場景不同時(shí)間、不同光照條件下獲取的圖像[6]Fig.1 Images of the same scene at different times and illumination in the dataset Oxford RobotCar[6]
隨著三維掃描技術(shù)的快速發(fā)展,已經(jīng)有很多單位利用毫米波雷達(dá)傳感器、激光雷達(dá)傳感器獲取場景的點(diǎn)云數(shù)據(jù)。毫米波雷達(dá)穿透霧、煙、灰塵的能力強(qiáng),具有全天候全天時(shí)的特點(diǎn),但其探測距離受到頻段損耗的直接制約。激光雷達(dá)傳感器探測范圍更廣,探測精度更高。利用兩種傳感器采集得到的點(diǎn)云場景數(shù)據(jù),可規(guī)避掃描時(shí)間、光照、天氣、紋理等多種因素的影響。同時(shí),采集得到的三維點(diǎn)云數(shù)據(jù)具有尺度不變性,能夠較好地表達(dá)場景中復(fù)雜物體的幾何形狀,并且能夠較好地表達(dá)物體間的位置關(guān)系,規(guī)避了二維圖像遇到的光照、姿態(tài)等問題,所以基于點(diǎn)云的場景識(shí)別是一種有效的途徑。
已有的面向三維點(diǎn)云的場景識(shí)別方法多是通過提取分割點(diǎn)云簇或者點(diǎn)的幾何特征,構(gòu)造特征描述符,然后通過特征匹配從建立的局部地圖中找出相同的場景,完成場景的定位與識(shí)別。目前,已有的三維點(diǎn)云場景識(shí)別方法可以分為三類:基于點(diǎn)云分割的場景識(shí)別方法、基于特征描述符的場景識(shí)別方法以及基于學(xué)習(xí)獲得特征的場景識(shí)別方法,如圖2所示。
圖2 面向點(diǎn)云的場景識(shí)別方法分類Fig.2 Classification of scene recognition algorithms for point clouds
基于點(diǎn)云分割的場景識(shí)別方法往往需要先將點(diǎn)云場景中的地面移除,利用區(qū)域增長、歐幾里得聚類算法對(duì)場景進(jìn)行分割,然后利用人工設(shè)計(jì)或者卷積神經(jīng)網(wǎng)絡(luò)模型提取分割點(diǎn)云簇的特征,最后通過特征比對(duì)完成場景的識(shí)別。
2.1.1基于人工設(shè)計(jì)的特征提取方法
基于人工設(shè)計(jì)的特征的提取方法往往在點(diǎn)云場景分割的基礎(chǔ)上,人工設(shè)計(jì)提取各個(gè)點(diǎn)云簇的幾何特征或構(gòu)造圖結(jié)構(gòu)用于場景識(shí)別。
圖3 SegMatch算法流程圖Fig.3 Flowchart of SegMatch algorithm
Dubé等[8]去除場景中的地面點(diǎn)云數(shù)據(jù)后,利用歐幾里得聚類算法將地面上的點(diǎn)分割成不同物體。然后利用形狀函數(shù)直方圖對(duì)分割后的點(diǎn)云簇進(jìn)行描述,并利用隨機(jī)森林來匹配相似點(diǎn)云簇。最后使用隨機(jī)抽樣一致性算法將候選點(diǎn)云簇送至幾何驗(yàn)證模塊,如果特征匹配,則返回場景的定位信息。圖3為SegMatch[8]的流程圖。該方法需要實(shí)時(shí)里程計(jì),并需要建立局部稠密地圖。Gollub等[27]在SegMatch[8]基礎(chǔ)上作了改進(jìn),首先將兩組點(diǎn)云場景分割成多個(gè)點(diǎn)云簇。然后基于分割點(diǎn)云簇構(gòu)建一個(gè)不帶權(quán)無向圖G,最后以檢測G中是否含有足夠大的團(tuán)來判定兩組點(diǎn)云場景是否有較高的相似度。廖等[28]移除地面后采用區(qū)域增長算法將點(diǎn)云場景分割為若干個(gè)點(diǎn)云簇,然后以點(diǎn)云簇為頂點(diǎn),以點(diǎn)云簇質(zhì)心間距離為邊權(quán)值,分別構(gòu)建帶權(quán)值的完全圖,將場景的識(shí)別轉(zhuǎn)化為判定所得的兩個(gè)完全圖是否含有足夠大的公共子圖。在該方法中,分割效果的優(yōu)劣會(huì)影響該方法場景識(shí)別的準(zhǔn)確度。Fernández-Moral等[9]針對(duì)室內(nèi)深度圖像 構(gòu)建一種基于平面的地圖(Plane-based Map,PbMap),在提取場景平面的基礎(chǔ)上,利用法向量方向、面積、中心位置等幾何信息描述平面屬性。將平面作為節(jié)點(diǎn),平面質(zhì)心間的連線即為邊,構(gòu)造場景圖。最后利用解釋樹來匹配子圖,從而完成室內(nèi)場景的識(shí)別。隨后,他們又對(duì)該工作進(jìn)行了擴(kuò)展[29],在圖匹配的過程中,使用平面參數(shù)的協(xié)方差代替要匹配的平面所包含的點(diǎn)數(shù)。該類方法適用于包含較多由平面組成物體的小型室內(nèi)環(huán)境。Fan等[10]提出基于分割的自我中心描述符(Seg?mentation-based Egocentric 3D Point Cloud De?scriptor,Seed),圖4為Seed算法流程圖。該方法在分割的基礎(chǔ)上,對(duì)分割簇間的拓?fù)潢P(guān)系進(jìn)行編碼形成二維圖像,最后通過比較圖像之間的距離度量場景間的相似性。該方法缺乏對(duì)分割點(diǎn)云簇的特征描述,識(shí)別效果依賴分割的精細(xì)程度。
圖4 Seed算法流程圖Fig.4 Flowchart of Seed algorithm
物體間的位置關(guān)系對(duì)點(diǎn)云場景的識(shí)別也是至關(guān)重要的,而基于人工設(shè)計(jì)的特征提取方法并未考慮物體之間的拓?fù)潢P(guān)系對(duì)場景識(shí)別的影響。
2.1.2基于深度學(xué)習(xí)的特征提取方法
基于深度學(xué)習(xí)的特征提取方法在點(diǎn)云場景分割的基礎(chǔ)上,設(shè)計(jì)各種卷積神經(jīng)網(wǎng)絡(luò)用于提取點(diǎn)云簇的特征用于場景識(shí)別。
同SegMatch[8]所 用 的 分 割 方 法 一 致,Dubé等[11]在場景分割的基礎(chǔ)上,提出SegMap-CNN網(wǎng)絡(luò)提取分割點(diǎn)云簇的特征,用于定位以及地圖重建。隨 后,Vidanapathirana等[30]利 用SegMap-CNN網(wǎng)絡(luò)[11]提取分割點(diǎn)云簇的特征。同時(shí),提取鄰近分割點(diǎn)云簇的空間結(jié)構(gòu)特征以及時(shí)間特征。最后,利用二次池化將不同層次的特征聚合在一起,獲得固定長度的全局描述符。Rozenber?szki等[31]通過融合針對(duì)Lidar數(shù)據(jù)的里程 計(jì)算法和SegMap算法完成場景定位。該方法基于RANSAC算法減少在線點(diǎn)云與離線地圖的錯(cuò)誤匹配,利用迭代最近點(diǎn)(Iterative Closest Point,ICP)方法提高場景定位的準(zhǔn)確性。Tomono等[12]在探測點(diǎn)云場景中的平面、球、線等幾何形狀的基礎(chǔ)上,使用點(diǎn)云配準(zhǔn)算法來檢測循環(huán)約束。去除配準(zhǔn)中的孤立點(diǎn),結(jié)合基于特征和基于姿態(tài)的方法檢測閉環(huán)。該類方法關(guān)注分割點(diǎn)云簇特征的提取與匹配,并未考慮分割簇之間的空間關(guān)系。
基于深度學(xué)習(xí)的特征提取方法往往依賴于場景分割效果,由于點(diǎn)云場景中物體的多樣性以及鄰近性,傳統(tǒng)的分割方法往往導(dǎo)致過分割或者欠分割,分割結(jié)果的準(zhǔn)確性會(huì)影響到場景識(shí)別的準(zhǔn)確性。
基于特征描述符的場景識(shí)別方法多是基于人工設(shè)計(jì)提取點(diǎn)或者分割點(diǎn)云簇的幾何特征,并對(duì)特征進(jìn)行統(tǒng)計(jì)分析,形成獨(dú)特的描述符,然后通過相似性度量等手段完成場景識(shí)別或閉環(huán)檢測。
早期的工作中,旋轉(zhuǎn)圖像法[32](Spin Image,SI)、直方圖簽名方法[33](Signature of Histograms of Orientation,SHOT)、唯一形狀上下文方法[34](Unique Shape Context,USC)、快速點(diǎn)特征直方圖[35](Fast Point Feature Histograms,F(xiàn)PFH)以及聚類視點(diǎn)特征直方圖(Clustered View Feature Histogram,CVFH)描述符[36]都是常用的特征描述符。這些描述符多用于物體識(shí)別,然而場景識(shí)別不僅僅局限于物體的識(shí)別,隨著點(diǎn)云數(shù)據(jù)的廣泛應(yīng)用,越來越多的學(xué)者設(shè)計(jì)用于點(diǎn)云場景識(shí)別的描述符。
Bosse等[13]隨 機(jī) 從 點(diǎn) 云 場 景 中 選 擇10%的點(diǎn)作為關(guān)鍵點(diǎn),通過特征值計(jì)算,一些具有平面特性的關(guān)鍵點(diǎn)被移除。然后利用三維Gestalt描述子對(duì)關(guān)鍵點(diǎn)進(jìn)行描述,構(gòu)建投票矩陣計(jì)算每個(gè)關(guān)鍵點(diǎn)經(jīng)其鄰近點(diǎn)投票所得權(quán)值,通過計(jì)算每個(gè)bin內(nèi)關(guān)鍵點(diǎn)高度均值和方差,最后根據(jù)關(guān)鍵點(diǎn)匹配完成場景的識(shí)別。該方法中關(guān)鍵點(diǎn)的選取具有一定的隨機(jī)性,其選取策略對(duì)最終識(shí)別結(jié)果影響較大。受Gestalt啟發(fā),Cieslewski等[14]提出局部描述符二值鄰域密度標(biāo)記(Neighbor-Binary Landmark Density,NBLD),通過統(tǒng)計(jì)每個(gè)bin下點(diǎn)的密度構(gòu)建每個(gè)關(guān)鍵點(diǎn)的描述符。
He等[15]提出名為M2DP的三維點(diǎn)云全局描述符用于場景識(shí)別。作者通過將點(diǎn)云向多個(gè)平面進(jìn)行投影,計(jì)算點(diǎn)云在投影面的空間密度分布特征。然后通過奇異值分解,將左右奇異向量作為三維場景的描述符,該描述符具有一定的觀測位置和視角不變性。該方法只關(guān)注點(diǎn)云的整體分布,當(dāng)部分點(diǎn)丟失時(shí),點(diǎn)云特征變化劇烈,性能退化嚴(yán)重。受其它描述符通過加入顏色信息提升性能的啟發(fā)[37-39],Perdomo等[40]結(jié)合點(diǎn)云的顏色和形狀信息,對(duì)M2DP描述符進(jìn)行擴(kuò)展,構(gòu)造名為c-M2DP的描述符用于場景識(shí)別。該方法將點(diǎn)云進(jìn)行二維投影后,計(jì)算點(diǎn)的形狀特征以及顏色分布,利用SVD獲得最終的特征描述符。
R?hling等[41]首先將場景中的點(diǎn)按高度值分成若干層,然后為每層計(jì)算出一維的直方圖,最后將這些直方圖組合起來構(gòu)成全局描述子。通過計(jì)算兩組點(diǎn)云場景的全局描述子的Wasser?stein距 離 來 衡 量 它 們 的 相 似 度。Rizzini等[42]提出名為GLAROT的描述符,該描述符將關(guān)鍵點(diǎn)對(duì)的相對(duì)幾何位置編碼為直方圖,為保證旋轉(zhuǎn)不變性,它通過計(jì)算相應(yīng)旋轉(zhuǎn)直方圖之間的距離度量兩個(gè)點(diǎn)的相似度。該描述符易受點(diǎn)云數(shù)據(jù)密度的影響。隨后,Rizzini等[43]提出幾何關(guān)系分布簽名方法,將點(diǎn)之間的關(guān)系編碼為連續(xù)概率密度函數(shù)。Kim等[44]提出名為掃描上下文(Scan con?text)的全局描述符。該方法將點(diǎn)云按照方位角和徑向方向分為若干個(gè)bin,并計(jì)算每個(gè)bin中點(diǎn)的最大高度,通過對(duì)點(diǎn)云的幾何形狀進(jìn)行編碼,生成一個(gè)二維圖像,通過比較兩個(gè)圖像之間的距離度量場景間的相似性。該方法為了實(shí)現(xiàn)旋轉(zhuǎn)不變性,需要計(jì)算所有可能的圖像列移位的度量距離,以找到最小距離,這需要較長的搜索時(shí)間。隨后,Kim等[45]利用卷積神經(jīng)網(wǎng)絡(luò)替代方法[44]中逐列暴力匹配計(jì)算圖像之間的距離,提高場景識(shí)別的效率。Wang等[46]在方法[44]的基礎(chǔ)上加入掃描數(shù)據(jù)的強(qiáng)度信息,提出名為強(qiáng)度掃描上下文(Intensity Scan Context,ISC)方法,通過快速幾何檢索和強(qiáng)度結(jié)構(gòu)匹配兩個(gè)步驟完成場景的識(shí)別。Li等[47]在方法[44]的基礎(chǔ)上對(duì)點(diǎn)云場景進(jìn)行語義分割,利用語義信息將場景中的代表物體投影到x-y平面。然后提出語義ICP算法,獲取點(diǎn)云的三維姿態(tài)。最后,使用三維姿態(tài)對(duì)齊原始點(diǎn)云生成全局描述符語義掃描上下文全局描述符(Semantic Scan Context,SSC)。通過匹配SSC獲取場景的相似度得分。基于掃描上下文的方法[44-47]不能捕捉場景中物體間的拓?fù)潢P(guān)系。Siva等[48]將點(diǎn)云場景體素化后,提出基于體素化的表示學(xué)習(xí)(Voxel-based Representation Learn?ing,VBRL)方法,利用結(jié)構(gòu)化稀疏引導(dǎo)規(guī)范提取每個(gè)體素內(nèi)多模態(tài)特征。該方法認(rèn)為離Lidar傳感器近的體素包含物體更多的細(xì)節(jié),將位置識(shí)別和特征學(xué)習(xí)集成到一個(gè)統(tǒng)一的正則化優(yōu)化公式中,從每個(gè)柵格內(nèi)提取多模特征用于場景識(shí)別。Guo等[49]提出名為方向強(qiáng)度簽名直方圖(Intensi?ty Signature of Histograms of OrienTations,ISHOT)的描述符,提出一種新的概率關(guān)鍵點(diǎn)投票方法對(duì)場景進(jìn)行識(shí)別。通過提取三維點(diǎn)云數(shù)據(jù)的ISHOT描述符,與全局地圖進(jìn)行匹配,利用基于投票的方法找出相似的候選場景。然后通過三維特征匹配確定最終相同的場景。
基于特征描述符的場景識(shí)別方法通過人工設(shè)計(jì)構(gòu)建局部特征描述符,不僅過程繁復(fù)耗時(shí),易受到環(huán)境干擾,且局限于特定的模型與特定的應(yīng)用,很難推廣到大規(guī)模的點(diǎn)云場景識(shí)別中。
深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力,能夠逐層自動(dòng)學(xué)習(xí)目標(biāo)的特征表示,避免了手工設(shè)計(jì)特征的繁瑣低效?;趯W(xué)習(xí)獲得特征的場景識(shí)別方法往往通過設(shè)計(jì)不同的卷積神經(jīng)網(wǎng)絡(luò)模型提取點(diǎn)云場景中每點(diǎn)的特征,然后將提取的特征編碼為特定維度的全局描述符,最后通過特征比對(duì),從點(diǎn)云場景數(shù)據(jù)庫中檢索得到要識(shí)別的場景。
卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用于三維點(diǎn)云目標(biāo)探測[50-51]、形狀檢索[52]、場景分割[53-54]、場景分 類[55]等 任 務(wù) 中。2017年4月,斯 坦 福 大 學(xué)Charles等人提出PointNet[56],該結(jié)構(gòu)開創(chuàng)性地以原始點(diǎn)云作為深度神經(jīng)網(wǎng)絡(luò)的輸入,引入轉(zhuǎn)換網(wǎng)絡(luò)對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行空間對(duì)齊,使用多層感知機(jī)學(xué)習(xí)點(diǎn)特征,然后使用最大池化函數(shù)提取全局特征,為模型分類、部件分割和場景語義分割提供了統(tǒng)一的體系結(jié)構(gòu)。該模型對(duì)局部信息的提取能力不足,而其擴(kuò)展版本PointNet++[57]提出了一種分層網(wǎng)絡(luò)結(jié)構(gòu),利用最遠(yuǎn)點(diǎn)采樣法對(duì)輸入點(diǎn)云進(jìn)行采樣和區(qū)域劃分,然后在局部區(qū)域應(yīng)用PointNet進(jìn)行特征學(xué)習(xí)與提取。鑒于深度學(xué)習(xí)的成功應(yīng)用,很多學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在場景識(shí)別領(lǐng)域。圖5為2018年以來,基于深度學(xué)習(xí)的點(diǎn)云場景識(shí)別方法時(shí)間軸,不同的顏色代表不同的場景識(shí)別方法類別。本文將基于學(xué)習(xí)獲得特征的場景識(shí)別方法分為四類:基于注意力機(jī)制的場景識(shí)別方法、基于圖卷積的場景識(shí)別方法、基于體素化的場景識(shí)別方法、基于Transformer框架的場景識(shí)別方法。這些方法在圖5中分別利用紫色、綠色、橙色以及藍(lán)色箭頭表示。
圖5 點(diǎn)云場景識(shí)別方法時(shí)間軸Fig.5 Chronological overview of scene recognition for point clouds
PointNetVLAD[58]是第一個(gè)用于大規(guī)模三維點(diǎn)云場景識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。圖6為Point?NetVLAD的網(wǎng)絡(luò)結(jié)構(gòu)圖。Angelina等將Point?Net[56]與NetVLAD[68]網(wǎng)絡(luò)結(jié)合,利用PointNet提取點(diǎn)的全局特征,通過NetVLAD網(wǎng)絡(luò)對(duì)特征進(jìn)行聚合。它提出懶惰三元組和四元組損失函數(shù),構(gòu)造全局描述子,將點(diǎn)云場景識(shí)別轉(zhuǎn)化為場景檢索問題。由于PointNet對(duì)點(diǎn)云局部特征的提取能力不足,這對(duì)生成的全局描述符的獨(dú)特性有一定的影響。同時(shí),該網(wǎng)絡(luò)并未考慮局部特征的空間分布關(guān)系。
圖6 PointNetVLAD網(wǎng)絡(luò)結(jié)構(gòu)圖[58]Fig.6 Network architecture of PointNetVLAD[58]
2.3.1基于注意力機(jī)制的場景識(shí)別方法
基于注意力機(jī)制的場景識(shí)別方法在網(wǎng)絡(luò)中引入注意力機(jī)制,提取點(diǎn)間的上下文信息。
為彌補(bǔ)PointNetVLAD網(wǎng)絡(luò)的不足,Zhang等[16]在PointNetVLAD網(wǎng) 絡(luò) 的 基 礎(chǔ) 上 提 出 一 個(gè)點(diǎn)上下文注意網(wǎng)絡(luò)(Point Contextual Attention Network,PCAN),在NetVLAD網(wǎng)絡(luò)中引入注意力機(jī)制,將多尺度全局特征加權(quán)融合形成全局描述符。該網(wǎng)絡(luò)沒有考慮點(diǎn)的局部結(jié)構(gòu)信息,忽略了局部特征的空間分布特征。Sun等[59]結(jié)合雙重注意力機(jī)制和圖卷積提取點(diǎn)云的局部特征以及上下文信息,使用殘差圖卷積網(wǎng)絡(luò)模塊來聚合每個(gè)點(diǎn)及相鄰點(diǎn)的局部特征。該網(wǎng)絡(luò)并未考慮局部特征之間的空間關(guān)系。Xia等[17]提出一種基于自注意以及方向編碼的神經(jīng)網(wǎng)絡(luò)SOE-Net(Selfattention and Orientation Encoding Network)用于場景識(shí)別。該網(wǎng)絡(luò)定義了一種新的損失函數(shù)HPHN(Hard Positive Hard Negative quadruplet loss),提出點(diǎn)方向編碼(PointOE)模塊對(duì)各種方向的鄰域信息進(jìn)行編碼,并定義一個(gè)自注意單元提取點(diǎn)間的上下文依賴,對(duì)局部區(qū)域的空間關(guān)系進(jìn)行加權(quán)編碼。該網(wǎng)絡(luò)需要提前設(shè)置HPHN四元 組 損 失 中 的margin值。Barros等[18]提 出 名 為AttDLNet(Attention-based DL Network)的 網(wǎng) 絡(luò)結(jié)構(gòu),它將點(diǎn)云轉(zhuǎn)換為球面范圍表示,通過編碼器網(wǎng)絡(luò)從中提取特征,并利用注意力機(jī)制選擇性地關(guān)注上下文和特征間的關(guān)系,最后將特征圖轉(zhuǎn)化為描述符。Fan等[62]提出注意力旋轉(zhuǎn)不變卷積(Attentive Rotation Invariant Convolution),該網(wǎng)絡(luò)采用三種旋轉(zhuǎn)不變的局部特征和一個(gè)注意力模塊,以保證學(xué)習(xí)到的特征的旋轉(zhuǎn)不變性。
基于注意力機(jī)制的場景識(shí)別方法沒有考慮局部幾何特征、點(diǎn)云鄰域關(guān)系以及特征空間分布等特征的提取,這些都可以提高大場景點(diǎn)云全局描述子的有效性和魯棒性。
2.3.2基于圖卷積的場景識(shí)別方法
基于圖卷積的場景識(shí)別方法利用靜態(tài)/動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)提取點(diǎn)的局部幾何特征,用于場景識(shí)別。
Liu等[19]提出一個(gè)大型地點(diǎn)描述網(wǎng)絡(luò)(Largescale Place Description Network,LPD-Net),該網(wǎng)絡(luò)包括自適應(yīng)鄰域局部特征提取模塊和動(dòng)態(tài)圖網(wǎng)絡(luò)聚合模塊。該網(wǎng)絡(luò)首先通過自適應(yīng)選取最優(yōu)近鄰,計(jì)算每點(diǎn)的曲率、高度差、點(diǎn)密度等十個(gè)幾何特征,并構(gòu)建特征轉(zhuǎn)換模塊將計(jì)算得到的局部特征映射到高維特征空間。然后,利用圖卷積神經(jīng)網(wǎng)絡(luò)[53]提取點(diǎn)間的空間分布信息。最后,通過NetVLAD網(wǎng)絡(luò)對(duì)各種特征進(jìn)行聚合生成場景的全局描述符,其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。隨后,Liu等[20]在LPD-Net基礎(chǔ)上,采用由粗到 細(xì)的序列匹配策略,提出序列場景描述網(wǎng)絡(luò)SeqLPD用于閉環(huán)檢測。與方法[19]相同,SeqLPD在特征空間和笛卡爾空間中提取特征,并使用NetV?LAD生成場景的全局描述符。Yin等[21-22]首先將點(diǎn)云投影至三維球面,設(shè)計(jì)了SphereVLAD網(wǎng)絡(luò),利用球面卷積,從原始點(diǎn)云的球形表示中提取視點(diǎn)不變的位置描述符,并提出了一個(gè)從粗到精的序列匹配位置識(shí)別方法。Fan等[60]利用靜態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)提取點(diǎn)的局部幾何特征,提出密集語義融合策略,通過重用淺層特征層來補(bǔ)償信息丟失。最后利用NetVLAD網(wǎng)絡(luò)將提取到的局部幾何特征聚合為全局描述符。Kong等[61]提出一種基于語義圖的大規(guī)模場景識(shí)別方法,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖8所示。首先對(duì)點(diǎn)云場景進(jìn)行語義分割、實(shí)例分割以獲取場景物體的語義類別,并進(jìn)一步收集語義和拓?fù)湫畔⑿纬傻墓?jié)點(diǎn)語義圖。然后,原始點(diǎn)云場景被轉(zhuǎn)換成拓?fù)湔Z義圖,對(duì)場景的識(shí)別轉(zhuǎn)化為圖匹配問題。最后,通過將圖對(duì)輸入到由節(jié)點(diǎn)編碼、圖編碼和圖相似性度量組成的圖相似度網(wǎng)絡(luò)中,獲得場景相似度評(píng)分。該方法需要事先對(duì)場景中包含物體的語義類別進(jìn)行定義,并且它不能區(qū)分相同語義類別中的不同物體。Hui等[63]提出一種輕量級(jí)的邊卷積模塊ProxyConv,它利用空間相鄰矩陣和代理點(diǎn)簡化了原始邊緣卷積,從而減少內(nèi)存消耗。通過ProxyConv模塊,構(gòu)造代理點(diǎn)卷積神經(jīng)網(wǎng)絡(luò)(Proxy Point Convolutional Neural Network,PPCNN)聚合多尺度局部幾何特征,完成場景的識(shí)別。Gong等[65]通過分析分割點(diǎn)云簇間的空間關(guān)系,提出了基于空間關(guān)系圖的位置識(shí)別方法。該方法在去除地面的基礎(chǔ)上,利用歐氏距離的聚類方法對(duì)非地面點(diǎn)進(jìn)行分割,將點(diǎn)云簇作為結(jié)點(diǎn),它們之間的空間關(guān)系作為邊,對(duì)分割點(diǎn)云簇以及點(diǎn)云簇間的空間關(guān)系進(jìn)行描述,構(gòu)造空間關(guān)系圖(Spatial Relation Graph,SRG)。最后利用空間關(guān)系圖匹配模型完成場景的識(shí)別。其中,空間關(guān)系圖匹配模型包括上層搜索模型(U-LSM)和下層匹配模型(L-LMM),在U-LSM模型中,通過增量詞袋模型搜索候選語義關(guān)系圖中空間關(guān)系描述符的分布。在L-LMM模型中,通過改進(jìn)的光譜方法來計(jì)算候選語義關(guān)系圖中的相似度。
圖7 LPD-Net[19]網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Network architecture of LPD-Net[19]
圖8 Semantic Graph[61]網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 Network architecture of Semantic Graph[61]
基于圖卷積的識(shí)別方法比較關(guān)注點(diǎn)間的關(guān)系,但對(duì)具有抽象語義信息的高級(jí)全局結(jié)構(gòu)特征提取不足。
2.3.3基于體素化的場景識(shí)別方法
基于體素化的場景識(shí)別方法在對(duì)點(diǎn)云場景體素化的基礎(chǔ)上,提取每個(gè)柵格的單尺度/多尺度局部特征用于場景識(shí)別。
Chang等[23]在對(duì)室內(nèi)點(diǎn)云場景體素化的基礎(chǔ)上,提出SpoxelNet網(wǎng)絡(luò),從體素中提取不同尺度的結(jié)構(gòu)信息,并利用NetVLAD網(wǎng)絡(luò)聚合為全局特征描述符。該網(wǎng)絡(luò)可以識(shí)別點(diǎn)云體素之間的結(jié)構(gòu)相似性,減少物體移動(dòng)或時(shí)間變化的影響。Komorowski等[24]提出名為MinkLoc3D的點(diǎn)云描述符,該方法首先將輸入點(diǎn)云體素化,然后采用特征金字塔網(wǎng)絡(luò)提取局部特征,利用廣義均值池化層(Generalized-mean pooling layer)將局部特征聚合為全局點(diǎn)云描述符。Du等[64]使用Flex卷積提取點(diǎn)的局部幾何特征,利用擠壓和激勵(lì)模塊(Squeeze-and-Excitation,SE)融合多層次空間上下文信息,并將多通道特征關(guān)聯(lián)到局部描述符中,最后使用NetVLAD網(wǎng)絡(luò)將加權(quán)局部特征聚合到全局點(diǎn)云描述符中。該全局描述符不具有旋轉(zhuǎn)不變性。
基于體素化的場景識(shí)別方法在對(duì)點(diǎn)云柵格化的基礎(chǔ)上提取特征,其提取特征粒度的細(xì)致程度易受柵格大小的影響。
2.3.4基于Transformer框架的場景識(shí)別方法
Transformer[69]最初是為自然語言處理(Nat?ural Language Processing,NLP)任務(wù)而提出的。自我注意機(jī)制是Transformer的核心,因?yàn)樗哂羞h(yuǎn)距離捕捉上下文信息的能力。隨著Trans?former在NLP領(lǐng)域的成功應(yīng)用,很多學(xué)者逐漸考慮將自注意機(jī)制運(yùn)用到計(jì)算機(jī)視覺領(lǐng)域。
NDT-Transformer[66]是第一個(gè)用于場景識(shí)別和檢索,基于標(biāo)準(zhǔn)Transformer的深度學(xué)習(xí)架構(gòu)。Zhou等利用三維正態(tài)分布變換(3D Normal Dis?tribution Transform,NDT)表示原始點(diǎn)云幾何形狀的概率分布。該模型從三維NDT中學(xué)習(xí)得到具有幾何和上下文信息的全局描述符,并選擇NetVLAD獲 得 全 局 描 述 符。Xu等[25]基 于Transformer提出名為TransLoc3D的網(wǎng)絡(luò)結(jié)構(gòu),TransLoc3D由一個(gè)3D稀疏卷積模塊、自適應(yīng)感受 野 模 塊(Adaptive Receptive Field Module,ARFM)以及NetVLAD層組成。ARFM模塊能夠自適應(yīng)調(diào)整輸入點(diǎn)云的感受野大小,用于捕捉物體不同尺度的幾何結(jié)構(gòu),基于自適應(yīng)感受野模塊的TransLoc3D比之前基于Transformer的方法[66]提升近1%。Fan等[26]提出的SVT-Net網(wǎng)絡(luò)模型包括基于原子的稀疏體素變換器(Atombased Sparse Voxel Transformer,ASVT)和基于聚類的稀疏體素變換器(Cluster-based Sparse Voxel Transformer,CSVT),該網(wǎng)絡(luò)模型在點(diǎn)云柵格的基礎(chǔ)上,提取每個(gè)柵格的局部特征以及語義特征,用于場景識(shí)別。Hui等[67]提出一個(gè)金字塔點(diǎn)轉(zhuǎn)換器模塊,利用分組自注意機(jī)制自適應(yīng)地學(xué)習(xí)不同尺度下,不同鄰近區(qū)域之間的空間關(guān)系,構(gòu)造金字塔VLAD模塊將點(diǎn)云的多尺度特征映射到全局描述符中。
Transformer模型缺乏歸納偏置能力,并不具備卷積的平移不變性和局部敏感性,因此在數(shù)據(jù)不足時(shí),不能很好地泛化任務(wù)。
表1列舉了部分基于學(xué)習(xí)獲得特征的網(wǎng)絡(luò)模型的提出時(shí)間、網(wǎng)絡(luò)主干結(jié)構(gòu)以及關(guān)鍵技術(shù)。
表1 基于學(xué)習(xí)獲得特征的網(wǎng)絡(luò)模型Tab.1 Network models based on learning to obtain features
為了驗(yàn)證相關(guān)算法對(duì)場景識(shí)別的效果,有效的數(shù)據(jù)集必不可少。隨著深度學(xué)習(xí)在點(diǎn)云處理方面的快速發(fā)展,許多研究機(jī)構(gòu)提供了很多開源的三維數(shù)據(jù)集,下面分別介紹適用于基于Lidar的地點(diǎn)識(shí)別的基準(zhǔn)數(shù)據(jù)集,以訓(xùn)練和評(píng)估網(wǎng)絡(luò):
(1)Oxford RobotCar[6]數(shù)據(jù)集被廣泛地應(yīng)用于自動(dòng)駕駛與深度學(xué)習(xí)領(lǐng)域,它是由牛津大學(xué)使用RobotCar汽車平臺(tái)在英國牛津市內(nèi)駕駛,采集了各種時(shí)間段內(nèi)的駕駛環(huán)境信息得到的,平均每周在牛津市中心運(yùn)行10公里路線產(chǎn)生數(shù)據(jù),總計(jì)約1010公里。該數(shù)據(jù)集覆蓋了商業(yè)區(qū)Business District(B.D.),住宅區(qū)域Residual Area(R.A.)以及大學(xué)區(qū)域University Sector(U.S.)。該數(shù)據(jù)包含超過2 000萬張車載相機(jī)拍攝的圖片、激光雷達(dá)數(shù)據(jù)、GPS和慣性導(dǎo)航收集的地貌資料以及處理后的里程計(jì)信息。主要呈現(xiàn)英國牛津同一條路線在一年內(nèi)的變化,包含不同天氣、光照和季節(jié)的情況。
(2)KITTI odometry[70-71]數(shù) 據(jù) 集 是Geiger等人于德國卡爾魯斯市采集的公開室外汽車駕駛數(shù)據(jù)集,該數(shù)據(jù)集用于評(píng)測立體圖像,光流,視覺測距,3D物體檢測和3D跟蹤等計(jì)算機(jī)視覺技術(shù)在車載環(huán)境下的性能。采集該數(shù)據(jù)集的平臺(tái)包括兩個(gè)灰度攝像機(jī)、兩個(gè)彩色攝像機(jī)、一個(gè)激光雷達(dá),一個(gè)慣性測量模塊以及GPS導(dǎo)航系統(tǒng)。其中平臺(tái)上采集激光點(diǎn)云數(shù)據(jù)的激光雷達(dá)是Velo?dyne HDL-64E,它以10 Hz的頻率運(yùn)行,具有360°水平視場,26.8°的垂直視場,測量范圍120 m。采集區(qū)域覆蓋了市中心、住宅區(qū)、高速公路以及德國卡爾斯魯厄周圍的鄉(xiāng)村道路等多個(gè)室外場景,共包含22個(gè)序列數(shù)據(jù)(00-21)。該序列被分割為訓(xùn)練集(序列00到10)和測試集(序列11到21)。其中,序 列00到10包 含有由GPS等設(shè)備標(biāo)定的位姿真值的數(shù)據(jù),序列11到21沒有提供真實(shí)位姿。
(3)North Campus Long Term(NCLT)[72]數(shù)據(jù)集是利用移動(dòng)機(jī)器人在密歇根大學(xué)北校區(qū)收集的一個(gè)大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集大約每兩周掃描一次,為期15個(gè)月,6月獲得850個(gè)掃描數(shù)據(jù),12月獲得850個(gè)掃描數(shù)據(jù),覆蓋了不同光照、植被和天氣的27個(gè)不同的路線的數(shù)據(jù)。該數(shù)據(jù)包括圖像、3D激光雷達(dá)點(diǎn)云數(shù)據(jù)以及GPS信息。利用安裝在移動(dòng)機(jī)器人上的Velodyne HDL-32E激光雷達(dá)傳感器收集環(huán)境的三維點(diǎn)云。
(4)MulRan[73]數(shù) 據(jù) 集 是 利 用 一 個(gè)Navtech毫米波雷達(dá)傳感器OS1-64,以及Ouster OS1-64激光傳感器掃描得到。包含會(huì)議中心、大學(xué)校園、高速公路以及河邊道路四個(gè)場景,每個(gè)場景包含三個(gè)不同的時(shí)間段。該數(shù)據(jù)集主要用于毫米波雷達(dá)的地點(diǎn)重識(shí)別任務(wù),相對(duì)于激光雷達(dá)數(shù)據(jù),毫米波雷達(dá)穿透性更強(qiáng),探測距離更長。
(5)Ford校園數(shù)據(jù)集[74]是密歇根大學(xué)和福特汽車公司合作采集的市中心城市環(huán)境的數(shù)據(jù)集。該數(shù)據(jù)集使用福特F250皮卡,裝配激光雷達(dá)Velodyne HDL-64E lidar、Riegl LMS-Q120 li?dar以及Point Grey Ladybug3全方位攝像頭掃描得到。
(6)SEU-FX數(shù)據(jù)集[75]是東南大學(xué)空間信息與定位導(dǎo)航研究中心Future X實(shí)驗(yàn)室采集的可用于研究長時(shí)間跨度的場景識(shí)別和重定位任務(wù)的數(shù)據(jù)集。該數(shù)據(jù)集采集了不同天氣、時(shí)間、光照條件下的城市道路、校園場景同一路徑的重復(fù)數(shù)據(jù)。共包含約10個(gè)小時(shí)的采集時(shí)長,城市道路數(shù)據(jù)時(shí)長約2個(gè)小時(shí),其中晴天天氣約1小時(shí)20分,雨天、雪天各約20分;校園道路數(shù)據(jù)時(shí)長約9小時(shí),其中晴天天氣和陰天天氣各約3小時(shí),雨天和雪天天氣各約1小時(shí)30分。
表2為面向點(diǎn)云的場景識(shí)別常見數(shù)據(jù)集,列舉了多個(gè)用于場景識(shí)別的公共數(shù)據(jù)集以及一個(gè)課題組自行采集的數(shù)據(jù)集,分別列出了采集數(shù)據(jù)時(shí)用到的移動(dòng)平臺(tái)、搭建的主要硬件設(shè)備(傳感器類型、相機(jī))以及掃描數(shù)據(jù)時(shí)涉及到的時(shí)間、光照、數(shù)據(jù)總量等。
表2 面向點(diǎn)云的場景識(shí)別常見數(shù)據(jù)集Tab.2 Dataset for scene recognition of point cloud
為了公正地評(píng)估場景識(shí)別算法的性能,本節(jié)采用標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo)對(duì)經(jīng)典的場景識(shí)別模型進(jìn)行分析與討論。首先,以模型規(guī)模大小、運(yùn)行時(shí)間和召回率為評(píng)價(jià)指標(biāo)衡量現(xiàn)有的場景識(shí)別模型的性能,然后收集上述度量指標(biāo)在代表性的數(shù)據(jù)集(Oxford RobotCar、KITTI)上的識(shí)別結(jié)果,最后,對(duì)這些結(jié)果進(jìn)行總結(jié)并得出結(jié)論。
表3總結(jié)了部分點(diǎn)云場景識(shí)別模型的參數(shù)量以及運(yùn)行時(shí)間。該實(shí)驗(yàn)結(jié)果是利用論文作者發(fā)布在GitHub上的源代碼,在NVidia GeForce GTX GPU 2080Ti,64 GB RAM環(huán)境下運(yùn)行的結(jié)果。其中,參數(shù)量表示網(wǎng)絡(luò)執(zhí)行時(shí)訓(xùn)練參數(shù)數(shù)量,運(yùn)行時(shí)間是由TensorFlow進(jìn)行運(yùn)行跟蹤獲取的運(yùn)行時(shí)間線。在各個(gè)模型的運(yùn)行時(shí)間中,Lpd-Net模型的運(yùn)行時(shí)間不包括十個(gè)人工特征的計(jì)算時(shí)間??梢钥闯?,網(wǎng)絡(luò)Minkloc3D相比與其它三個(gè)網(wǎng)絡(luò)而言,參數(shù)量最少,PointNetVLAD、PCAN與Lpd-Net參數(shù)量基本相同。對(duì)于運(yùn)行時(shí)間而言,PCAN相較于其它模型而言,運(yùn)行時(shí)間較長。
表3 網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)數(shù)量與運(yùn)行時(shí)間Tab.3 Network parameter quantity and runtime of differ?ent scene recognition models
表4總結(jié)了部分基于特征描述符的場景識(shí)別方法中特征描述符的維度??梢钥闯?,相比其它描述符,F(xiàn)PFH描述符維度最少。
表4 三維局部描述符維度Tab.4 3D local descriptor dimension
為了評(píng)估場景識(shí)別算法的性能,使用不同網(wǎng)絡(luò)模型對(duì)Oxford RobotCar公共數(shù)據(jù)集進(jìn)行測試,得到識(shí)別精度。位置識(shí)別的結(jié)果通常被看作一個(gè)排序問題,在排序問題中通常沒有一個(gè)確定的閾值把結(jié)果直接判定為正樣本或者負(fù)樣本,因此,在面向點(diǎn)云的場景識(shí)別任務(wù)中通常采用Top-N(排名前N)返回結(jié)果的召回率(Recall)來衡量排序模型的性能,即認(rèn)為模型返回的Top-N的結(jié)果就是模型判斷的正樣本,然后計(jì)算前N個(gè)位置上的召回率,用Recall@N表示。已有的工作通常使用Recall@N%評(píng)價(jià)指標(biāo)。表5分別列出不同的網(wǎng)絡(luò)模型對(duì)該數(shù)據(jù)集的AR(Average Re?call,平均召回率),AR最高的加黑顯示??梢钥闯觯壳耙延械幕谏疃葘W(xué)習(xí)的場景識(shí)別方法平均召回率在80%以上,TransLoc3D在Oxford RobotCar數(shù)據(jù)集評(píng)估中Average Recall@1%指標(biāo)達(dá)到98.5%。SVT-Net在數(shù)據(jù)集U.S.,R.A.,B.D.中的Average Recall@1%指標(biāo)分別達(dá)到96.5%,92.7%,90.7%。綜 合 來 看,基 于Transformer框架的SVT-Net網(wǎng)絡(luò)模型效果較好。這主要是由于SVT-Net中的基于原子的稀疏體素變換器和基于聚類的稀疏體素變換器能較好地提取點(diǎn)云的語義屬性。
表5 基于深度學(xué)習(xí)的場景識(shí)別方法結(jié)果Tab.5 Scene recognition results based on deep learning
KITTI數(shù)據(jù)集也是用于場景識(shí)別的代表性數(shù)據(jù)集,它具有較為豐富的序列,能夠較好評(píng)價(jià)場景識(shí)別算法在室外場景下的性能?;谔卣髅枋龇膱鼍白R(shí)別方法多是利用KITTI數(shù)據(jù)集評(píng)估算法的有效性,因此,表6列舉了傳統(tǒng)方法M2DP、Scan Context在KITTI數(shù)據(jù)集上的F1最高分?jǐn)?shù)。同時(shí),列舉了點(diǎn)云場景識(shí)別的開創(chuàng)性網(wǎng)絡(luò)PointNetVLAD,基于深度學(xué)習(xí)的網(wǎng)絡(luò)Sem?Graph以及基于點(diǎn)云分割的場景識(shí)別方法Locus在KITTI數(shù)據(jù)集上的F1最高分?jǐn)?shù)。對(duì)于KITTI數(shù)據(jù)集02序列,SemGraph方法取得較好的效果,對(duì)于KITTI數(shù) 據(jù)集06序 列,ScanContext取 得 較好的效果,對(duì)于其它序列,Locus方法優(yōu)于其它幾個(gè)方法。
表6 KITTI數(shù)據(jù)集上的F1最高分?jǐn)?shù)Tab.6 F1 max scores on the KITTI dataset
三維點(diǎn)云場景識(shí)別是一個(gè)具有重要意義和富有挑戰(zhàn)的問題,近年來吸引了越來越多研究人員的關(guān)注。本文重點(diǎn)介紹了近些年來面向三維點(diǎn)云的場景識(shí)別方法的發(fā)展,并對(duì)各類方法進(jìn)行了分析與比較,可以發(fā)現(xiàn),對(duì)三維點(diǎn)云場景的分析與識(shí)別正逐漸成為當(dāng)前的研究熱點(diǎn),但仍舊面臨著許多挑戰(zhàn)。
5.1.1場景穩(wěn)定特征的提取與表述問題
室外點(diǎn)云場景規(guī)避了光照條件的影響,但對(duì)于同一室外場景,往往受到動(dòng)態(tài)遮擋(行人、不同車輛停放)、人為改造帶來的場景結(jié)構(gòu)變化的影響,同一場景得到的掃描數(shù)據(jù)有較大差異性。三維激光雷達(dá)傳感器具有良好的測距精度和掃描分辨率,它對(duì)物體的外形表達(dá)具有獨(dú)特的優(yōu)勢,對(duì)場景中相對(duì)固定的物體如:建筑、植被等景物有良好的表述能力。因此,如何充分利用激光點(diǎn)云數(shù)據(jù)的優(yōu)勢,提取場景中相對(duì)穩(wěn)定的環(huán)境特征來實(shí)現(xiàn)場景的表述與識(shí)別,是保障場景識(shí)別準(zhǔn)確率的關(guān)鍵。
5.1.2三維空間關(guān)系的表達(dá)問題
對(duì)于真實(shí)世界中的三維點(diǎn)云物體,其拓?fù)潢P(guān)系復(fù)雜多變,現(xiàn)有的工作針對(duì)物體間的拓?fù)潢P(guān)系往往關(guān)注物體間的距離、空間位置關(guān)系等幾何屬性,較少考慮物體之間的語義關(guān)系。針對(duì)三維空間關(guān)系表達(dá)的局限性,利用圖結(jié)構(gòu)等豐富的知識(shí)表達(dá)工具,應(yīng)用推理模型,通過對(duì)物體與物體間、三維模型本身的結(jié)構(gòu)差異進(jìn)行挖掘與分析,獲取場景的語義結(jié)構(gòu)圖,在分析物體自身的幾何屬性以及物理屬性(顏色、材質(zhì)、形狀等信息)基礎(chǔ)上,充分挖掘分析場景中物體間的位置關(guān)系、結(jié)構(gòu)關(guān)系、連接關(guān)系等空間分布規(guī)律,有效提取物體間的上下文語義信息,為場景的準(zhǔn)確識(shí)別奠定基礎(chǔ)。
5.1.3面向大規(guī)模數(shù)據(jù)的計(jì)算能力問題
用于場景識(shí)別的數(shù)據(jù)集的規(guī)模往往比較大,針對(duì)室外大范圍環(huán)境構(gòu)建的地圖模型具有大范圍、大尺度和海量性的特性。同時(shí),從大量的點(diǎn)云場景數(shù)據(jù)中計(jì)算每個(gè)點(diǎn)的高維特征向量,并基于此構(gòu)造獨(dú)特的全局特征描述符用于場景識(shí)別,這對(duì)存儲(chǔ)空間以及計(jì)算時(shí)間帶來巨大的挑戰(zhàn),嚴(yán)重影響場景識(shí)別應(yīng)用的實(shí)時(shí)性。針對(duì)數(shù)據(jù)量大導(dǎo)致的計(jì)算量大問題,可以考慮選擇合適的地圖類型以及構(gòu)造有效的場景全局特征描述符,實(shí)現(xiàn)對(duì)大范圍室外場景簡潔高效表達(dá),以降低計(jì)算量,提高三維點(diǎn)云場景的識(shí)別效率。
5.1.4相似場景間的區(qū)分問題
由于場景中物體的多樣性以及復(fù)雜性,對(duì)于具有相同物體的場景,物體自身的表面材料組成對(duì)場景的識(shí)別有很大影響。不同材料的同類物體往往會(huì)出現(xiàn)在不同的場景中,特別是室內(nèi)場景,例如:椅子是臥室和教室中的常見物體,但是臥室中的椅子多是布質(zhì)的,而教室中的椅子多是木質(zhì)的,單純地依靠物體類別識(shí)別場景,會(huì)導(dǎo)致識(shí)別準(zhǔn)確率低的問題。針對(duì)物體表面材料對(duì)場景識(shí)別的影響,可以在識(shí)別物體類別的基礎(chǔ)上,對(duì)物體的組成結(jié)構(gòu)分析,以區(qū)分同類物體間的差異。
5.2.1多模態(tài)數(shù)據(jù)融合的場景識(shí)別方法研究
三維點(diǎn)云數(shù)據(jù)可規(guī)避掃描時(shí)間、光照、紋理等多種因素對(duì)場景識(shí)別的影響,但是仍然無法規(guī)避動(dòng)態(tài)遮擋(行人、不同車輛停放)、人為改造帶來的場景結(jié)構(gòu)變化的影響,可以考慮加入其它多模態(tài)數(shù)據(jù)減少遮擋對(duì)場景識(shí)別準(zhǔn)確率的影響。如何選擇和選擇哪些單模態(tài)數(shù)據(jù)進(jìn)行融合,以及在融合過程中如何設(shè)置其權(quán)重都需要進(jìn)一步的討論研究。
5.2.2基于點(diǎn)云邊緣計(jì)算的點(diǎn)云場景識(shí)別方法研究
由于點(diǎn)云場景包含有豐富的對(duì)象,具有大范圍、大尺度和海量性等特性,實(shí)時(shí)完成點(diǎn)云場景的識(shí)別比較困難。隨著5G技術(shù)的快速發(fā)展,可以在場景識(shí)別方法中引入5G時(shí)代的點(diǎn)云邊緣計(jì)算。5G具備超高帶寬、低時(shí)延、高可靠、廣覆蓋等特點(diǎn),與邊緣計(jì)算結(jié)合可以使得點(diǎn)云大數(shù)據(jù)的實(shí)時(shí)傳輸和在線處理變?yōu)楝F(xiàn)實(shí)[76],保證場景識(shí)別的實(shí)時(shí)性,為自動(dòng)駕駛、移動(dòng)機(jī)器人的快速發(fā)展奠定基礎(chǔ)。