車(chē)運(yùn)龍,袁 亮,孫麗慧
1.北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029
2.航天工程大學(xué)士官學(xué)校,北京 100000
三維目標(biāo)檢測(cè)是自動(dòng)駕駛感知系統(tǒng)的重要組成部分,其目的是在自動(dòng)駕駛場(chǎng)景中獲得車(chē)輛、行人和其他物體的尺寸和位置信息[1-2]。激光雷達(dá)作為自動(dòng)駕駛感知領(lǐng)域的主要傳感器,其提供的原始點(diǎn)云數(shù)據(jù)具有精確的幾何信息。激光點(diǎn)云具有數(shù)據(jù)量大且無(wú)序的特點(diǎn),因此如何從眾多點(diǎn)云中篩選出具有較好特征代表性的可用數(shù)據(jù)點(diǎn),成為目標(biāo)檢測(cè)領(lǐng)域的一個(gè)研究熱點(diǎn)。
根據(jù)前人的研究進(jìn)展,基于對(duì)點(diǎn)云數(shù)據(jù)的處理方式,現(xiàn)有的三維檢測(cè)方法可基本分為兩類(lèi):基于體素的方法和基于點(diǎn)的方法[3-4]。
基于體素的方法通常是將不規(guī)則點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為規(guī)則的網(wǎng)格表示,例如三維體素網(wǎng)格或二維鳥(niǎo)瞰圖,后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取特征以生成物體的三維建議。VoxelNet[5]首次提出點(diǎn)云的體素表示方法,采用體素特征編碼層(VFE)完成從原始點(diǎn)云到體素特征的轉(zhuǎn)換。雖然這種方法實(shí)現(xiàn)了對(duì)點(diǎn)云的體素特征編碼,但是編碼后的體素?cái)?shù)量過(guò)多且含有大量空體素,導(dǎo)致后續(xù)三維卷積顯存占用過(guò)大,訓(xùn)練速度較慢。鑒于此,SECOND[6]網(wǎng)絡(luò)提出稀疏卷積的方法,采用索引的方式對(duì)非空的輸入做3D卷積,之后填入對(duì)應(yīng)的輸出位置。該方法避免了大量不可用的空體素對(duì)計(jì)算資源的消耗,提升了檢測(cè)效率。
基于點(diǎn)的方法大都采用直接從不規(guī)則點(diǎn)云數(shù)據(jù)中提取特征,進(jìn)而保留原始點(diǎn)云的精確幾何信息。PointNet[7]首次提出從原始點(diǎn)云學(xué)習(xí)逐點(diǎn)特征信息,但其直接對(duì)全局特征進(jìn)行池化操作,會(huì)造成局部特征信息的缺失。PointNet++[8]提出采用堆疊集合抽象層并設(shè)置靈活的感受野區(qū)域,對(duì)點(diǎn)云進(jìn)行多層次的局部特征提取,提升了網(wǎng)絡(luò)的特征學(xué)習(xí)能力。PointRCNN[9]在PointNet++點(diǎn)云分割方法的基礎(chǔ)上,提出基于自下而上的三維目標(biāo)檢測(cè)生成算法,取得了較好的效果。
為保留體素有效編碼多尺度特征并生成高質(zhì)量三維建議框的優(yōu)點(diǎn),同時(shí)發(fā)揮基于點(diǎn)方法的靈活感受野和較好的建議框細(xì)化能力。PV-RCNN[10]通過(guò)集抽象的方式對(duì)點(diǎn)到體素進(jìn)行關(guān)鍵場(chǎng)景編碼,同時(shí)保留了體素的快速編碼能力和點(diǎn)的特征細(xì)化能力,從而提高3D 目標(biāo)檢測(cè)性能。
盡管PV-RCNN網(wǎng)絡(luò)在三維目標(biāo)檢測(cè)任務(wù)上取得了較好的效果,但在特征融合采樣上仍然存在局限性。從原始點(diǎn)云中篩選出有限且準(zhǔn)確的關(guān)鍵點(diǎn)是點(diǎn)與體素特征融合的關(guān)鍵。PV-RCNN 網(wǎng)絡(luò)采用最遠(yuǎn)點(diǎn)采樣方法(farthest point sampling,F(xiàn)PS),其傾向于選擇較遠(yuǎn)的點(diǎn)以更好地覆蓋整個(gè)場(chǎng)景,但由于原始輸入點(diǎn)中含有大量背景點(diǎn),F(xiàn)PS 采樣到的點(diǎn)中涉及過(guò)多不相關(guān)的背景點(diǎn),而大量有益的前景點(diǎn)被不適當(dāng)?shù)貋G棄,進(jìn)而影響后續(xù)網(wǎng)絡(luò)的特征學(xué)習(xí)。PV-RCNN++網(wǎng)絡(luò)[11]提出基于提案中心區(qū)域的關(guān)鍵點(diǎn)采樣方法,在進(jìn)行關(guān)鍵點(diǎn)采樣前,通過(guò)區(qū)域過(guò)濾將采樣范圍縮小至提案周?chē)?,提升了關(guān)鍵點(diǎn)采樣中的前景點(diǎn)比例,但該網(wǎng)絡(luò)在關(guān)鍵點(diǎn)采樣中仍采用傳統(tǒng)的FPS 采樣方式,未能全面地采樣到更多的前景點(diǎn)。SASA 網(wǎng)絡(luò)[12]提出語(yǔ)義增強(qiáng)集抽象方法,通過(guò)添加語(yǔ)義分割模塊估計(jì)逐點(diǎn)語(yǔ)義分?jǐn)?shù),并采用語(yǔ)義引導(dǎo)的點(diǎn)采樣算法,識(shí)別與前景對(duì)象相關(guān)的價(jià)值點(diǎn),在基于點(diǎn)表示的目標(biāo)檢測(cè)網(wǎng)絡(luò)中取得了進(jìn)一步提升,但在采樣結(jié)果中仍存在對(duì)遠(yuǎn)距離的離群點(diǎn)不敏感問(wèn)題。
針對(duì)上述問(wèn)題,文章提出一種基于強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣的三維目標(biāo)檢測(cè)方法。(1)通過(guò)三維語(yǔ)義分割網(wǎng)絡(luò),提取逐點(diǎn)語(yǔ)義信息,改進(jìn)傳統(tǒng)FPS采樣中只基于距離采樣的缺陷;(2)將基于候選框的FPS 采樣方法與基于語(yǔ)義加權(quán)的FPS采樣方法融合,彌補(bǔ)對(duì)遠(yuǎn)距離離群點(diǎn)不敏感問(wèn)題;(3)在特征聚合階段,對(duì)關(guān)鍵點(diǎn)特征進(jìn)行語(yǔ)義分?jǐn)?shù)重新加權(quán)實(shí)現(xiàn)對(duì)特征貢獻(xiàn)的進(jìn)一步分配。
水擊中流揚(yáng)帆進(jìn),乘風(fēng)破浪正當(dāng)時(shí)。今天,云南民營(yíng)經(jīng)濟(jì)已成為云南省拉動(dòng)投資增長(zhǎng)的主要?jiǎng)恿?、?chuàng)業(yè)就業(yè)的主力軍、財(cái)政收入的重要來(lái)源、促進(jìn)對(duì)外貿(mào)易的主要力量、繁榮市場(chǎng)的主體力量。東風(fēng)已至,在改革開(kāi)放的偉大歷史進(jìn)程中,云南民營(yíng)經(jīng)濟(jì)將繼續(xù)演繹“春天的故事”。
基于PV-RCNN 網(wǎng)絡(luò)基本框架,對(duì)關(guān)鍵點(diǎn)采樣模塊和語(yǔ)義信息加權(quán)模塊進(jìn)行改進(jìn),提出了一種基于強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法的三維目標(biāo)檢測(cè)網(wǎng)絡(luò),旨在關(guān)鍵點(diǎn)采樣階段提取更具特征代表性與判別性的關(guān)鍵點(diǎn)。
算法由五個(gè)核心模塊組成:(1)三維稀疏卷積主干網(wǎng)絡(luò):將輸入點(diǎn)云數(shù)據(jù)進(jìn)行體素化生成標(biāo)準(zhǔn)數(shù)據(jù)格式,并經(jīng)三維卷積完成特征提取;(2)二維特征提取網(wǎng)絡(luò)和RPN 模塊:通過(guò)對(duì)特征圖進(jìn)行不同尺度的下采樣,經(jīng)過(guò)RPN卷積運(yùn)算,生成三維目標(biāo)預(yù)測(cè)框和類(lèi)別信息;(3)三維點(diǎn)云語(yǔ)義分割網(wǎng)絡(luò):通過(guò)語(yǔ)義分割得到逐點(diǎn)語(yǔ)義分?jǐn)?shù),為后續(xù)關(guān)鍵點(diǎn)采樣方法提供語(yǔ)義加權(quán)信息;(4)關(guān)鍵點(diǎn)采樣與集抽象特征融合模塊:根據(jù)三維點(diǎn)語(yǔ)義信息和RPN模塊生成的候選框位置信息,在三維點(diǎn)云中采樣出一部分關(guān)鍵點(diǎn),并將其置于原始點(diǎn)云、體素特征層、鳥(niǎo)瞰圖層中進(jìn)行集抽象采樣,完成特征聚合,實(shí)現(xiàn)對(duì)整個(gè)場(chǎng)景的信息表達(dá);(5)RoI多尺度特征聚合模塊:多尺度集合抽象實(shí)現(xiàn)對(duì)RoI(region of interest)區(qū)域關(guān)鍵點(diǎn)信息的特征提取,輸出建議框類(lèi)別信息與尺寸置信度。
與基準(zhǔn)算法相比,文章所提算法的檢測(cè)精度在KITTI驗(yàn)證集和測(cè)試集上都取得了不錯(cuò)的效果,尤其在Cyclist類(lèi)的表現(xiàn),超越了當(dāng)前大部分主流三維目標(biāo)檢測(cè)算法。網(wǎng)絡(luò)整體結(jié)構(gòu)為圖1所示。
圖1 網(wǎng)絡(luò)算法框架圖Fig.1 Diagram of network algorithm frame
算法的主干網(wǎng)絡(luò)為基于體素的方法,輸入點(diǎn)云經(jīng)體素化后成為標(biāo)準(zhǔn)三維體素?cái)?shù)據(jù)格式。為加速?gòu)埩窟\(yùn)算速度,采取傳統(tǒng)三維稀疏卷積與子流形三維稀疏卷積相結(jié)合的方式對(duì)體素?cái)?shù)據(jù)進(jìn)行卷積運(yùn)算,保證了合適的感受野大小以及良好的網(wǎng)絡(luò)卷積稀疏性,同時(shí)也減小了內(nèi)存的占用。兩種稀疏卷積模塊均使用批標(biāo)準(zhǔn)化(batch normalization,BN)對(duì)數(shù)據(jù)進(jìn)行歸一化處理和線性整流函數(shù)(ReLU)來(lái)提高模型的表達(dá)能力,加快學(xué)習(xí)速度。三維卷積完成對(duì)輸入點(diǎn)云數(shù)據(jù)的特征提取后,將輸出張量沿z軸向下壓縮生成鳥(niǎo)瞰圖特征映射,生成標(biāo)準(zhǔn)的二維特征數(shù)據(jù)格式。二維特征提取網(wǎng)絡(luò)通過(guò)對(duì)特征圖進(jìn)行不同尺度的下采樣,最后將輸出特征與RPN中1×1卷積層進(jìn)行卷積運(yùn)算,生成三維目標(biāo)預(yù)測(cè)框和預(yù)測(cè)類(lèi)別。
三維點(diǎn)云語(yǔ)義分割網(wǎng)絡(luò)為采樣方法提供逐點(diǎn)語(yǔ)義信息,具體為:將點(diǎn)云原始三維坐標(biāo)(x,y,z)及反射率r等信息送入PointNet++語(yǔ)義分割網(wǎng)絡(luò),首先通過(guò)多個(gè)集抽象方法(在整個(gè)點(diǎn)云內(nèi)劃定多個(gè)局部采用范圍,將范圍內(nèi)的點(diǎn)作為局部的特征,用PointNet方法進(jìn)行特征提取)實(shí)現(xiàn)多層次的下采樣,得到不同規(guī)模的逐點(diǎn)特征,之后通過(guò)反向插值和殘差連接進(jìn)行上采樣,以獲得具有局部和全局加權(quán)的逐點(diǎn)語(yǔ)義信息。該模塊得到的整個(gè)場(chǎng)景范圍內(nèi)的逐點(diǎn)語(yǔ)義分?jǐn)?shù),將為后續(xù)關(guān)鍵點(diǎn)采樣方法提供語(yǔ)義加權(quán)信息。
從原始點(diǎn)云中篩選出有限且準(zhǔn)確的關(guān)鍵點(diǎn),是點(diǎn)云特征與體素特征融合的關(guān)鍵。傳統(tǒng)FPS 采樣步驟為:(1)隨機(jī)選取一個(gè)點(diǎn)fi為起始點(diǎn),并寫(xiě)入起始點(diǎn)集B={fi} ;(2)計(jì)算所有點(diǎn)與(1)中點(diǎn)的距離,選擇距離最大的值寫(xiě)入起始點(diǎn)集B={fi,fj} ;(3)計(jì)算剩余各點(diǎn)和點(diǎn)集B中每個(gè)點(diǎn)的距離,將最短距離作為該點(diǎn)到點(diǎn)集的距離,選取距離最遠(yuǎn)點(diǎn)寫(xiě)入起始點(diǎn)集B={fi,fj,fk} ;(4)重復(fù)上述操作直到滿足采樣點(diǎn)數(shù)量。
傳統(tǒng)FPS 采樣策略?xún)A向于選擇距離較遠(yuǎn)的點(diǎn)以更好地覆蓋整個(gè)場(chǎng)景,這可能會(huì)使采樣到的點(diǎn)涉及過(guò)多不相關(guān)的背景點(diǎn)。因此,文章采用基于語(yǔ)義引導(dǎo)的關(guān)鍵點(diǎn)采樣方法,保持傳統(tǒng)FPS 的整體過(guò)程不變,通過(guò)合并逐點(diǎn)語(yǔ)義信息校正采樣度量(即到已采樣點(diǎn)的距離)。具體來(lái)說(shuō),將添加到關(guān)鍵點(diǎn)集B中的采樣點(diǎn)由選取剩余點(diǎn)到點(diǎn)集B的距離最大值點(diǎn)變?yōu)榫哂姓Z(yǔ)義權(quán)重p加權(quán)的距離最大值點(diǎn),采樣度量如下:
基于語(yǔ)義引導(dǎo)的關(guān)鍵點(diǎn)采樣方法可以實(shí)現(xiàn)在原始點(diǎn)云中采樣到的關(guān)鍵點(diǎn)大部分都是前景語(yǔ)義點(diǎn),但對(duì)于自動(dòng)駕駛場(chǎng)景下的遠(yuǎn)距離物體,由于其距離較遠(yuǎn)、落在其表面的點(diǎn)較為稀少,且語(yǔ)義分割網(wǎng)絡(luò)生成的語(yǔ)義分?jǐn)?shù)較低造成語(yǔ)義加權(quán)后的采樣權(quán)重值較小,導(dǎo)致采樣算法往往難以選擇它們。因此,語(yǔ)義加權(quán)的采樣方法存在對(duì)遠(yuǎn)距離的離群點(diǎn)不敏感的問(wèn)題。
參考PV-RCNN++網(wǎng)絡(luò)基于候選框的關(guān)鍵點(diǎn)采樣方法:將RPN階段生成的建議框置于原始點(diǎn)云場(chǎng)景中,將以建議框中心為圓心、建議框最大尺寸與擴(kuò)充尺寸之和為半徑的圓形區(qū)域作為關(guān)鍵點(diǎn)選擇區(qū)域,從原始三維點(diǎn)云中篩選出位于候選框周?chē)狞c(diǎn),針對(duì)過(guò)濾后的點(diǎn)采用傳統(tǒng)FPS采樣方式,實(shí)現(xiàn)候選框周?chē)c(diǎn)的均勻采樣。
基于候選框的關(guān)鍵點(diǎn)采樣方法通過(guò)區(qū)域過(guò)濾將采樣范圍縮小至提案周?chē)?,提升了關(guān)鍵點(diǎn)采樣中的前景點(diǎn)比例,但考慮到縮小采樣范圍的同時(shí)也出現(xiàn)因候選框位置不準(zhǔn)確而導(dǎo)致關(guān)鍵點(diǎn)遺漏等問(wèn)題,同時(shí)上述S-FPS采樣方式對(duì)離群點(diǎn)不敏感的缺點(diǎn),文章提出基于候選框的FPS采樣方式與基于語(yǔ)義引導(dǎo)的S-FPS采樣方式融合的強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法。
圖2 展示了基于強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法的采樣過(guò)程,其中圓點(diǎn)為原始點(diǎn)云,五角星為采樣關(guān)鍵點(diǎn)?;诤蜻x框的FPS 采樣方法首先對(duì)原始點(diǎn)云進(jìn)行建議框過(guò)濾,之后對(duì)建議框內(nèi)的點(diǎn)進(jìn)行FPS 采樣;基于語(yǔ)義引導(dǎo)的S-FPS 采樣方法通過(guò)語(yǔ)義信息加權(quán)的距離值采樣關(guān)鍵點(diǎn)。最后,將兩種采樣到的關(guān)鍵點(diǎn)進(jìn)行融合,保留兩者均采樣到的關(guān)鍵點(diǎn),對(duì)于不重合的關(guān)鍵點(diǎn)基于語(yǔ)義引導(dǎo)的FPS采樣方法做進(jìn)一步的關(guān)鍵點(diǎn)采樣,在滿足關(guān)鍵點(diǎn)數(shù)量的情況下篩選出具有較好特征代表性的點(diǎn)云數(shù)據(jù)。強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法既削弱了S-FPS 對(duì)離群點(diǎn)的不敏感性又改進(jìn)了提案中心區(qū)域的關(guān)鍵點(diǎn)采樣方法中候選框偏差導(dǎo)致的關(guān)鍵點(diǎn)遺漏問(wèn)題,提升了算法提取有用關(guān)鍵點(diǎn)的能力。
圖2 強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣示意圖Fig.2 Strong semantic key point sampling diagram
在關(guān)鍵點(diǎn)的采樣中,盡管引入了語(yǔ)義信息,但其中一部分仍可能僅代表背景區(qū)域。在特征信息提取與處理階段,屬于前景對(duì)象的關(guān)鍵點(diǎn)應(yīng)該對(duì)目標(biāo)檢測(cè)框的精確細(xì)化貢獻(xiàn)更大,而來(lái)自背景區(qū)域的關(guān)鍵點(diǎn)貢獻(xiàn)更少。鑒于此,提出了一個(gè)關(guān)鍵點(diǎn)加權(quán)模塊,在不增加網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,用點(diǎn)云分割結(jié)果加權(quán)關(guān)鍵點(diǎn)特征,實(shí)現(xiàn)對(duì)關(guān)鍵點(diǎn)權(quán)重的進(jìn)一步分配,為后續(xù)網(wǎng)絡(luò)提供更好的特征信息。
網(wǎng)絡(luò)的損失函數(shù)包含三個(gè)部分:RRN 階段損失Lrpn、語(yǔ)義分割損失Lcls、RCNN 階段損失Lrcnn。其中Lrpn損失與SECOND一樣,可表示為:
式中,Lrpn-cls是分類(lèi)損失,采用的是Focal Loss函數(shù)[13],Lrpn-reg-other是位置和尺寸的回歸損失,Lrpn-reg-q是角度損失,Lrpn-dir是方向分類(lèi)損失。β1=1.0、β2=1.0 和β3=1.0 是損失公式的常數(shù)系數(shù)。文章使用相對(duì)較小的β3值來(lái)避免網(wǎng)絡(luò)難以識(shí)別物體方向的情況。
語(yǔ)義分割損失Lcls采用的是Focal Loss函數(shù)。RCNN階段損失Lrcnn由預(yù)測(cè)框的尺寸損失和置信度損失組成,可表示為:
其中,置信度損失Lrcnn-reg為:
位置損失分為兩部分Lrcnn-reg和Lrcnn-conner。Lrcnn-conner為采用Smooth L1Loss對(duì)物體框的中心點(diǎn)、物體框的長(zhǎng)寬高、物體框的朝向分別與真值物體框做差進(jìn)行優(yōu)化的,Lrcnn-conner為預(yù)測(cè)物體框與真值物體框的8 個(gè)頂點(diǎn)做差值進(jìn)行優(yōu)化。
算法的總損失為:
KITTI數(shù)據(jù)集[14]自動(dòng)駕駛?cè)S目標(biāo)檢測(cè)最流行的數(shù)據(jù)集之一,包含了道路場(chǎng)景的激光雷達(dá)點(diǎn)云和配套的圖片數(shù)據(jù),其中有7 481 個(gè)訓(xùn)練樣本和7 518 個(gè)測(cè)試樣本,并細(xì)分為簡(jiǎn)單、中等和困難三個(gè)層級(jí)。這三個(gè)等級(jí)的依據(jù)圖片中二維包圍框的像素高度、遮擋程度和截?cái)啾壤齻€(gè)指標(biāo)進(jìn)行劃分,表1展示了三個(gè)難度層級(jí)的劃分依據(jù)。KITTI使用兩個(gè)指標(biāo)進(jìn)行檢測(cè)結(jié)果的評(píng)估:三維目標(biāo)檢測(cè)性能(3DmAP,3DIoU=0.7)和鳥(niǎo)瞰圖檢測(cè)性能(BEVmAP,2DIoU=0.7)。
表1 KITTI數(shù)據(jù)集中難度層級(jí)的劃分依據(jù)Table 1 Basis for difficulty levels in KITTI dataset
網(wǎng)絡(luò)是用ADAM優(yōu)化器以端到端的方式從頭開(kāi)始訓(xùn)練的,初始學(xué)習(xí)率設(shè)置為0.01,衰減方式為onecycle速率策略。算法模型在2 個(gè)GTX 3090 GPU 上以批大小為8 來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò),持續(xù)80 個(gè)周期,耗時(shí)約12 h。對(duì)于建議框細(xì)化階段,采用隨機(jī)抽樣128個(gè)建議框的方式,并保證正負(fù)樣本比例為1∶1。其中,如果一個(gè)建議框和地面真值框具有至少0.55 個(gè)3D IoU,則該建議框被視為建議框細(xì)化分支的正樣本,否則將被視為負(fù)樣本。在訓(xùn)練期間,采用3D對(duì)象檢測(cè)數(shù)據(jù)增強(qiáng)策略,包括沿X軸從[-π/4,π/4]的隨機(jī)翻轉(zhuǎn)和使用從[0.95,1.05]隨機(jī)采樣作為縮放因子的全局縮放。同時(shí)還進(jìn)行了地面實(shí)況采樣增強(qiáng),將一些新的地面實(shí)況對(duì)象從其他場(chǎng)景隨機(jī)粘貼到當(dāng)前訓(xùn)練場(chǎng)景中,以模擬各種環(huán)境中的對(duì)象。推理階段,首先使用非極大值抑制(NMS)操作選出前100個(gè)感興趣區(qū)域候選框,此時(shí)的IoU閾值設(shè)置為0.7,即當(dāng)檢測(cè)框的IoU 置信度大于0.7 時(shí),才被視為有效的檢測(cè)結(jié)果,這些建議框在細(xì)化階段通過(guò)集抽象對(duì)關(guān)鍵點(diǎn)特征進(jìn)行提取,進(jìn)一步細(xì)化建議框。最后,使用IoU為0.1的NMS閾值來(lái)刪除冗余框。
網(wǎng)絡(luò)模型是在KITTI 數(shù)據(jù)集的TRAIN 訓(xùn)練集上訓(xùn)練生成的。為在網(wǎng)絡(luò)訓(xùn)練過(guò)程中觀察模型的收斂情況,將TRAIN 數(shù)據(jù)細(xì)分為訓(xùn)練集合和驗(yàn)證集合,分別包含3 712和3 769組樣本。為使實(shí)驗(yàn)結(jié)果具有可比性,實(shí)驗(yàn)中采用的劃分方式和其他方法相同。最終將網(wǎng)絡(luò)通過(guò)訓(xùn)練集訓(xùn)練后在KITTI官方測(cè)試集上進(jìn)行測(cè)試,并將結(jié)果提交到KITTI官方獲得訓(xùn)練結(jié)果。
使用官方KITTI 測(cè)試服務(wù)器上的40 個(gè)召回位置計(jì)算測(cè)試集的平均準(zhǔn)確度,并與先前工作的結(jié)果進(jìn)行比較。表2顯示了算法在KITTI測(cè)試集上的表現(xiàn)。對(duì)于汽車(chē)類(lèi),本方法對(duì)比以往的方法有了一定的提升,在簡(jiǎn)單、中等和硬難度水平上分別將mAP 提高了0.38%、0.68%和0.41%;對(duì)于汽車(chē)類(lèi)的鳥(niǎo)瞰檢測(cè),在簡(jiǎn)單和困難難度級(jí)別上也具有相應(yīng)的提升;對(duì)于騎車(chē)人的表現(xiàn),在基于純點(diǎn)云算法中,較以往的方法取得了較大的提升,在簡(jiǎn)單、中等和硬難度水平上分別將mAP 提高了5.18%、6.27%和5.25%。文章還報(bào)告了KITTI 驗(yàn)證集上基于R11 標(biāo)準(zhǔn)的mAP 的性能,如表3 所示,結(jié)果表明比以往的方法也具有了一定的提升。
表2 KITTI測(cè)試集的對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparative experimental results for KITTI test set 單位:%
表3 KITTI驗(yàn)證集上R11標(biāo)準(zhǔn)下不同算法3DmAP結(jié)果Table 3 3DmAP results for different algorithms under R11 standard on KITTI validation set 單位:%
實(shí)驗(yàn)結(jié)果顯示,算法在Car類(lèi)上的檢測(cè)精度具有一定的提升,在Cyclist類(lèi)上取得了較大的提升。實(shí)驗(yàn)結(jié)果證明強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法的有效性,尤其在遠(yuǎn)距離小目標(biāo)的檢測(cè)上具有較好效果。
通過(guò)消融實(shí)驗(yàn)分析所提方法中各個(gè)組件的有效性。所有模型都在TRAIN 集上進(jìn)行訓(xùn)練,并在KITTI數(shù)據(jù)集的車(chē)輛類(lèi)別的驗(yàn)證集上進(jìn)行評(píng)估。將原始PV-RCNN網(wǎng)絡(luò)分別與添加語(yǔ)義引導(dǎo)的關(guān)鍵點(diǎn)采樣方法S-FPS、基于候選框中心的采樣方法(PCS)、基于強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法三種方法在KITTI 驗(yàn)證集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為在R40和R11兩個(gè)標(biāo)準(zhǔn)下物體檢測(cè)的準(zhǔn)確率。表4給出了分別在3D/BEV不同目標(biāo)檢測(cè)指標(biāo)和R40/R11不同檢測(cè)標(biāo)準(zhǔn)下的實(shí)驗(yàn)結(jié)果,其中在重要指標(biāo)——中等難度(Mod.)等級(jí)上,融合后的算法均取得了較好的效果。
表4 KITTI驗(yàn)證集的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experimental results for KITTI validation set 單位:%
為比較融合后的關(guān)鍵點(diǎn)采樣方法和語(yǔ)義信息加權(quán)對(duì)算法性能提升的貢獻(xiàn)率,進(jìn)行了檢測(cè)性能實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果為KITTI驗(yàn)證集上的Car類(lèi)在中等難度水平下的40個(gè)召回位置的平均精度,如表5所示。
表5 SSPS-RCNN在不同策略下的燒蝕實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment result of SSPS-RCNN on different strategies
f1表示對(duì)融合后不重合的關(guān)鍵點(diǎn)采用FPS 采樣方式,f2表示對(duì)融合后不重合的關(guān)鍵點(diǎn)采用S-FPS采樣方式,f3表示不添加語(yǔ)義加權(quán)模塊,f4表示采用原始獨(dú)立網(wǎng)絡(luò)語(yǔ)義加權(quán)模塊,f5表示采用語(yǔ)義分割分?jǐn)?shù)直接加權(quán)。通過(guò)實(shí)驗(yàn)對(duì)比,證明對(duì)融合后不重合的關(guān)鍵點(diǎn)采用S-FPS的采樣方式能更好地篩選出有用關(guān)鍵點(diǎn),語(yǔ)義分割分?jǐn)?shù)直接加權(quán)也可以進(jìn)一步更好地分配關(guān)鍵點(diǎn)貢獻(xiàn)權(quán)重,驗(yàn)證了所設(shè)計(jì)模塊的有效性。
圖3 可視化地展示了原始算法和改進(jìn)后的算法兩組在KITTI數(shù)據(jù)集驗(yàn)證集場(chǎng)景下的定性結(jié)果:左側(cè)為改進(jìn)后的算法,右側(cè)為原始算法。圖3圓圈標(biāo)記處展示了在遠(yuǎn)距離物體檢測(cè)上,算法較好地減少了原始算法的漏檢和錯(cuò)檢問(wèn)題。
圖3 驗(yàn)證集下的可視化檢測(cè)結(jié)果對(duì)比Fig.3 Comparison of visual detection results under verification set
SSPS-RCNN在KITTI數(shù)據(jù)集上的運(yùn)行時(shí)間如表6、表7 所示;表6 是網(wǎng)絡(luò)的各個(gè)模塊在推理一幀點(diǎn)云數(shù)據(jù)時(shí)所消耗的時(shí)間。包括三維稀疏卷積,二維RPN模塊、語(yǔ)義分割模塊(SS)、點(diǎn)特征提取模塊(PFE)、ROI 模塊等。其中特征聚合階段消耗時(shí)間較長(zhǎng),時(shí)間為56 ms,接近總時(shí)間的一半。主要原因是特征聚合模塊包含了關(guān)鍵點(diǎn)采樣和特征聚合兩部分,關(guān)鍵點(diǎn)采樣中由于采用語(yǔ)義引導(dǎo)點(diǎn)采樣和提案區(qū)域點(diǎn)過(guò)濾兩種方式進(jìn)行采樣,并進(jìn)行進(jìn)一步的篩選,相對(duì)增加了時(shí)耗,特征聚合階段由于需要在不同尺度下進(jìn)行特征提取,有不同維度水平的點(diǎn)云被重復(fù)提取,也導(dǎo)致了時(shí)耗的增加。但在最后語(yǔ)義信息特征加權(quán)中,不再設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵點(diǎn)的語(yǔ)義分?jǐn)?shù),用原有點(diǎn)云分割結(jié)果直接加權(quán)關(guān)鍵點(diǎn)特征,在一定程度上節(jié)約了時(shí)間。
表6 算法各模塊運(yùn)行時(shí)間分析Table 6 Runtime analysis of each algorithm module
表7 方法時(shí)間對(duì)比Table 7 Method time comparison
表7是SSPS-RCNN與其他算法的時(shí)耗對(duì)比,SSPSRCNN 網(wǎng)絡(luò)的總推理時(shí)間為126 ms,并通過(guò)CUDA 進(jìn)行算法的加速,其推理時(shí)間均是基于對(duì)Car,Cyclist 和Pedestrian多目標(biāo)檢測(cè)的基礎(chǔ)上計(jì)算的。結(jié)果表明SSPSRCNN算法在保證較高精度的同時(shí),推理速度雖有下降但仍基本符合目標(biāo)檢測(cè)速度水平。
在算法網(wǎng)絡(luò)框架中,采樣到的關(guān)鍵點(diǎn)主要用于候選框的后續(xù)精細(xì)化修正過(guò)程,若只采用基于候選框內(nèi)的關(guān)鍵點(diǎn)采樣,會(huì)因個(gè)別較遠(yuǎn)處或遮擋較嚴(yán)重的物體上原始點(diǎn)云落點(diǎn)較少,進(jìn)而出現(xiàn)采樣點(diǎn)較少或漏采等情況,在后續(xù)框的置信度上呈現(xiàn)較低分?jǐn)?shù),經(jīng)過(guò)NMS 后會(huì)被剔除,最終呈現(xiàn)漏檢現(xiàn)象;基于框內(nèi)的語(yǔ)義采樣會(huì)保證對(duì)上述點(diǎn)的精確采樣,進(jìn)而很好地作用到特征學(xué)習(xí)之中。由于基于框的關(guān)鍵點(diǎn)采樣和RoI 多尺度特征采樣的范圍不同,融合S-FPS采樣和基于候選框的FPS采樣方法能很好地在采樣初始階段獲得較為全面的有用關(guān)鍵點(diǎn)。
文章提出的基于強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法的三維目標(biāo)檢測(cè)網(wǎng)絡(luò),通過(guò)融合具有逐點(diǎn)語(yǔ)義信息加權(quán)的關(guān)鍵點(diǎn)采樣方法與基于候選框的關(guān)鍵點(diǎn)采樣方法,獲得具有更高特征代表性的采樣關(guān)鍵點(diǎn),較好地提升了采樣點(diǎn)中前景點(diǎn)的比例;對(duì)聚合后的關(guān)鍵點(diǎn)特征進(jìn)行語(yǔ)義加權(quán)也進(jìn)一步提升了算法精度。在KITTI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,新的關(guān)鍵點(diǎn)采樣方法與基準(zhǔn)算法相比,有效提高了三維目標(biāo)檢測(cè)性能,尤其在遠(yuǎn)距離和小目標(biāo)檢測(cè)上取得了較好的效果。雖然強(qiáng)語(yǔ)義關(guān)鍵點(diǎn)采樣方法對(duì)遠(yuǎn)距離物體檢測(cè)有所改善,但若三維稀疏主干網(wǎng)絡(luò)也未檢測(cè)到遠(yuǎn)距離物體框,則仍存在對(duì)于遠(yuǎn)距離或遮擋嚴(yán)重物體的漏檢情況,后續(xù)需要進(jìn)一步對(duì)遠(yuǎn)距離、遮擋嚴(yán)重、小物體等的檢測(cè)進(jìn)行改進(jìn)優(yōu)化。