3D object detection based on iterative pseudo point cloud generation
Sun Lihui?,Wang Chuyao (SchoolofManagementScienceamp;IforationEnginering,HebeiUniersityfconomicsamp;Businss,ijzangO5OChina)
Abstract:3Dobject detection iscrucial forautonomous driving.However,incomplex scenarios,LiDAR oftenstruggles to capture complete point-clouddatadue todistance andocclusion,afectingdetection accuracy.To addressthis,the paperpro poseda3Dobject detectionmethodbasedoniterativepseudo-point-cloudgeneration(IG-RCNN).Firstly,itintroduceda channel sparsepartialconvolution(CSPConv)module inthe3Dvoxel backbone toreduce channel redundancyand fuse semanticinformationfrom diferentreceptivefields,enhancing feature fusion.Secondly,iterativerefinementgeneratedhighqualitypseudo-pointclouds,providing efectiveguidanceforthesuggestionboxandimprovingdetectionacuracy.Experiments on the KITTI dataset show that the algorithm outperforms PV-RCNN,with a 3.89% and 2. 73% accuracy improvement for pedestrians andcyclists,respectively,under harddificulty.Thisdemonstrates thealgorithm’ssuperiorityinprocesingsparse point clouddata,especiallyindetectingsmallojects likepedestrians and cyists,shows strongerrobustnessandaccuracy
Key words:autonomous driving;driver asistance system;3D object detection;pseudo-point cloud generation
0 引言
近年來(lái)隨著自動(dòng)駕駛技術(shù)的快速發(fā)展,人們對(duì)車(chē)輛感知和理解周?chē)h(huán)境的要求不斷提高,3D目標(biāo)檢測(cè)技術(shù)受到了極大的關(guān)注。
使用激光雷達(dá)點(diǎn)云進(jìn)行3D目標(biāo)檢測(cè)的算法按照對(duì)輸入點(diǎn)云處理方式的不同,通常分為基于點(diǎn)的算法和基于體素網(wǎng)格的算法?;邳c(diǎn)的算法直接將原始3D點(diǎn)云作為神經(jīng)網(wǎng)絡(luò)的輸入,通過(guò)一系列的處理后為場(chǎng)景中的前景物體生成邊界框預(yù)測(cè)[1\~4]。這類(lèi)算法能夠直接利用點(diǎn)云的原始幾何信息,但是計(jì)算成本高、效率較低?;隗w素網(wǎng)格的算法首先對(duì)輸人點(diǎn)云進(jìn)行預(yù)處理,將點(diǎn)云量化為3D網(wǎng)格結(jié)構(gòu),然后采用與2D目標(biāo)檢測(cè)類(lèi)似的操作來(lái)生成邊界框預(yù)測(cè)[5-7]。這類(lèi)算法速度快,但是由于點(diǎn)云的體素化會(huì)導(dǎo)致大量信息的丟失,普遍精度較低。
此外,根據(jù)算法框架的不同,3D目標(biāo)檢測(cè)算法還可以進(jìn)一步分為單階段和兩階段方法。單階段方法直接從輸入點(diǎn)云預(yù)測(cè)邊界框,這種方法效率高但是精度較低。兩階段方法首先使用區(qū)域建議網(wǎng)絡(luò)生成候選框,然后對(duì)這些候選框進(jìn)行分類(lèi)和回歸,以處理不同尺度的物體。這種方法通常能夠?qū)崿F(xiàn)較高的檢測(cè)精度。為了進(jìn)一步提高檢測(cè)精度,研究人員已經(jīng)探索了多種方法來(lái)提取感興趣區(qū)域(RoI)的特征,以便對(duì)候選框進(jìn)行更可靠的細(xì)化來(lái)提高檢測(cè)精度[8.9]。
最近,一些基于體素的兩階段檢測(cè)器開(kāi)始嘗試在細(xì)化階段重新利用感興趣區(qū)域內(nèi)點(diǎn)的原始特征來(lái)提高檢測(cè)精度[10\~-12]這些方案使用點(diǎn)云和體素相結(jié)合的方法,在區(qū)域建議框的生成階段使用體素表示來(lái)提高效率,在建議框的細(xì)化階段轉(zhuǎn)換回基于點(diǎn)的處理方式,使用原始點(diǎn)云的幾何細(xì)節(jié),提高精度。這類(lèi)混合方案顯著地提高了檢測(cè)精度。
然而,由于激光雷達(dá)點(diǎn)云固有的稀疏性和極易被遮擋的特點(diǎn),某些建議框內(nèi)的原始點(diǎn)云數(shù)量可能較為稀少或者出現(xiàn)截?cái)?,這些建議框內(nèi)的原始點(diǎn)云無(wú)法提取出有效的特征來(lái)為后續(xù)的細(xì)化階段提供有效的參考。為了解決這個(gè)問(wèn)題,研究人員提出了不同的方法來(lái)豐富點(diǎn)云特征,包括使用多幀點(diǎn)云[13.14]、引入多模態(tài)數(shù)據(jù)[15.16]等。但是這些方法需要進(jìn)行數(shù)據(jù)的時(shí)序?qū)R或者多傳感器之間的視圖對(duì)齊,應(yīng)用難度較大。最近,研究者開(kāi)始嘗試通過(guò)點(diǎn)云補(bǔ)全的方法來(lái)豐富感興趣區(qū)域中點(diǎn)云信息,輔助建議框的細(xì)化。這些方法包括預(yù)訓(xùn)練一個(gè)點(diǎn)云補(bǔ)全網(wǎng)絡(luò)來(lái)增加點(diǎn)云數(shù)量[17.18],在網(wǎng)絡(luò)中集成一個(gè)點(diǎn)生成模塊來(lái)豐富點(diǎn)云信息[19等。然而這些方法較難保證生成點(diǎn)云的質(zhì)量,生成的點(diǎn)云信息可能難以為后續(xù)建議框的細(xì)化提供有效的指導(dǎo)。
在生成式模型領(lǐng)域的研究表明,采用多次迭代生成的方式,每次只保留高可信度的數(shù)據(jù),屏蔽低可信度的數(shù)據(jù),并在下一次迭代中重新預(yù)測(cè),直到通過(guò)多次迭代細(xì)化完成所有數(shù)據(jù)的生成,這種方法可以有效提升生成數(shù)據(jù)的質(zhì)量[20.21]。受此啟發(fā),提出基于迭代偽點(diǎn)云生成的3D目標(biāo)檢測(cè)網(wǎng)絡(luò)(IG-RCNN),一種端到端的兩階段3D目標(biāo)檢測(cè)方法。
本文還發(fā)現(xiàn),傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)往往通過(guò)在特征提取階段大量增加通道數(shù)的方式來(lái)提高網(wǎng)絡(luò)的擬合能力。但是最近研究表明,這種運(yùn)算方式極易造成通道的冗余,增加了大量的計(jì)算量,提升效果卻非常有限[22]?;诖?,在區(qū)域建議階段,本文優(yōu)化了傳統(tǒng)的3D區(qū)域提議網(wǎng)絡(luò)主干,設(shè)計(jì)了一個(gè)CSPConv模塊,以此來(lái)構(gòu)建新的3D骨干網(wǎng)絡(luò),并且在網(wǎng)絡(luò)中大量應(yīng)用殘差連接機(jī)制。新設(shè)計(jì)的骨干網(wǎng)絡(luò)擁有更強(qiáng)的特征抽取能力,能夠提高整體的3D目標(biāo)檢測(cè)準(zhǔn)確度。在候選框細(xì)化階段,本文利用多尺度特征圖,通過(guò)多次迭代生成具有高可信度的偽點(diǎn)云信息,為候選框的細(xì)化提供有效的指導(dǎo),提高3D目標(biāo)檢測(cè)的精度。
本文的貢獻(xiàn)可以總結(jié)如下:a)提出了一種新的3D目標(biāo)檢測(cè)方法,利用多尺度特征圖,多次迭代生成偽點(diǎn)云信息,并且引入動(dòng)態(tài)損失權(quán)重機(jī)制,確保生成的偽點(diǎn)云信息的質(zhì)量隨著迭代的進(jìn)行逐步提高,使其能夠有效指導(dǎo)候選框的細(xì)化,提高3D目標(biāo)檢測(cè)的精度。b)在3D體素主干網(wǎng)絡(luò)中采用了一種新的卷積模塊CSPConv。該模塊在減少通道冗余的同時(shí),能夠融合不同感受野的語(yǔ)義信息,增強(qiáng)模型的特征抽取能力。c)通過(guò)實(shí)驗(yàn)論證了所提方法的有效性,KITTI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)比其他只使用點(diǎn)云的方法取得了較大改進(jìn),特別是對(duì)那些小目標(biāo)、遠(yuǎn)距離目標(biāo)和遮擋嚴(yán)重的目標(biāo),能夠取得良好的檢測(cè)效果。
1方法
在基于點(diǎn)云的兩階段3D目標(biāo)檢測(cè)方法中,現(xiàn)有研究對(duì)建議框細(xì)化的改進(jìn)主要集中在優(yōu)化3D體素骨干網(wǎng)絡(luò)中卷積層提取的多尺度特征。然而,當(dāng)目標(biāo)距離較遠(yuǎn)或存在遮擋時(shí),傳統(tǒng)算法雖然能夠從多尺度特征中獲取到目標(biāo)的部分幾何信息,卻難以捕捉到精確的幾何細(xì)節(jié)。因此,這類(lèi)目標(biāo)的建議框細(xì)化效果往往不佳,特別是在行人和騎行者的檢測(cè)任務(wù)中,這一問(wèn)題尤為顯著,導(dǎo)致當(dāng)前算法在這些目標(biāo)檢測(cè)任務(wù)中的精度普遍偏低。
針對(duì)這一問(wèn)題,本文提出了一種基于迭代偽點(diǎn)云生成的3D目標(biāo)檢測(cè)方法,其核心在于設(shè)計(jì)一個(gè)專(zhuān)注于偽點(diǎn)云生成的模塊,通過(guò)多輪迭代生成高質(zhì)量的偽點(diǎn)云,增加目標(biāo)區(qū)域內(nèi)的點(diǎn)云密度,彌補(bǔ)因稀疏或截?cái)鄬?dǎo)致的點(diǎn)云信息缺失,提高建議框的細(xì)化精度。此外,本文還設(shè)計(jì)了CSPConv模塊來(lái)減少3D骨干網(wǎng)絡(luò)中的通道冗余,進(jìn)一步提升特征提取效率。
圖1展示了生成的偽點(diǎn)云和原始點(diǎn)云的對(duì)比,可以看到,本文方法可以為點(diǎn)云稀疏的目標(biāo)和點(diǎn)云被截?cái)嗟哪繕?biāo)生成高質(zhì)量的偽點(diǎn)云特征。
本文的整體網(wǎng)絡(luò)設(shè)計(jì)如圖2所示,與大多數(shù)兩階段3D目標(biāo)檢測(cè)網(wǎng)絡(luò)架構(gòu)一樣,分為區(qū)域提議和建議框細(xì)化兩個(gè)階段。在區(qū)域提議階段,將原始點(diǎn)云輸人轉(zhuǎn)換為固定大小的體素單元,隨后使用體素網(wǎng)絡(luò)主干提取特征,并生成初步的區(qū)域提議。在建議框細(xì)化階段,回歸到點(diǎn)云,使用3D主干網(wǎng)絡(luò)的多尺度特征生成偽點(diǎn)云,并通過(guò)多次迭代的方式更精確地捕捉目標(biāo)的幾何和語(yǔ)義信息,提高偽點(diǎn)云的質(zhì)量。最后,將這些高質(zhì)量的偽點(diǎn)云輸入檢測(cè)頭得到細(xì)化后的最終檢測(cè)結(jié)果。
1.1 區(qū)域提議網(wǎng)絡(luò)
本文使用帶有CSPConv的網(wǎng)絡(luò)主干作為區(qū)域提議網(wǎng)絡(luò)來(lái)產(chǎn)生建議框和多尺度特征圖,其架構(gòu)如圖3所示。
首先,將輸入的原始點(diǎn)云數(shù)據(jù)劃分為均勻分布的體素單元,然后將這些體素單元通過(guò)一系列具有CSPConv模塊的3D主干網(wǎng)絡(luò)進(jìn)行處理,獲得多尺度的特征圖。CSPConv模塊架構(gòu)如圖4所示。對(duì)于輸人大小為 H×W×C 的原始特征圖,沿通道維度將其拆分成大小為 H×W×C/2 的兩個(gè)子特征圖,分別使用3×3 和 5×5 的卷積核對(duì)兩個(gè)子特征圖進(jìn)行特征提取,獲取不同感受野的信息。然后,將這兩份子特征圖沿通道維度拼接后進(jìn)行 1×1 卷積操作,并與輸入進(jìn)行殘差連接。與傳統(tǒng)卷積相比,CSPConv能夠從通道維度提取和融合高階特征圖和低階征圖的不同語(yǔ)義信息,在減少通道冗余的同時(shí)提高模型的特征提取能力。
在得到3D主干網(wǎng)絡(luò)輸出的多尺度特征圖后,將其沿著 z 軸投影轉(zhuǎn)換成鳥(niǎo)瞰圖(BEV)。在建議階段,利用分類(lèi)預(yù)測(cè)分支和回歸預(yù)測(cè)分支對(duì)BEV特征圖進(jìn)行密集預(yù)測(cè),為后續(xù)的細(xì)化階段生成初步的檢測(cè)結(jié)果。
1.2偽點(diǎn)云生成及檢測(cè)
在第二階段,根據(jù)區(qū)域提議網(wǎng)絡(luò)產(chǎn)生的建議框,從多尺度特征圖中匯聚信息進(jìn)行高質(zhì)量的偽點(diǎn)云生成,并將生成的偽點(diǎn)云輸入檢測(cè)頭產(chǎn)生邊界框預(yù)測(cè)。
首先,根據(jù)區(qū)域提議階段產(chǎn)生的建議框從鳥(niǎo)瞰圖中切取相應(yīng)的多尺度特征圖,并以建議框?yàn)閱挝粚⑵渲械亩喑叨忍卣骶鶆騽澐譃轶w積更小的亞體素。然后,把每個(gè)亞體素的中心點(diǎn)作為該體素單元的代表點(diǎn),將每個(gè)代表點(diǎn)所在體素單元的特征信息匯聚到該代表點(diǎn)上。最后,使用 PointNet++ 網(wǎng)絡(luò)匯聚該點(diǎn)鄰域內(nèi)距離最近 N 個(gè)點(diǎn)的特征形成新的合成特征。
FCj=PointNet++(Cj,{fCk∣Ck∈neighborhood(Cj,N)})
其中: Cj?Ck 表示亞體素的中心點(diǎn) σ;fck 表示以 K 為中心點(diǎn)的亞體素特征; FCj 表示使用 PointNet++ 網(wǎng)絡(luò)匯聚后 Cj 點(diǎn)的合成特征。此時(shí)的合成特征已經(jīng)具有了其一定鄰域范圍的局部信息,還需要進(jìn)一步融合其所在建議框全局信息以增強(qiáng)合成特征的全局表達(dá)能力。多種研究證明,Transformer網(wǎng)絡(luò)架構(gòu)具有極強(qiáng)的捕捉全局信息的能力。因此,對(duì)每個(gè)建議框中的合成特征,采用Transformer編碼器進(jìn)行建議框全局信息的融合。
在經(jīng)過(guò)Transformer進(jìn)行建議框級(jí)別的融合后,合成特征已經(jīng)具有足夠的信息進(jìn)行偽點(diǎn)云生成。具體來(lái)說(shuō),對(duì)于每一個(gè)建議框,利用該建議框內(nèi)的每一體素單元的合成特征生成一個(gè)偽點(diǎn)云信息,該點(diǎn)云信息包含了其相對(duì)于所在體素單元中心點(diǎn)的偏移以及一些高維度特征。
其中: pk 表示以 Ck 為中心的亞體素單元生成的偽點(diǎn)云; dk 表示生成偽點(diǎn)云相對(duì)于亞體素單元 Ck 的坐標(biāo)偏移 Ω3fpk 表示生成偽點(diǎn)云的高維度特征。點(diǎn)云生成模塊產(chǎn)生的所有偽點(diǎn)云信息構(gòu)成了一個(gè)生成點(diǎn)云集合。此時(shí)的生成點(diǎn)云集合中包含了可靠點(diǎn)云信息以及不可靠點(diǎn)云信息,其中的不可靠點(diǎn)云信息會(huì)對(duì)后續(xù)的建議框細(xì)化產(chǎn)生負(fù)面影響,因此需要對(duì)生成結(jié)果進(jìn)行多次迭代,以產(chǎn)生高質(zhì)量的點(diǎn)云信息。
為了從生成點(diǎn)云集合中篩選出不可靠點(diǎn)云信息,在點(diǎn)云生成模塊之后,使用評(píng)分模塊對(duì)所有生成點(diǎn)云信息進(jìn)行可信度評(píng)分,根據(jù)評(píng)分結(jié)果將評(píng)分低于閾值的點(diǎn)云信息進(jìn)行掩蓋。點(diǎn)云的生成和掩蓋操作過(guò)程難免會(huì)丟失大量特征的信息,需要對(duì)丟失的特征信息進(jìn)行補(bǔ)充。因此,在每次進(jìn)行迭代生成前,將每個(gè)體素單元經(jīng)過(guò)Transformer融合后的合成特征與生成的點(diǎn)云信息進(jìn)行融合,然后重新通過(guò)點(diǎn)云生成模塊產(chǎn)生新的偽點(diǎn)云,一共進(jìn)行 K 輪迭代,并在迭代過(guò)程中逐步下調(diào)可信度閾值。點(diǎn)云的掩蓋遵循以下規(guī)則:
τm=τ0-m?Δτ
其中: τm"是第 ?m"輪的評(píng)分閾值; τ0"是初始評(píng)分閾值; Δτ 是每輪迭代閾值的遞減量;sm是第m輪生成偽點(diǎn)云Pm的得分;Pmask是第 m 輪經(jīng)過(guò)掩蓋后的偽點(diǎn)云集合。對(duì)于最后一輪迭代生成的偽點(diǎn)云信息,本文不進(jìn)行掩蓋,直接將最后生成的點(diǎn)云結(jié)果以及該輪結(jié)果的評(píng)分一起輸入 PointNet++ 檢測(cè)頭,得到最終細(xì)化后的輸出。
為了更加清晰地描述本模塊的具體實(shí)現(xiàn)方式,算法1以偽代碼的形式展示了迭代偽點(diǎn)云生成的流程。
算法1偽點(diǎn)云迭代生成輸入:來(lái)自Transformer的融合特征 F 。
輸出:經(jīng)過(guò)迭代生成的偽點(diǎn)云及其評(píng)分PseudoPointList,scoreList}。a)PseudoPointList,scoreList =[] ,[]//初始化結(jié)果列表b)GenerateFeatures Ψ=ΨF .for m inrange do Ω/μ 為總迭代次數(shù)PseudoPoint Σ=Σ PGM(GenerateFeatures);//生成偽點(diǎn)云PseudoPointList.apped(PseudoPoint);score=MLP (PseudoPoint);//對(duì)生成的偽點(diǎn)云進(jìn)行評(píng)分scoreList.apped(score);confidence =t-m*d;/*t 為初始置信度閾值, ,d 為每次迭代的置信度遞減量 * /PseudoPoint[score 返回每次迭代生成的偽點(diǎn)云及其分?jǐn)?shù),用于損失計(jì)算
/
2損失函數(shù)
本文的損失函數(shù)由點(diǎn)生成損失 LPOINT 、建議框損失 LRPN 和檢測(cè)損失 LDET 三部分組成。
L=LPOINT+LRPN+LDET
本文采用3D目標(biāo)檢測(cè)領(lǐng)域常見(jiàn)的做法來(lái)計(jì)算建議框損失。首先,根據(jù)區(qū)域建議網(wǎng)絡(luò)輸出的候選框與地面真實(shí)值之間的交并比(IoU)為候選框分配目標(biāo)邊界框。在完成前景目標(biāo)的分配后,采用焦點(diǎn)損失(FocalLoss)來(lái)計(jì)算區(qū)域建議網(wǎng)絡(luò)分類(lèi)預(yù)測(cè)分支的置信度損失,使用平滑 L1 損失(smooth ?L1 loss)來(lái)計(jì)算回歸預(yù)測(cè)分支的回歸損失??傮w公式如下:
LRPN=Lcls+Lreg
Lcls=-(1-pt)γlog(pt)
對(duì)于檢測(cè)損失,采用交叉熵?fù)p失(cross-entropyloss)來(lái)計(jì)算其置信度損失,其余的做法與建議框損失一致。
本文參考 PG-RCNN 和 BtcDet[23] 的思想來(lái)構(gòu)建點(diǎn)生成損
失 LPoINT ,其公式如下:
其中: K 為迭代輪次,隨著迭代輪次的增加,生成的點(diǎn)云信息應(yīng)該具有更高的準(zhǔn)確度。因此,引人了一個(gè)動(dòng)態(tài)損失權(quán)重機(jī)制,為每一輪迭代中的點(diǎn)生成損失分配了一個(gè)遞增的權(quán)重,確保隨著迭代的進(jìn)行,生成點(diǎn)云信息的質(zhì)量能夠逐步提升。
LscoREi 為第 i 輪生成偽點(diǎn)云的評(píng)分損失。為了鼓勵(lì)模型生成位于真實(shí)邊界框內(nèi)的前景點(diǎn)云,本文按照是否存在于真實(shí)邊界框中為每一個(gè)生成的點(diǎn)云信息分配標(biāo)簽,然后對(duì)其應(yīng)用焦點(diǎn)損失,其公式如下:
其中: ;N 為點(diǎn)云總數(shù); sj 為當(dāng)前輪次第 j 個(gè)點(diǎn)的評(píng)分。
L0FFSETi 為生成點(diǎn)云的形狀監(jiān)督損失。為了使生成點(diǎn)云的形狀盡可能與原始物體的形狀相似,需要原始對(duì)象的完整點(diǎn)云來(lái)監(jiān)督點(diǎn)云的生成。然而,對(duì)于遠(yuǎn)距離的物體以及被遮擋的物體,其點(diǎn)云數(shù)目稀少、點(diǎn)云形狀殘缺,無(wú)法從KITTI數(shù)據(jù)集獲取這類(lèi)對(duì)象實(shí)例的完整點(diǎn)云信息用于形狀監(jiān)督。
為了解決這個(gè)問(wèn)題,本文首先從KITTI中搜索點(diǎn)云密集的對(duì)象實(shí)例,按照旋轉(zhuǎn)角度和類(lèi)別進(jìn)行分組,構(gòu)建一個(gè)對(duì)象數(shù)據(jù)庫(kù)。在訓(xùn)練時(shí),從對(duì)象數(shù)據(jù)庫(kù)中隨機(jī)抽取兩個(gè)與當(dāng)前實(shí)例最為相似的對(duì)象點(diǎn)集與當(dāng)前實(shí)例的原始點(diǎn)集相結(jié)合,借此生成稠密的點(diǎn)云集合。對(duì)于汽車(chē)和騎行者這兩種類(lèi)別,還沿著軸對(duì)稱(chēng)方向鏡像點(diǎn)云來(lái)豐富點(diǎn)云信息。
本文用產(chǎn)生的稠密點(diǎn)云來(lái)進(jìn)行生成點(diǎn)云形狀損失的計(jì)算,對(duì)所有前景候選框中生成的點(diǎn)云采用Chamfer距離來(lái)計(jì)算L0FFSETi ,其公式如下:
其中 :Nfp 是前景候選框中的生成點(diǎn)云數(shù)目; Pr 是生成點(diǎn)云點(diǎn)集; Pr* 是構(gòu)建出的稠密點(diǎn)云點(diǎn)集。
3 實(shí)驗(yàn)結(jié)果與分析
3.1數(shù)據(jù)集
為了確認(rèn)算法的有效性,采用3D自標(biāo)檢測(cè)中常用的大型公開(kāi)數(shù)據(jù)集KITTI對(duì)算法進(jìn)行驗(yàn)證。KITTI數(shù)據(jù)集共包含7481幀具有注釋的訓(xùn)練數(shù)據(jù)樣本和7518幀測(cè)試數(shù)據(jù)樣本。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),將原始的訓(xùn)練數(shù)據(jù)樣本劃分為3712個(gè)樣本的訓(xùn)練集和包含3769個(gè)樣本的驗(yàn)證集進(jìn)行訓(xùn)練和驗(yàn)證。
本文對(duì)數(shù)據(jù)集中的汽車(chē)、行人以及騎行者三個(gè)類(lèi)別進(jìn)行檢測(cè)。根據(jù)目標(biāo)截?cái)嗪驼趽醭潭鹊牟煌?,每個(gè)類(lèi)別均包含簡(jiǎn)單、中等、困難三個(gè)級(jí)別。
3.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架和OpenPCDet目標(biāo)檢測(cè)工具箱,采用的硬件環(huán)境為雙路 IntelBXeonB Silver 4210R處理器,RTX2080TiGPU,軟件環(huán)境為Ubuntu22.04LTS、Python3.9,CUDA11.8,PyTorch2.0.1。
本實(shí)驗(yàn)采用Adma作為優(yōu)化器更新模型參數(shù),初始學(xué)習(xí)率為0.01,動(dòng)量為0.9,學(xué)習(xí)率衰減為0.1,最大迭代次數(shù)為 80 對(duì)于KITTI數(shù)據(jù)集,只檢測(cè) x 軸在 [0,70.4]m,y 軸在[-40,40]m,z軸在[-3,1] m 的目標(biāo),對(duì)于輸入的原始點(diǎn)云,沿各軸按(0.05,0.05,0.1) m 將其劃分為初始體素。
對(duì)于區(qū)域建議網(wǎng)絡(luò)給出的每一個(gè)初始建議框,將其均勻劃分為216個(gè)相同大小的亞體素單元。在IoU設(shè)置方面,為汽車(chē)設(shè)置0.7的IoU閾值,為行人和騎行者均設(shè)置0.5的IoU值,評(píng)估結(jié)果分為簡(jiǎn)單、中等、困難三個(gè)難度級(jí)別。
在數(shù)據(jù)增強(qiáng)方面,采用基于點(diǎn)云的3D目標(biāo)檢測(cè)算法中常用的數(shù)據(jù)增強(qiáng)策略,包括沿 x 軸進(jìn)行隨機(jī)翻轉(zhuǎn)、采用隨機(jī)的縮放因子進(jìn)行全局縮放、圍繞 z 軸進(jìn)行全局的隨機(jī)旋轉(zhuǎn)等。在進(jìn)行偽點(diǎn)云信息的迭代生成時(shí),設(shè)置初始可信度閾值為0.58,進(jìn)行8輪迭代,在迭代中逐步下調(diào)可信度閾值至0.32。
3.3算法性能
模型的訓(xùn)練在訓(xùn)練集上進(jìn)行,并根據(jù)驗(yàn)證集的結(jié)果調(diào)整超參數(shù)。為了驗(yàn)證算法的有效性,在3D視角下與先進(jìn)算法在驗(yàn)證集上的評(píng)估結(jié)果進(jìn)行對(duì)比,采用AP11作為評(píng)價(jià)標(biāo)準(zhǔn),為所有算法采用相同的IoU閾值。表1展示了本文算法與其他多個(gè)網(wǎng)絡(luò)模型在汽車(chē)、行人、騎行三種類(lèi)別,在簡(jiǎn)單、中等、困難三種難度下的對(duì)比結(jié)果,最優(yōu)結(jié)果使用加粗表示。
從表1可以看到:本文算法整體檢測(cè)效果優(yōu)于其他算法,尤其在行人和騎行者這兩個(gè)類(lèi)別上取得了較大的優(yōu)勢(shì)。相較于基線算法PV-RCNN,在簡(jiǎn)單難度下,行人類(lèi)別和騎行者類(lèi)別的檢測(cè)精度提升幅度達(dá) 2.60% 和 6.27% ;中等難度下行人類(lèi)別的檢測(cè)精度提升幅度達(dá) 5.43% ;困難難度下,行人類(lèi)別和騎行者類(lèi)別的檢測(cè)精度提升幅度達(dá) 3.89% 和 2.73% 。本文算法對(duì)汽車(chē)類(lèi)別的檢測(cè)精度低于RoIFusion,這是由于該算法融合了激光雷達(dá)點(diǎn)云和攝像頭信息,攝像頭信息能夠?yàn)槠?chē)這類(lèi)大目標(biāo)物體提供豐富的特征,一定程度上補(bǔ)足了原始點(diǎn)云特征的缺失。但是,在行人和騎行者這類(lèi)攝像頭信息不足以補(bǔ)全點(diǎn)云特征的小目標(biāo)上,本文算法檢測(cè)精度明顯優(yōu)于RoIFusion,這進(jìn)一步驗(yàn)證了算法的有效性。
圖5為本文算法在KITTI數(shù)據(jù)集上目標(biāo)檢測(cè)結(jié)果的可視化展示。圖中是激光雷達(dá)視角下的點(diǎn)云示意圖,藍(lán)色代表檢測(cè)框的地面真相,綠色為預(yù)測(cè)出的檢測(cè)框結(jié)果(見(jiàn)電子版)。圖中結(jié)果表明,相較于其他算法,本文算法對(duì)于行人和騎行者目標(biāo)體現(xiàn)出較好的檢測(cè)效果,預(yù)測(cè)結(jié)果的幾何位置以及方向角較為精準(zhǔn),對(duì)于距離較遠(yuǎn)、遮擋較為嚴(yán)重的目標(biāo)也能體現(xiàn)出較為良好的檢測(cè)效果,有效降低了漏檢概率。
本文算法不僅有出色的檢測(cè)精度,還有較快的檢測(cè)速度,在進(jìn)行8輪迭代的情況下,它可以在單個(gè)NVIDIARTX2080Ti上以18.9frame/s進(jìn)行推理,超越了大多數(shù)的兩階段算法。此外,在進(jìn)行偽點(diǎn)云生成時(shí),每輪迭代使用的是同一個(gè)點(diǎn)云生成模塊,在減少網(wǎng)絡(luò)參數(shù)的同時(shí)完成了對(duì)訓(xùn)練和推理的分離。一旦完成了對(duì)模型的訓(xùn)練,可以在推理中隨意改變迭代的步數(shù)。
如圖6所示,在推理過(guò)程中使用更多的偽點(diǎn)云迭代細(xì)化步驟可以獲得更好的精度,但是會(huì)增加推理所需要的時(shí)間。在實(shí)際應(yīng)用中,本文可以在終端設(shè)備動(dòng)態(tài)調(diào)整迭代次數(shù),在速度與精度之間取得平衡。當(dāng)自動(dòng)駕駛汽車(chē)行駛在高速公路這類(lèi)路況簡(jiǎn)單、但是車(chē)速較快的場(chǎng)景時(shí),可以減少迭代次數(shù)來(lái)提高推理速度,作出快速?zèng)Q策;而在市區(qū)道路這類(lèi)路況復(fù)雜、但是車(chē)速較慢的場(chǎng)景時(shí),可以增加迭代次數(shù)來(lái)作出精準(zhǔn)決策。這一切的實(shí)施都不需要重新設(shè)計(jì)網(wǎng)絡(luò),也不需要重新訓(xùn)練網(wǎng)絡(luò)參數(shù)。
3.4消融實(shí)驗(yàn)
為驗(yàn)證本文算法的有效性,在KITTI驗(yàn)證集上進(jìn)行了廣泛的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明,偽點(diǎn)云迭代生成模塊、可信度閾值過(guò)濾模塊、CSPConv模塊均對(duì)結(jié)果的改進(jìn)起到了作用。
一共進(jìn)行了三組消融實(shí)驗(yàn)。在第一組實(shí)驗(yàn)中,去除了偽點(diǎn)云迭代生成模塊,對(duì)于區(qū)域建議網(wǎng)絡(luò)的輸出,只對(duì)其進(jìn)行一次偽點(diǎn)云生成就將其輸入檢測(cè)頭進(jìn)行預(yù)測(cè);在第二組實(shí)驗(yàn)中,使用傳統(tǒng)的SECOND體素網(wǎng)絡(luò)主干替換掉了具有CSPConv的體素網(wǎng)絡(luò)主干;在第三組實(shí)驗(yàn)中,去除掉了偽點(diǎn)云的迭代生成時(shí)低可信度信息的閾值過(guò)濾步驟,直接使用上一輪的輸出進(jìn)行偽點(diǎn)云的迭代生成。
通過(guò)實(shí)驗(yàn)結(jié)果可以得知:對(duì)生成的偽點(diǎn)云進(jìn)行迭代優(yōu)化,能夠提高偽點(diǎn)云信息的質(zhì)量,有助于提高檢測(cè)頭的檢測(cè)精度,在中等難度下將騎行者的精度提高 5.54% ,行人的精度提高8.20% ;具有CSPConv的體素網(wǎng)絡(luò)主干相較于傳統(tǒng)的SECOND體素網(wǎng)絡(luò)主干能夠在提高網(wǎng)絡(luò)速度的同時(shí)更有效地聚合不同特征圖的語(yǔ)義信息,在中等難度下將汽車(chē)的精度提高 1.43% ,行人的精度提高 3.34% ;在進(jìn)行偽點(diǎn)云的迭代生成時(shí)屏蔽掉低可信度的信息,可以提高生成的偽點(diǎn)云信息的質(zhì)量,在中等難度下將騎行者的精度提高 1.39% ,行人的精度提高 1.43% 。
4結(jié)束語(yǔ)
為了解決復(fù)雜場(chǎng)景下由點(diǎn)云的稀疏和截?cái)鄬?dǎo)致的檢測(cè)精度低下,本文提出基于迭代偽點(diǎn)云生成的三維目標(biāo)檢測(cè)方法。
首先,提出了CSPConv模塊并將其應(yīng)用在3D骨干網(wǎng)絡(luò)之中,在減少通道冗雜的同時(shí),提高了模型的特征融合能力。其次,利用三維體素骨干網(wǎng)絡(luò)的多尺度特征圖,多次迭代細(xì)化生成高質(zhì)量的偽點(diǎn)云信息,完成對(duì)初始建議框的有效細(xì)化。但是對(duì)于汽車(chē)這類(lèi)大目標(biāo),單純利用點(diǎn)云信息難以獲得有效的精度提升,如今的汽車(chē)大多都配備了一個(gè)及以上的攝像頭?;诖?,后期研究將進(jìn)一步考慮優(yōu)化算法,探索圖像與點(diǎn)云的相互關(guān)系,結(jié)合使用圖像信息進(jìn)一步提高目標(biāo)檢測(cè)能力。
參考文獻(xiàn):
[1]CharlesRQ,Hao Su,MoKaichun,etal.PointNet:deep learning on point setsfor 3D classification and segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017:77-85.
[2]QiCR,YiLi,Su Hao,et al.PointNet++:deep hierarchical feature learningon point sets ina metric space[EB/OL].(2017-06-07). https://arxiv.org/abs/1706.02413.
[3]Pan Xuran,Xia Zhuofan,SongShiji,et al.3Dobject detection with pointformer[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition.Piscataway,NJ:IEEEPress,2021: 7459-7468.
[4]:ShiWeijing,RajkumarR.Point-GNN:graph neural network for 3D objectdetectionina pointcloud[C]//Proc ofIEEE/CVFConferenceon ComputerVision andPatternRecognition.Piscataway,NJ: IEEEPress,2020:1708-1716.
[5]Mao Jiageng,Xue Yujing,Niu Minzhe,et al.Voxel Transformer for 3Dobjectdetection[C]//Proc ofIEEE/CVFInternational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021: 3144-3153.
[6]YanYan,Mao Yuxing,Li Bo.SECOND:sparsely embedded convolutionaldetection[J].Sensors,2018,18(10):3337.
[7]Zhou Yin,Tuzel O. VoxelNet:end-to-end learning for point cloud based3Dobjectdetection[C]//Proc of IEEE/CVFConferenceon Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:4490-4499.
[8]Deng Jiajun,Shi Shaoshuai,Li Peiwei,et al.Voxel R-CNN: towards highperformance voxel-based 3D object detection [C]/1 Procof AAAIConferenceon Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:1201-1209.
[9]Shenga Hualian,Cai Sijia,Liu Yuan,etal. Improving 3Dobject detectionwithchannel-wise Transformer[C]//Proc of IEEE/CVFInternational Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:2723-2732.
[10]Shi Shaoshuai,Guo Chaoxu,Jiang Li,et al.PV-RCNN:point-voxel feature setabstraction for3Dobjectdetection[C]//Proc of IEEE/ CVFConference onComputerVisionand PatternRecognition.Piscataway,NJ:IEEE Press,2020:10526-10535.
[11]Shi Shaoshuai,JiangLi,DengJiajun,etal.PV-RCNN ++ :pointvoxel feature set abstraction with local vector representation for 3Dobject detection[J]. International Journal of Computer Vision, 2023,131(2):531-551.
[12]HuJSK,Kuai Tianshu,Waslander SL.Point density-awarevoxels forLiDAR3Dobjectdetection[C]//Proc ofIEEE/CVFConference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:8459-8468.
[13] Chen Xuesong,Shi Shaoshuai, Zhu Benjin,et al. MPPNet:multiframe feature intertwining with proxy points for 3D temporal object detection [C]//Proc of European Conference on Computer Vision. Cham:Springer,2022:680-697.
[14]王理嘉,于歡,劉守?。畡?dòng)態(tài)環(huán)境中多幀點(diǎn)云融合算法及三維目 標(biāo)檢測(cè)算法研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(3):909-913. (WangLijia,Yu Huan,Liu Shouyin.Research onmulti-frame point cloudfusionalgorithmand 3Dobject detectionalgorithmindynamic environment[J].ApplicationResearchofComputers,2023,40 (3):909-913.)
[15] Chen Can,F(xiàn)ragonara L Z,Tsourdos A.RolFusion:3D object detection from LiDAR and vision[J]. IEEE Access,2021,9:51710-51721.
[16]RongYao,Wei Xiangyu,Lin Tianwei,etal.DynStatF:an efficient featurefusionstrategyforLiDAR3Dobjectdetection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2023:3238-3247.
[17]Li Ziyu,Yao Yuncong,Quan Zhibin,et al. Spatial information enhancement network for 3D object detection frompoint cloud[J]. Pattern Recognition,2022,128:108684.
[18]Zhang Yanan,Huang Di,Wang Yunhong.PC-RGNN: point cloud completion and graph neural network for 3D object detection [C]// ProcofAAAIConferenceon Artificial Intelligence.Palo Alto,CA: AAAIPress,2021:3430-3437.
[19]Koo I,LeeI,Kim SH,et al.PG-RCNN:semantic surface point generation for 3D object detection [C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2023:18096-18105.
[20]Chang Huiwen,Zhang Han,Jiang Lu,et al.MaskGIT:masked generative image Transformer[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:11305-11315.
[21]Chang Huiwen,Zhang Han,Barber J,et al.Muse:text-to-image generation via masked generative Transformers[EB/OL]. (2023-01- 02).https://arxiv.org/abs/2301.00704.
[22]ChenJierun,Kao SH,He Hao,et al.Run,don’t walk:chasing higher FLOPS for faster neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattrn Recognition. Piscataway, NJ:IEEEPress,2023:12021-12031.
[23]Xu Qiangeng,Zhong Yiqi,Neumann U.Behind the curtain:learning occluded shapes for 3Dobject detection[C]//Proc of AAAI Conference on Artificial Inteligence.Palo Alto,CA:AAAI Press,2022: 2893-2901.
[24]LangAH,VoraS,Caesar H,et al.PointPillars:fast encoders for object detection frompoint clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2019:12689-12697.
[25]Shi Shaoshuai,Wang Zhe,Shi Jianping,et al.From points to parts : 3D object detection from point cloud with part-aware and part-aggregationnetwork[J]. IEEETransonPatternAnalysisandMachine Intelligence,2021,43(8):2647-2664.
[26] Zhang Yifan,Hu Qingyong,Xu Guoquan,et al.Not all points are equal:learning highly efficient point-based detectors for 3D LiDAR point clouds[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022: 18931-18940.