• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的3D目標(biāo)檢測算法研究

    2022-06-21 01:14:24康晴,湯超,李婧萱,崔振
    計算機時代 2022年6期
    關(guān)鍵詞:騎車人體素主干

    康晴,湯超,李婧萱,崔振

    摘 要: 雖然Voxel R-CNN對于3D點云目標(biāo)檢測具有快速性以及對車輛目標(biāo)檢測有較高精度,但對行人以及騎車人目標(biāo)存在檢測精度低的問題。介紹了一種多尺度改進(jìn)的體素ROI池化方法,并在BEV特征提取網(wǎng)絡(luò)中引入通道注意力機制,進(jìn)一步提高算法對于小目標(biāo)檢測的精度。實驗結(jié)果表明,提出的算法不僅保持了對于車輛檢測的較高精度,并且在行人以及騎車人目標(biāo)檢測場景中擁有更高的檢測精度。

    關(guān)鍵詞: 3D點云目標(biāo)檢測; 通道注意力; 多尺度; Voxel R-CNN

    中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2022)06-44-05

    Research on 3D object detection algorithm based on deep learning

    Kang Qing1, Tang Chao2, Li Jingxuan1, Cui Zhen2

    (1. School of Automation, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094, China;

    2. School of Computer Science and Engineering,Nanjing University of Science and Technology)

    Abstract: Although Voxel R-CNN has high speed for 3D point cloud object detection and high precision for vehicle detection, it still has the problem of low accuracy in pedestrian and cyclist detection. In this paper, a multi-scale improved voxel ROI pooling method is presented, and channel attention mechanism is introduced to the BEV feature extraction network to promote the accuracy for small object detection. Experiments show that the proposed algorithm not only maintains the high accuracy of vehicle detection, but also has higher accuracy in pedestrian and cyclist detection.

    Key words: 3D point cloud object detection; channel attention; multi-scale; Voxel R-CNN

    0 引言

    隨著自動駕駛,機器人視覺,虛擬現(xiàn)實增強技術(shù)等領(lǐng)域研究的發(fā)展,3D點云目標(biāo)檢測作為其中的關(guān)鍵技術(shù)而受到廣泛的關(guān)注,應(yīng)用前景十分廣闊。3D點云目標(biāo)檢測作為自動駕駛的關(guān)鍵技術(shù)已經(jīng)取得了長足的進(jìn)步,然而由于點云的稀疏性、無序性等特點,3D點云目標(biāo)檢測還存在著諸多難點,目前利用點云進(jìn)行深度學(xué)習(xí)的方法主要基于體素、基于點、基于視圖三種。

    基于體素的方法將不規(guī)則的點云輸入劃分為規(guī)則網(wǎng)格,便于應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。VoxelNet[1]通過體素特征編碼(Voxel Feature Encoding,VFE)層,將點狀特征與局部聚集的特征相結(jié)合,提高了基于體素的目標(biāo)檢測精度?;邳c云的稀疏性,SECOND[2](Sparsely embedded convolutional detection)通過引入新的角度損失回歸方法來提高定位精度,并通過稀疏卷積使處理速度得以提升。PointPillars[3]通過2D卷積網(wǎng)絡(luò)對點云生成的偽圖像進(jìn)行處理,從而大大提高了處理速度?;邳c的方法使用原始點云數(shù)據(jù)作為輸入,PointRCNN[4]基于原始的點云數(shù)據(jù),以自下而上的方案生成三維區(qū)域候選框。PV-RCNN[5]通過點與體素方法的結(jié)合,實現(xiàn)高效且感受野靈活的三維目標(biāo)檢測?;谝晥D的方法則通過點云在多角度的投影形成二維圖像,借助成熟的二維圖像處理技術(shù)來解決直接輸入原始點云難以進(jìn)行處理的問題。

    目前對于原始點云的處理方法中,基于點的方法往往能夠獲得較高的檢測精度,但是速度相對較慢?;隗w素的方法能夠獲得更快的檢測速度,但是在精度上有所下降。為解決點云無序性處理問題的同時獲得較高的檢測速度的同時滿足較高精度的要求,我們采用基于體素的Voxel R-CNN算法[6]進(jìn)行3D目標(biāo)檢測。并且為更好地提升Voxel R-CNN在小目標(biāo)尤其是行人和騎車人目標(biāo)的檢測精度,本文基于原有模型進(jìn)行改進(jìn),提高了模型性能,并取得了較好的檢測結(jié)果。

    1 構(gòu)建Voxel R-CNN模型

    本文采用Voxel R-CNN模型,直接對原始點云進(jìn)行基于體素的處理并實現(xiàn)3D點云的目標(biāo)檢測。Voxel R-CNN模型基本框架如圖1所示。

    模型總共由四個部分組成:3D特征主干網(wǎng)絡(luò)、2D主干網(wǎng)絡(luò)及RPN模塊、體素ROI池化、檢測頭。該模型基于體素處理點云的方法,通過稀疏卷積進(jìn)行3D特征的提取,通過投影的BEV特征圖進(jìn)行2D特征提取以及產(chǎn)生3D候選區(qū)域。并由體素ROI池化生成3D ROI特征進(jìn)行3D候選框的回歸,從而估計目標(biāo)點云的3D檢測框。

    1.1 3D主干網(wǎng)絡(luò)

    由于3D點云數(shù)據(jù)的稀疏性和離散性,因此Voxel R-CNN使用體素網(wǎng)格劃分的方法進(jìn)行點云數(shù)據(jù)的處理,并對體素網(wǎng)格進(jìn)行平均體素特征編碼MeanVFE(Mean Voxel Feature Encoding),如圖2所示。

    由于點云數(shù)據(jù)的稀疏性,大部分體素網(wǎng)格為空網(wǎng)格。因此在3D主干網(wǎng)絡(luò)中Voxel R-CNN算法通過輸入體素特征及體素坐標(biāo)形成稀疏張量,并使用子流形卷積與稀疏卷積進(jìn)行特征的提取,大大減少計算量并提高了卷積效率。

    1.2 2D特征提取及RPN模塊

    3D主干網(wǎng)絡(luò)逐漸將體素化的輸入轉(zhuǎn)換成特征體,輸出張量沿Z軸堆疊產(chǎn)生BEV特征圖。2D主干網(wǎng)絡(luò)由自頂向下的特征提取子網(wǎng)絡(luò)、多尺度特征融合子網(wǎng)絡(luò)兩部分組成,如圖3所示。

    多尺度特征融合子網(wǎng)絡(luò)對自上而下的特征進(jìn)行上采樣和連接,2D主干網(wǎng)絡(luò)的輸出通過RPN生成3D候選區(qū)域。

    1.3 體素ROI池化

    由于3D特征體積結(jié)構(gòu)的稀疏性(非空體素所占空間小于3%),Voxel R-CNN將3D候選區(qū)域劃分為子體素,并將相鄰體素的特征整合到網(wǎng)格點中進(jìn)行特征提取。Voxel R-CNN利用體素ROI池化從3D主干網(wǎng)絡(luò)的后兩階段提取體素特征,同時對于每個階段設(shè)置曼哈頓距離閾值對多個尺度的體素進(jìn)行分組,然后將不同階段尺度匯集的特征進(jìn)行拼接得到3D ROI特征。

    1.4 檢測頭

    檢測頭部分以3DROI特征作為輸入進(jìn)行預(yù)測框的細(xì)化,共享的兩層MLP(Multi-Layer Perceptron)將3D ROI特征轉(zhuǎn)換成特征向量,將特征用于3D預(yù)測框回歸與置信度預(yù)測中,最終得到3D預(yù)測框的質(zhì)心坐標(biāo)[cx,cy,cz],長寬高[h,w,l],航向角[θ]等參數(shù)。

    2 Voxel R-CNN模型改進(jìn)

    2.1 基于注意力機制改進(jìn)的2D主干網(wǎng)絡(luò)

    在VoxelR-CNN模型中,2D主干網(wǎng)絡(luò)應(yīng)用于在BEV特征圖中提取特征,并且通過RPN產(chǎn)生3D候選區(qū)域。在原始的2D主干網(wǎng)絡(luò)中,不同層級的多個大小尺度[Ci],在經(jīng)過橫向連接轉(zhuǎn)換通道數(shù)后與2倍上采樣后的特征[Ci+1]進(jìn)行拼接作為2D主干網(wǎng)絡(luò)的融合特征,從而輸出最終的特征圖[Mi],其計算過程可以表示為

    [Mi=h(fCi,D2(Ci+1))]

    其中,[f]代表1x1卷積層,用于轉(zhuǎn)換特征圖的通道數(shù);[D2]表示2倍上卷積操作;[h]表示通道的拼接。

    為避免BEV特征圖中多變的背景信息對于特征提取過程的干擾,我們采用基于通道的注意力機制作為2D主干網(wǎng)絡(luò)中對于特征的約束模塊,以增強對于模型對于特征圖中前景特征的提取能力。增強后的結(jié)果通過殘差塊并使用多尺度方法與2倍上采樣的上層特征進(jìn)行特征融合,計算過程可以表示為:

    [Mi=h(fCi+S(Ci),D2(Ci+1))]

    其中,[S]代表基于通道的注意力機制模塊,用于強化對特征的選擇約束。

    我們采用SENet[7](Squeeze-and-Excitation Networks)實現(xiàn)對于通道級別的注意力機制。SENet將[H×W×C]的輸入經(jīng)過全局平均池化壓縮為[1×1×C],通過兩層全連接層將其轉(zhuǎn)化為對應(yīng)通道的權(quán)重,權(quán)重值經(jīng)過Sigmod激活乘到原輸入特征上,其結(jié)構(gòu)如圖5所示。本文將第一層全連接層的通道壓縮比設(shè)置為16,即[r=16]。

    改進(jìn)后的2D主干網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。通過通道注意力機制的特征約束,使2D主干網(wǎng)絡(luò)能夠更好地提取前景點特征,減小背景點對于特征提取的影響。

    2.2 基于多尺度改進(jìn)的體素ROI池化層

    Voxel R-CNN的3D主干網(wǎng)絡(luò)中,輸入點云數(shù)據(jù)被劃分成子體素,其中非空體素的特征通過平均體素特征編碼計算內(nèi)部所有點的特征向量均值,經(jīng)3D稀疏卷積提取語義信息,并在這一過程中將體素化點云特征逐漸轉(zhuǎn)換成不同尺度的特征體。

    VoxelR-CNN將2D主干網(wǎng)絡(luò)及RPN模塊所產(chǎn)生的3D候選區(qū)域劃分為子體素,并將相鄰體素的特征整合到網(wǎng)格點中進(jìn)行特征提取,從而避免三維特征體的稀疏性對池化的影響。VoxelR-CNN算法從3D主干網(wǎng)絡(luò)的最后兩階段提取體素特征進(jìn)行分組和特征拼接,如圖7(a)所示??紤]低層網(wǎng)絡(luò)感受野小,幾何細(xì)節(jié)信息表征能力強的特點,在這一階段,我們從3D主干網(wǎng)絡(luò)的后四層進(jìn)行體素特征的提取并進(jìn)行多尺度特征融合,從而使改進(jìn)后的點云目標(biāo)檢測算法更適用于行人以及騎車人目標(biāo)等小目標(biāo)的檢測場景,改進(jìn)后的結(jié)構(gòu)如圖7(b)所示。

    3 實驗結(jié)果與分析

    3.1 實驗環(huán)境

    實驗平臺為Intel Xeon E5-2620 v4、NVIDIA GeForce RTX 2080 Ti、32GB內(nèi)存,在Ubuntu 18.04.3和Python3.8下搭建CUDA 10.1、CUDNN 8.0.1、Pytorch 1.5.1深度學(xué)習(xí)環(huán)境。實驗采用目前公開規(guī)模最大的交通場景數(shù)據(jù)集KITTI,自動駕駛KITTI數(shù)據(jù)集包含鄉(xiāng)村、市區(qū)和高速公路場景的真實場景和點云數(shù)據(jù),每個場景中根據(jù)遮擋和截斷的程度,劃分為簡單(Esay)、中等(Moderate)、簡單(Hard)三個等級。該數(shù)據(jù)集共有7481個場景對應(yīng)相應(yīng)點云數(shù)據(jù)與圖像,本次實驗按照Voxel R-CNN的數(shù)據(jù)集劃分結(jié)構(gòu)將其劃分為3712份訓(xùn)練集與3769份驗證集。

    3.2 3D目標(biāo)檢測精度對比

    采用改進(jìn)后的2D主干網(wǎng)絡(luò)與體素ROI池化層與原VoxelR-CNN算法進(jìn)行車輛、行人以及騎車人的目標(biāo)檢測精度結(jié)果對比。實驗使用兩塊NVIDIA GeForce RTX 2080 Ti進(jìn)行,每塊顯卡設(shè)置batch_size為2,并對于所有樣本訓(xùn)練迭代80次,在11個召回點的條件下對車輛、行人以及騎車人目標(biāo)3D預(yù)測框的平均精度([AP3D(%)])作為評估指標(biāo),共進(jìn)行3次實驗,并對實驗結(jié)果取平均值作為最終指標(biāo)。將改進(jìn)后的模型與現(xiàn)有的3D點云目標(biāo)檢測模型在KITTI評估集上的檢測結(jié)果對比,結(jié)果分別如表1、表2和表3所示。

    其中VoxelNet是基于體素的方法,PointRCNN是基于點的方法,F(xiàn)rustum ConvNet[8]是基于視錐特征融合的方法。從表1可知,改進(jìn)后的Voxel R-CNN算法與先前算法相比獲得了最高的車輛目標(biāo)檢測精度,從表2、表3可知,與原算法相比在行人中等目標(biāo)的識別精度提高了1.38%,在騎車人中等目標(biāo)的識別精度提高了1.19%,在行人以及騎車人的平均檢測精度分別上升0.97%和0.83%,并在四種算法中獲得了對于行人及其騎車人目標(biāo)的最高平均檢測精度。

    3.3 3D目標(biāo)檢測可視化與分析

    對于VoxelR-CNN輸出得到的質(zhì)心坐標(biāo)[cx,cy,cz],長寬高[h,w,l],航向角[θ]行人目標(biāo)的檢測結(jié)果進(jìn)行可視化分析,如圖8所示。由可視化結(jié)果可以看出,場景中的行人目標(biāo)均可被準(zhǔn)確識別。在距激光雷達(dá)采樣距離較遠(yuǎn)的行人目標(biāo),即使點云較為稀疏也仍可進(jìn)行識別。

    4 結(jié)束語

    針對VoxelR-CNN中對于行人以及騎車人3D目標(biāo)檢測定位不準(zhǔn)確、精度不高的問題,本文通過構(gòu)建VoxelR-CNN模型實現(xiàn)對于點云的3D目標(biāo)檢測,并在原有模型中進(jìn)行相應(yīng)的改進(jìn)。在2D主干網(wǎng)絡(luò)中,利用注意力機制實現(xiàn)特征約束,并在體素ROI池化層改進(jìn)多尺度采樣方式提高對于較小目標(biāo)的3D檢測精度。相比原VoxelR-CNN算法,改進(jìn)后的算法對行人目標(biāo)的檢測精度平均提高了0.97%,對騎車人目標(biāo)的檢測精度平均提高了0.83%。然而由于VoxelR-CNN是由BEV特征圖生成3D候選區(qū)域,所以原始點云數(shù)據(jù)的Z軸信息有所損失。同樣距離較遠(yuǎn)的點云數(shù)據(jù)由于非常稀疏,所以難以預(yù)測其準(zhǔn)確位置及其航向角。在后續(xù)研究中將繼續(xù)對模型進(jìn)行完善,逐步改善并解決相應(yīng)的問題。

    參考文獻(xiàn)(References):

    [1] Zhou, Yin, Tuzel, et al. Voxelnet: End-to-end learning for point cloud based 3d object detection[J]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:4490-4499

    [2] Yan Y, Mao Y, Li B. SECOND: Sparsely Embedded Convolutional Detection[J]//Sensors,2018,18(10):3337

    [3] Lang, A. H., Vora, et al. PointPillars: Fast Encoders for Object Detection From Point Clouds[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:12697-12705

    [4] Shi, S., Wang, et al. PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud.[J]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:770-779

    [5] Shi, S., Guo, et al. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020:10529-10538

    [6] Deng, J., Shi, et al. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection[J]//AAAI Conference on Artificial Intelligence,2021,35(2):1201-1209

    [7] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. //IEEE Transactions on Pattern Analysis and Machine Intelligence,2017(99)

    [8] Wang Z, Jia K. Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal[C]// 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2019

    猜你喜歡
    騎車人體素主干
    基于超體素聚合的流式細(xì)胞術(shù)自動門控方法
    全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
    軍事文摘(2024年2期)2024-01-10 01:58:34
    基于多級細(xì)分的彩色模型表面體素化算法
    抓主干,簡化簡單句
    二代支架時代數(shù)據(jù)中糖尿病對無保護(hù)左主干患者不同血運重建術(shù)預(yù)后的影響
    運用邊界狀態(tài)約束的表面體素加密細(xì)分算法
    高齡無保護(hù)左主干病變患者血運重建術(shù)的長期預(yù)后
    基于體素格尺度不變特征變換的快速點云配準(zhǔn)方法
    “熱心市民”載民警去抓人結(jié)果自己被抓了
    新傳奇(2019年51期)2019-05-13 14:30:43
    莱芜市| 二连浩特市| 富蕴县| 托克托县| 阳春市| 榆树市| 临武县| 江口县| 灵川县| 阜宁县| 碌曲县| 睢宁县| 新蔡县| 舞阳县| 钦州市| 余庆县| 兰考县| 闽清县| 湖州市| 阿拉善盟| 阿坝| 米脂县| 晴隆县| 宁远县| 枞阳县| 神池县| 罗城| 南川市| 枝江市| 赤壁市| 姜堰市| 灵台县| 钟山县| 太仓市| 陇川县| 潍坊市| 观塘区| 隆昌县| 兴化市| 淮滨县| 崇仁县|