• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進Faster R-CNN在兩輪車輛載人檢測中的應(yīng)用

      2021-11-12 03:37:44鄺先驗周亞龍歐陽鵬
      關(guān)鍵詞:候選框人頭乘客

      鄺先驗,陳 濤,周亞龍,歐陽鵬

      (江西理工大學(xué) 電氣工程與自動化學(xué)院,江西 贛州 341000)

      0 引言

      兩輪車在交通出行中越來越普及,又因其載人不規(guī)范,易引起交通事故,所以對兩輪車輛載人的檢測迫在眉睫。而兩輪車輛載人檢測的關(guān)鍵是對兩輪車上乘客的檢測,這與行人檢測有許多相似之處,所以可以借鑒行人檢測的研究成果。

      文獻[1]研究了人臉膚色和發(fā)色的差異,再聚類并建立人頭模型,最后模板匹配檢測人頭,對行人檢測精度高。文獻[2]在圖片中使用固定的滑動窗口提取特征,使用自適應(yīng)提升算法訓(xùn)練分類器,通過篩選式級聯(lián)把分類器銜接起來,進行目標(biāo)分類識別。文獻[3]先計算梯度方向直方圖,再用支持向量機(support vector machine, SVM)訓(xùn)練得到物體的梯度模型,最后將模型與目標(biāo)匹配,進行目標(biāo)檢測。文獻[4]通過分離運動目標(biāo)和背景,對背景使用融合區(qū)域匹配和特征匹配,可快速檢測出人頭。但上述傳統(tǒng)算法提取的特征比較單一,受環(huán)境影響較大。近些年,深度學(xué)習(xí)技術(shù)已成為目標(biāo)檢測的主流方向[5-10],也被應(yīng)用到行人檢測中。文獻[11]建立行人人頭模型,提取頭部特征,利用Faster R-CNN訓(xùn)練測試,具有優(yōu)良的自適應(yīng)性。文獻[12]采用金字塔網(wǎng)絡(luò)結(jié)構(gòu)和特征融合技術(shù)來改進Faster R-CNN,提高了模型對煤礦井下行人檢測的效果。文獻[13]通過實驗對比不同的特征提取網(wǎng)絡(luò)和檢測算法,發(fā)現(xiàn)以InceptionV2為特征提取網(wǎng)絡(luò)的Faster R-CNN在車站行人檢測中有較好的效果,算法的檢測精度為81.08%,檢測時間為0.576 5 s。

      綜上,F(xiàn)aster R-CNN算法具有良好的自適應(yīng)性,且具有較高的檢測精度和較快的檢測速度,所以選擇該算法進行兩輪車輛載人的檢測。但在真實圖片中,人頭尺寸偏小和乘客重疊,往往會導(dǎo)致兩輪車上乘客的漏檢,因此檢測算法需要改進。改進的Faster R-CNN算法調(diào)整了區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)中的候選框(anchor)尺寸和特征融合結(jié)構(gòu),以增強對小尺寸目標(biāo)和多尺度目標(biāo)的檢測。改進的算法還使用了柔和的非極大值抑制(soft non-maximum suppression,Soft-NMS)[14]替換非極大值抑制(non-maximum suppression, NMS),以提高重疊目標(biāo)的檢測效果。

      1 兩輪車輛載人檢測模型設(shè)計

      兩輪車輛載人檢測模型流程圖如圖1所示。檢測模型的流程:先檢測出圖片中的兩輪車和人頭;再根據(jù)人頭檢測框的中心點是否在兩輪車區(qū)域內(nèi),找出所有乘客;最后,在圖片上標(biāo)出兩輪車上的乘客。

      1.1 Faster R-CNN算法

      Faster R-CNN的結(jié)構(gòu)如圖2所示,其中,特征提取網(wǎng)絡(luò)采用的是GoogLeNet,用于提取目標(biāo)的特征信息。將實驗數(shù)據(jù)集輸入到GoogLeNet的卷積層中進行目標(biāo)特征的提取并產(chǎn)生特征圖,將生成的特征圖送入到RPN生成候選區(qū)域;再將提取的候選區(qū)域的特征送入到感興趣區(qū)域池化(ROI pooling)層處理成固定大小的特征向量;最后送入全連接層實現(xiàn)分類和邊框的回歸。

      圖1 兩輪車輛載人檢測模型流程圖>

      圖2 Faster R-CNN結(jié)構(gòu)圖

      1.2 特征提取網(wǎng)絡(luò)GoogLeNet

      表1 特征提取網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)

      GoogLeNet相比于VGG網(wǎng)絡(luò)有更深和更寬的網(wǎng)絡(luò)框架,可以提取兩輪車和人頭更豐富的特征,從而提升訓(xùn)練結(jié)果。Inception模塊是GoogLeNet組成的基本單元,有4個版本,即Inception V1~V4[15-18]。通過閱讀文獻,本文選擇比較常見的Inception V2來構(gòu)建GoogLeNet。特征提取網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)如表1所示,其有3個卷積層、2個最大池化層和7個Mixed模塊。Mixed模塊等同于Inception V2模塊,結(jié)構(gòu)如圖3所示,先通過1×1卷積降低通道數(shù)聚合信息,再融合不同尺度的卷積以及池化操作,進行多維特征的融合,有效地提升了檢測效果。

      1.3 RPN網(wǎng)絡(luò)及其改進

      1.3.1 RPN網(wǎng)絡(luò)

      RPN網(wǎng)絡(luò)輸入的是特征提取網(wǎng)絡(luò)的特征圖,輸出的是目標(biāo)候選區(qū)域矩形框集合,其結(jié)構(gòu)如圖4所示。GoogLeNet提取的特征圖輸入到RPN,先經(jīng)過一個3×3的滑動窗口在特征圖上滑動,每次滑動可產(chǎn)生一個576維的特征向量,再將576維的特征向量送入兩個全連接層。通過2k個1×1的卷積核將576維的特征向量映射到分類層,判別候選區(qū)域是前景還是背景。通過4k個1×1的卷積核將576維的特征向量映射到位置回歸層,用來輸出對候選區(qū)域坐標(biāo)位置的回歸。

      圖3 Inception V2模塊結(jié)構(gòu)

      圖4 RPN網(wǎng)絡(luò)結(jié)構(gòu)

      圖4中特征圖在經(jīng)過3×3卷積之后每個像素點上產(chǎn)生k個候選框(anchor),而這些anchor是后續(xù)目標(biāo)定位的關(guān)鍵。原始的anchor有9種型號(即k=9),是由3種面積尺寸為{128^2,256^2,512^2}和3種長寬比為{1∶1,1∶2,2∶1}組合構(gòu)成的。

      1.3.2 RPN網(wǎng)絡(luò)的改進

      RPN網(wǎng)絡(luò)中anchor的尺寸設(shè)置直接影響候選框的生成,進而影響后續(xù)目標(biāo)定位的精度,所以這是一個重要參數(shù)。原始anchor的尺寸是根據(jù)PASCAL VOC2007數(shù)據(jù)集設(shè)計的,具有普適性。但是,本文數(shù)據(jù)集中人頭尺寸偏小,若使用原始的anchor,會導(dǎo)致候選框無法檢測出小尺寸人頭,導(dǎo)致目標(biāo)漏檢,影響檢測效果。因此,調(diào)整anchor的尺寸以符合本文數(shù)據(jù)集是有意義的。

      圖5是數(shù)據(jù)集中人頭真實標(biāo)注框面積的直方圖。由圖5可以看出:圖片中人頭尺寸相對偏小,人頭標(biāo)注框面積的平均值為14 963≈120×120,四分位數(shù)分別為Q1=7 801≈85×85,Q2=15 274≈120×120,Q3=56 792≈240×240,這些參數(shù)與原始anchor的面積尺寸有較大的差異,所以原始anchor的設(shè)置不適合本文數(shù)據(jù)集。而四分位數(shù)是對所有數(shù)據(jù)升序處理后,選取第25%、第50%和第75%的數(shù)據(jù)作為Q1、Q2和Q3。所以四分位數(shù)的選取不受極大值數(shù)據(jù)或極小值數(shù)據(jù)的影響,對數(shù)據(jù)的擾動具有一定的魯棒性。為了提高兩輪車輛上人頭檢測的精度,結(jié)合本文采用的數(shù)據(jù)集,將anchor的面積尺寸修改為{85^2,120^2,256^2,512^2}。

      人頭真實標(biāo)注框長寬比的直方圖如圖6所示。由圖6可知:人頭的長寬尺寸比主要集中在0.5和0.8附近,所以anchor的長寬比修改為{2∶1,1∶1,1∶1.25,1∶2}。

      圖5 人頭真實標(biāo)注框面積的直方圖

      圖6 人頭真實標(biāo)注框長寬比的直方圖

      實際中,人頭在圖片上顯示的尺寸與拍攝的距離成反比,因此拍攝圖片中人頭的尺寸具有多樣性。但原始的RPN只用了一個3×3 的卷積核對特征圖進行候選區(qū)域提取,感受野有限,不能滿足實際情況,所以本文構(gòu)建了一種多尺度特征融合的RPN結(jié)構(gòu),如圖7所示。多尺度特征融合的RPN結(jié)構(gòu)在GoogLeNet提取的特征圖上,采用多分支結(jié)構(gòu)來進行候選區(qū)域提取,可得到不同尺度的目標(biāo)。該結(jié)構(gòu)有3個分支,第1個分支采用一個1×1的卷積核對特征圖進行候選區(qū)域提?。坏?個分支采用一個3×3的卷積核對特征圖進行候選區(qū)域提??;第3個分支采用將兩個3×3的卷積核串聯(lián)在一起的方式對特征圖進行候選區(qū)域提取,其感受野效果等同于一個5×5的卷積核。兩個3×3的卷積核串聯(lián)不僅可以提升網(wǎng)絡(luò)的深度,同時還可以減少參數(shù)量。

      圖7 多尺度特征融合RPN結(jié)構(gòu)

      實驗證明,修改后的RPN可以增強模型對目標(biāo)多尺度的魯棒性,使模型對小尺寸人頭更加敏感,提高了模型對人頭檢測的性能。

      1.4 Soft-NMS替換NMS

      檢測器對圖像中的目標(biāo)進行檢測時,最后選定的候選框必然會有一定的重疊現(xiàn)象,當(dāng)重疊度大于某一閾值時,將置信度最高的作為輸出,而將其他的預(yù)測結(jié)果直接去掉,這種方法稱為非極大值抑制(NMS)。實際中,兩輪車上乘客坐得比較緊湊,車載人員之間會出現(xiàn)遮擋,因此特征不完整的后排乘客的候選框得分較低。如果用傳統(tǒng)的NMS來篩選候選框,后排乘客的候選框由于重疊的原因,會被得分高的前排人員的候選框過濾掉,導(dǎo)致后排乘客的漏檢。針對這個問題,本文將采用柔和的非極大值抑制(Soft-NMS)替換NMS。NMS過于簡單直接,而Soft-NMS對函數(shù)進行了平滑。文獻[14]提出兩種平滑函數(shù),一種是線性加權(quán)函數(shù),另一種是高斯加權(quán)函數(shù)。

      NMS的表達式[8]為:

      (1)

      Soft-NMS線性加權(quán)的表達式[14]為:

      (2)

      Soft-NMS高斯加權(quán)的表達式[14]為:

      (3)

      其中:ci為bi的得分;M為當(dāng)前得分最高的候選框;bi為待處理的候選框;D為所有待處理候選框的集合;iou(M,bi)為M和bi之間的重疊率。當(dāng)iou(M,bi)越大,ci下降越厲害。實驗證明:Soft-NMS檢測重疊目標(biāo)的效果要優(yōu)于傳統(tǒng)的NMS,且Soft-NMS高斯加權(quán)函數(shù)的性能比Soft-NMS線性加權(quán)函數(shù)的更好,證明了改進后網(wǎng)絡(luò)的有效性。

      2 實驗結(jié)果與分析

      2.1 數(shù)據(jù)集

      兩輪車輛載人檢測實驗的數(shù)據(jù)集包含2 800張訓(xùn)練集和662張測試集。訓(xùn)練集由兩輪車的圖片和人頭的圖片組成。兩輪車的圖片通過拍攝和錄像選取得到,包含多個場景、多個角度兩輪車的圖片。人頭圖片是從公共集Hollywood heads dataset中選取部分圖片做實驗。測試集是真實場景下兩輪車輛載人的圖片,通過網(wǎng)上爬蟲和拍攝得到。

      2.2 模型訓(xùn)練

      模型采用以GoogLeNet為特征提取網(wǎng)絡(luò)的Faster R-CNN檢測方法,選擇利用公共COCO數(shù)據(jù)集上訓(xùn)練好的模型作為初始網(wǎng)絡(luò)。為減少訓(xùn)練時間,降低訓(xùn)練難度,對模型進行微調(diào)。實驗平臺是谷歌公司開發(fā)的深度學(xué)習(xí)框架TensorFlow,在該平臺進行相關(guān)代碼和參數(shù)訓(xùn)練,網(wǎng)絡(luò)的訓(xùn)練過程采用隨機梯度下降法(stochastic gradient descent,SGD)來優(yōu)化整個網(wǎng)絡(luò)模型。兩輪車輛載人的訓(xùn)練模型參數(shù)配置:學(xué)習(xí)率初始值為0.002,6×104次迭代后降為0.000 2,momentum值為0.9,數(shù)據(jù)集訓(xùn)練迭代12×104次。實驗用到的設(shè)備:聯(lián)想工作站C30,處理器E5-2609,內(nèi)存16 G,顯卡GeForce RTX 2080,運行環(huán)境ubuntu16.04。

      2.3 實驗檢測及結(jié)果

      原始算法和改進后Faster R-CNN算法對相同圖片的檢測效果對比圖,如圖8所示。由圖8a可以看出:第1幅圖中兩輪車上被遮擋的后排乘客被漏檢,第2幅圖和第3幅圖中視覺遠(yuǎn)端尺寸小的乘客被漏檢,說明原始算法檢測人頭的效果不佳。圖8b可以檢測出被遮擋住的人頭和小尺寸的人頭,反映出改進后算法檢測人頭的效果較好。

      (a) 原始的Faster R-CNN算法檢測效果圖

      (b) 改進后Faster R-CNN算法檢測效果圖

      圖9是在不同場景下,改進后Faster R-CNN算法的檢測效果圖。從圖9中可以看出:在不同路況、不同拍攝視角和不同光照下,改進后算法能精準(zhǔn)地檢測出兩輪車上的乘客。

      (a) 場景1 (b) 場景2

      (c) 場景3 (d) 場景4

      為了評估改進后算法對兩輪車上乘客檢測的有效性,采用精度P、召回率R和F1值對算法進行衡量。精度P、召回率R和F1值可按下式計算:

      (4)

      (5)

      (6)

      其中:NTP為正檢數(shù),表示目標(biāo)中被正確檢測出來的數(shù)量;NFP為誤檢數(shù),表示把非目標(biāo)檢測為目標(biāo)的數(shù)量;NFN為漏檢數(shù),表示目標(biāo)中沒有被檢測出的數(shù)量。

      改進前后算法對比如表2所示。由表2可知:實際人頭共1 056個,改進后算法中有35個目標(biāo)被漏檢,原因是這些乘客的頭部被嚴(yán)重遮擋,特征非常不明顯。誤檢數(shù)有97個,其中有些是兩輪車的后備箱被誤檢為人頭,但主要是兩輪車附近的行人被誤檢為車載人員。改進后算法的檢測精度為91.33%,召回率為96.76%,相比于原始算法,精度提高了2.68%,召回率提高了6.67%,說明改進后算法檢測效果優(yōu)異。

      2.4 影響因素分析

      本文通過實驗來分析RPN的優(yōu)化、Soft-NMS的使用這兩個因素對模型性能的影響。為此,本文通過4種不同的方案進行對比實驗,基準(zhǔn)方案為Faster R-CNN+Inception V2,結(jié)果如表3所示。

      從表3中可以看出:方案②和方案③相比于未改進的方案①,在召回率上有明顯的提升。方案②使用了Soft-NMS,可以檢測出重疊度高而得分低的候選框,這類候選框在圖片中通常指的是被遮擋的后排乘客,從而有效減少了重疊乘客的漏檢。方案③優(yōu)化了RPN,使得模型對小尺寸人頭更敏感,增強了對小尺寸目標(biāo)的檢測??梢?,優(yōu)化RPN或使用Soft-NMS可以有效地減少乘客的漏檢,提高檢測效果。方案④融合了方案②和方案③,故其精度和召回率都是最高的,所以方案④為最佳方案。

      表3 4種不同方案性能對比

      3 結(jié)束語

      提出了一種基于改進的Faster R-CNN算法檢測模型,通過優(yōu)化RPN和使用Soft-NMS來提高模型的檢測性能。改進后的算法提高了兩輪車輛載人檢測的精度和召回率,模型的性能也得到了有效地改善。下一步將圍繞兩輪車附近行人干擾和嚴(yán)重遮擋問題進行研究,以進一步提高兩輪車輛載人檢測的性能。

      猜你喜歡
      候選框人頭乘客
      重定位非極大值抑制算法
      交出人頭
      嫦娥五號帶回的“乘客”
      面向自然場景文本檢測的改進NMS算法
      基于Soft-NMS的候選框去冗余加速器設(shè)計*
      假人頭防盜大法
      知識窗(2019年4期)2019-04-26 03:16:02
      最牛乘客
      一種針對特定目標(biāo)的提議算法
      朋友圈
      百花洲(2018年1期)2018-02-07 16:33:02
      車上的乘客
      罗城| 兴文县| 澎湖县| 云阳县| 芜湖县| 金堂县| 武川县| 垦利县| 元氏县| 梧州市| 泉州市| 宁河县| 普安县| 文成县| 怀来县| 霍城县| 嘉善县| 尉氏县| 遂川县| 雷波县| 肃北| 永修县| 乐至县| 富宁县| 石嘴山市| 黄浦区| 义马市| 都兰县| 马尔康县| 驻马店市| 同仁县| 行唐县| 库尔勒市| 陕西省| 晴隆县| 长海县| 徐汇区| 秦安县| 宁南县| 阳江市| 武冈市|