• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多尺度特征融合的小尺度行人檢測

      2019-01-02 09:01:18羅強,蓋佳航,鄭宏宇
      軟件 2019年12期
      關鍵詞:特征融合卷積神經(jīng)網(wǎng)絡

      摘 ?要: 隨著無人駕駛技術的蓬勃發(fā)展,針對行人的檢測成為一大難點,同時也是熱點研究問題。而針對傳統(tǒng)行人檢測框架(One-stage和Two-stage等)對小尺度行人檢測效果不佳的問題,本文在FPN網(wǎng)絡基礎上嘗試了新的策略,致力于提高視頻序列不同尺度行人的識別精度。算法先通過ResNet50提取特征,并采用FPN進行多尺度特征融合,同時利用RPN產生推薦區(qū)域,最后Fast RCNN對RPN產生的推薦區(qū)域實現(xiàn)分類與回歸,經(jīng)過非極大值抑制后處理等到最終結果。實驗結果表明,本文基于FPN構建的行人檢測算法,在CityPersons數(shù)據(jù)集上達到了11.88% MR,比基準模型Adapted Faster RCNN在小尺度行人檢測上有較大提升,相比于傳統(tǒng)檢測框架能更好的檢測不同尺度的行人。該技術可以廣泛應用在智能視頻監(jiān)控,車輛輔助駕駛等領域中。

      關鍵詞: 卷積神經(jīng)網(wǎng)絡;小尺度;行人檢測;FPN;特征融合

      中圖分類號: TP3 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.023

      本文著錄格式:羅強,蓋佳航,鄭宏宇. 基于多尺度特征融合的小尺度行人檢測[J]. 軟件,2019,40(12):100105

      Small-scale Pedestrian Detection Based on Multi-scale Feature Fusion

      LUO Qiang, GAI Jia-hang, ZHENG Hong-yu

      (Computer Science and Engineering School, Nanjing University of Technology, Nanjing, Jiangsu 210000)

      【Abstract】: With vigorous development of unmanned driving technology, pedestrian detection has become a major difficulty, and a hot research issue. To solve the problem of being ineffective of traditional pedestrian detection frameworks (One-stage and Two-stage, etc.) for small-scale pedestrian, the paper tries to improve pedestrian recognition accuracy of different scales in video sequence with new strategy based on FPN network. Firstly, the algorithm carries on multi-scale feature fusion based on ResNet50 feature extractration with FPN. At the same time, generate recommendation regions with RPN. Finally, carry on classification and regression for RPN generated recommendation regions with Fast RCNN, obtainfinal results after non-maximum suppression processing. Experimental results show pedestrian detection algorithm based on FPN achieves 11.88% MR on CityPersons data set, which is much better than small-scale pedestrian detection with benchmark model Adapted Faster RCNN, and can detect pedestrians of different scales better than traditional detection framework. The technology can be widely applied in intelligent video surveillance, vehicle assisted driving and other fields.

      【Key words】: Convolutional neural network; Small scale; Pedestrian detection; FPN; Feature fusion

      0 ?引言

      近年來,隨著人工智能的蓬勃發(fā)展,無人駕駛車輛的研究得到了重大發(fā)展。行人檢測是無人駕駛車輛研究的一個重要課題,對于提升車輛感知周圍行人的能力有重要影響。

      目前,針對行人的檢測技術還不夠成熟,因為復雜場景下的行人檢測面臨著許多挑戰(zhàn),如尺度、外觀姿態(tài)變化和遮擋等。第一點是在圖像或者視頻序列中所采集到的行人圖像尺度范圍分布較廣,且常常存在較遠處的小尺度行人,難以被識別,加大了行人檢測的難度。第二點是行人的外觀變化,即不同場景下往往行人具有不同的光照條件、衣著、姿態(tài)等,給行人檢測帶來了巨大的挑戰(zhàn)。第三點便

      是密集場景下行人的互相遮擋,使得行人檢測算法很難做出較為全面的檢測,限制了算法的精度。

      本文主要研究的是行人檢測小尺度問題?,F(xiàn)實場景中在視頻監(jiān)控時行人的尺度變化范圍較廣,目前通用的行人檢測算法不能很好的識別不同尺度的行人。本文在FPN網(wǎng)絡基礎上進行了新的嘗試,致力于提高不同尺度行人的識別精度。本文的研究 ?使得小尺度的行人檢測精度有了新的提高,理論上可以應用在智能監(jiān)控、無人駕駛等領域精確的檢測行人。

      1 ?小尺度行人檢測

      對圖像中的物體進行識別和定位是計算機視覺領域的基礎問題之一,作為目標檢測的實際應用之一的行人檢測,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在行人并給予精確定位的技術?;谏疃葘W習的行人檢測器可根據(jù)有無區(qū)域推薦過程分為一階段檢測器和二階段檢測器,還可根據(jù)是否依賴錨框分為Anchor-Based檢測器和Anchor- Free檢測器。

      (1)一階段檢測器不依賴于區(qū)域推薦的過程,一般先定義一系列的先驗框,然后由卷積神經(jīng)網(wǎng)絡從圖像提取特征,利用提取的特征對先驗框經(jīng)過一次分類和回歸,最后經(jīng)過一次非極大值抑制算法進行后處理,去除多余的檢測框,得到最終結果。由于算法流程簡單,因此算法速度較快,但精度一般低于兩階段檢測算法。例如YOLO[1]-[3]、SSD[4]等。

      (2)兩階段檢測器依賴于區(qū)域推薦的過程,由區(qū)域推薦算法生成推薦區(qū)域,然后由卷積神經(jīng)網(wǎng)絡從圖像提取特征,利用提取的特征對推薦的區(qū)域進行分類和回歸,得出精確的位置,最后經(jīng)過一次非極大值抑制算法進行后處理,去除多余的檢測框,得到最終結果。由于存在區(qū)域推薦和兩階段級聯(lián)檢測,兩階段檢測算法精度上具有優(yōu)勢,但由于步驟繁瑣,速度總體慢于一階段檢測算法。例如RCNN[5]、Fast RCNN[6]、Faster RCNN[7]等。

      圖1 ?一階段檢測算法流程

      Fig.1 ?One phase detection algorithmic process

      圖2 ?兩階段檢測算法流程

      Fig.2 ?Two phase detection algorithmic process

      (3)Anchor-Free檢測器不依賴于預定義的先驗框,先由卷積神經(jīng)網(wǎng)絡從圖像提取特征,然后分類分支對特征圖逐點分類得到一個分類結果的熱力圖,由回歸分支對特征圖逐點回歸得出尺度和偏移量信息,最后通過后處理,得到最終的檢測結果。例如CSP[8]等。

      圖3 ?Anchor-Free檢測算法流程

      Fig.3 ?Anchor-Free detection algorithm process

      1.1 ?算法流程

      1.1.1 ?特征提取與融合流程

      (1)特征提取

      FPN算法[10]使用的主干卷積神經(jīng)網(wǎng)絡為ResNet50[9]。ResNet主要解決的是訓練深層神經(jīng)網(wǎng)絡困難的問題,其通過在網(wǎng)絡中加入跳層連接引入恒等映射,使得深層網(wǎng)絡更容易學得恒等映射,使得在適當?shù)臅r候,網(wǎng)絡可與淺層網(wǎng)絡達到近似的效果,使得一般情況下深層神經(jīng)網(wǎng)絡至少不會產生比淺層神經(jīng)網(wǎng)絡更高的錯誤率,同時也降低了優(yōu)化網(wǎng)絡的難度,并且解決了梯度消失的訓練問題。ResNet50即為擁有50層卷積的ResNet,其中還引入了Bottleneck結構,通過1x1的卷積來降低運算量,從而加速計算。ResNet50共有五個階段,特征提取時,第一到第四階段的特征,分別取名為C2-C5,通道數(shù)為256,512,1024,2048,C2-C5全部輸出作為下一步特征融合的輸入。

      (2)多尺度特征融合

      FPN接收ResNet50的四個階段的特征C2-C5作為輸入,提供過引入橫向連接,使用1x1卷積先將C2-C5的通道數(shù)全部統(tǒng)一降為256,得到LC2- LC5,然后將從LC5開始,先通過最近鄰插值對其進行上采樣,使得長寬擴大為原來的一倍,并與LC4進行逐點相加得到VC4,之后再將VC4上采樣,與LC3逐點相加得到VC3,如此往復可得到VC2-VC4,同時令LC5為VC5,然后再利用3x3,填充為1的卷積逐一作用在VC2-VC5上進行進一步特征融合,得到P2-P5,最后再利用1x1,步長為2最大池化作用于P5得到P6。P2-P6為多尺度、高低層特征融合得到的特征金字塔,各層都具有較強的語義信息,同時整個金字塔具有不同的感受野,有利于尺度變化情況較大場景下的行人檢測。

      圖4 ?算法流程圖

      Fig.4 ?Algorithm flowchart

      圖5 ?殘差塊

      Fig.5 ?Residual block

      圖6 ?Bottleneck結構

      Fig.6 ?Bottleneck structure

      圖7 ?多尺度特征融合

      Fig.7 ?Multi-scale feature fusion

      1.1.2 ?RPN區(qū)域推薦流程

      (1)錨框計算

      定義在特征圖上一個點的錨框即為一組擁有相同中心點,但擁有不同的寬高比的矩形框,引入錨框可以作為坐標回歸時的參照,從而降低坐標回歸的難度。RPN接收到提取的特征后,根據(jù)預定義的一組尺度和寬高比參數(shù)為特征圖上每一個點都計算

      圖8 ?錨框

      Fig.8 ?Anchor frame

      一組錨框,密集覆蓋了整張圖片。

      (2)分類與回歸

      RPN接收到P2-P6的特征后,為每一級特征都先使用一個3x3卷積進行處理,然后由分類分支對特征圖上定義的每一個錨框進行前景和背景二分類,同時還使用回歸分支為每一個錨框進行坐標偏移量的回歸,得出初步的坐標位置。分類分支和回歸分支都僅由一個1x1卷積組成。

      (3)后處理產生推薦區(qū)域

      RPN對P2-P6的所有錨框進行了分類和回歸后,分別對每一級產生的推薦區(qū)域進行一次非極大值抑制抑制處理,減少了大量的虛檢,最后再綜合各級檢測結果,篩選前1000個置信度最高的框作為最終的推薦區(qū)域。

      1.1.3 ?Fast RCNN

      (1)ROIAlign

      得到推薦區(qū)域后,ROIPooling操作可以根據(jù)輸入的推薦區(qū)域和特征圖對推薦區(qū)域進行特征提取對齊,輸入到后一步的分類和回歸。但由于ROIPooling存在兩次量化操作,導致了一定程度上的特征對齊問題,因此影響了精度,而在MaskRCNN中提出的ROIAlign使用雙線性插值操作,避免了量化,因此可以更好的進行特征對齊,因此在此處使用ROIAlign操作對推薦區(qū)域進行特征提取對齊。

      由于存在P2-P6的多級特征,且靠近低層的P2、P3等具有較高的分辨率,較小的感受野,適合檢測小物體,靠近高層的P5、P6具有較低的分辨率,較大的感受野,適合檢測大物體,因此在此處根據(jù)每一個推薦區(qū)域的尺度大小,將其動態(tài)映射到適當?shù)奶卣鹘鹱炙蛹夁M行特征提取,更加有利于多尺度行人檢測。

      (2)分類與回歸

      推薦區(qū)域經(jīng)過特征提取后,F(xiàn)ast RCNN[6]對其使用全連接層進行二次分類和回歸,得出更加準確的分類結果和更加精確的坐標位置,進一步提升了算法的精度。

      1.1.4 ?非極大值抑制后處理

      經(jīng)過了Fast RCNN的分類和回歸后,仍然存在大量的虛檢,而這些虛檢的框往往與正確的框之間有很大的交并比(Intersection Over Union),因此可以預先設置一個閾值,并先將所有檢測框按置信度由高到低排列,取出有最大置信度的框與剩余所有框計算交并比,若大于該閾值,則將其移除,并將高置信度的框加入到最終結果集合,反復執(zhí)行貪心合并的過程,即可得到最終的檢測結果。

      1.2 ?FPN訓練細節(jié)

      1.2.1 ?遷移學習

      我們使用在ImageNet上預訓練過的ResNet50進行模型微調,并將其前兩個階段凍結,不進行參

      圖9 ?IoU計算

      Fig.9 ?IoU calculation

      圖10 ?非極大值抑制之前

      Fig.10 ?Before non-maximum suppression

      圖11 ?非極大值抑制之后

      Fig.11 ?After non-maximum suppression

      數(shù)更新。遷移學習被廣泛運用在計算機視覺各個領域,它使得我們能在較小的數(shù)據(jù)集上加速收斂,并取得更好的結果。

      1.2.2 ?數(shù)據(jù)預處理

      對輸入圖片先進行歸一化處理,然后以0.5的概率隨機進行水平翻轉,最后將其進行0填充使得高和寬為32的倍數(shù)。

      1.2.3 ?錨框參數(shù)

      根據(jù)對數(shù)據(jù)集的統(tǒng)計和行人寬高比的先驗知識的綜合考量,高寬比選擇為2.44,尺度為8。

      1.2.4 ?非極大值抑制閾值

      過高的閾值會導致較多的虛檢,而過低的閾值則會導致較多的漏檢,經(jīng)過實驗考量,最終選擇閾值為0.5。

      1.2.5 ?優(yōu)化參數(shù)

      優(yōu)化器選擇為帶動量的批量隨機梯度下降,學習率初始設置為0.02??偣灿柧?2輪,前500次迭代進行模型預熱,將學習率從0.006逐步線性增長到0.02,并在第9輪和第10輪時將學習率分別調整為0.002和0.0002。

      2 ?實驗結果與分析

      2.1 ?實驗數(shù)據(jù)集

      本次實驗使用的數(shù)據(jù)集為CityPersons行人檢測數(shù)據(jù)集[11]。CityPersons是在Cityscapes數(shù)據(jù)集的基礎上進行精細的邊框標注得到的一個具有多樣且復雜場景的行人檢測數(shù)據(jù)集。該數(shù)據(jù)集由訓練集和驗

      表1 ?CityPersons數(shù)據(jù)集組成

      Tab.1 ?Composition of CityPersons data set

      Train Val. Test Sum

      #cities 18 3 6 27

      #images 2975 500 1575 5000

      #persons 19654 3938 11424 35016

      #ignore regions 6768 1631 4773 13172

      圖12 ?CityPersons數(shù)據(jù)集

      Fig.12 ?CityPersons data set

      證集以及測試集組成。本次實驗在訓練集上進行訓練,在驗證集上進行實驗效果評估,評估的標準為MR(Log Miss Rate Averaged Over FPPI Range Of [0.02, 1.00])。

      2.2 ?實驗環(huán)境

      操作系統(tǒng):Ubuntu16.04

      GPU:GTX 1080TI 11G

      CPU:I7-8700

      GPU加速庫:CUDA9.0

      C++編譯器:GCC5.5

      編程語言:Python3.6

      深度學習框架: PyTorch1.1

      2.3 ?實驗結果

      本次實驗的基準模型為Adapted Faster RCNN,如圖13所示。

      2.4 ?實驗結果分析

      從實驗結果1和2的MR_Resonable指標可看出,在1x分辨率下,F(xiàn)PN達到了15.4%MR,略高于基準模型Adapted Faster RCNN,從MR_Resonable_ small指標來看,F(xiàn)PN在小尺度數(shù)據(jù)子集上達到了21.38% MR,大幅領先于基準模型Adapted Faster RCNN,這表明了經(jīng)過多尺度特征融合后的FPN檢測算法在小尺度行人檢測上的優(yōu)越性。

      由實驗結果2和3可得出,在高寬比的選擇上,2.44由于更加符合人體的結構,使得先驗框更加貼近目標對象,降低了檢測的難度,因此也取得了更好的結果。

      由實驗結果2和4可得出,在FPN多尺度特征融合過程的特征選擇上,P2由于感受野過小,在ROIAlign操作中的特征圖匹配過程中并未起到太大的貢獻,使用的價值并不大,去掉P2之后,模型得到了一定的提升。

      圖13 ?CityPersons實驗結果

      Fig.13 ?CityPersons experimental results

      在經(jīng)由對原圖進行1.3倍上采樣后,從MR_ Resonable指標可看出,使用單個寬高比2.44的FPN依舊領先于基準模型Adapted Faster RCNN,同時在MR_Resonable_small指標上,F(xiàn)PN依舊具有較大的優(yōu)勢。

      為了進一步提升FPN的表現(xiàn),在實驗7,將圖片分別進行1.2倍、1.3倍、1.4倍的上采樣,構成圖像金字塔進行多尺度測試,最后將所有的檢測結果通過非極大值抑制進行融合,進一步提升模型的精度,此時模型達到了最高的精度11.88% MR。

      2.5 ?行人檢測效果展示

      在CityPersons數(shù)據(jù)集上實驗部分結果如圖14所示,本文提出的小尺度行人檢測算法能夠較好的檢測不同尺度的行人。

      圖14 ?效果圖

      Fig.14 ?Design sketch

      3 ?結論

      本項目實現(xiàn)了基于FPN的行人檢測算法,在CityPersons數(shù)據(jù)集上達到了11.88% MR,相對于基準模型Adapted Faster RCNN在小尺度行人檢測上有較大提升,對多尺度場景下行人檢測具有一定的改進。利用該技術可以在智能視頻監(jiān)控,車輛輔助駕駛和人體行為分析等應用中發(fā)揮非常突出的作用,同時也可應用于航空拍攝照相,自然災害受害人員營救等領域,具有廣闊的應用前景和較高的使用價值。

      參考文獻

      [1]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.

      [2]Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.

      [3]Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

      [4]Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. 2015.

      [5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.

      [6]Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154-171.

      [7]Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]// Advances in neural information processing systems. 2015: 91-99.

      [8]Liu W, Liao S, Ren W, et al. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5187-5196.

      [9]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

      [10]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

      [11]Zhang S, Benenson R, Schiele B. Citypersons: A diverse dataset for pedestrian detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3213-3221.

      猜你喜歡
      特征融合卷積神經(jīng)網(wǎng)絡
      基于多特征融合的圖像匹配算法
      軟件導刊(2017年7期)2017-09-05 06:27:00
      人體行為特征融合與行為識別的分析
      基于移動端的樹木葉片識別方法的研究
      科技資訊(2017年11期)2017-06-09 18:28:13
      基于SIFT特征的港口內艦船檢測方法
      融合整體與局部特征的車輛型號識別方法
      基于卷積神經(jīng)網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
      德化县| 贵南县| 彭州市| 万荣县| 甘洛县| 文山县| 明溪县| 柳林县| 鄂托克前旗| 彭泽县| 工布江达县| 九江县| 赤水市| 宿迁市| 镇安县| 呼伦贝尔市| 油尖旺区| 鄂尔多斯市| 吕梁市| 鹤岗市| 安多县| 南澳县| 金秀| 泰宁县| 唐河县| 黄冈市| 云林县| 巢湖市| 城固县| 抚州市| 司法| 天台县| 余干县| 石首市| 绥江县| 广元市| 石渠县| 孝昌县| 兖州市| 巴南区| 扶沟县|