• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聯(lián)合語義的深度學習行人檢測①

      2018-06-14 08:49:08劉秉瀚
      計算機系統(tǒng)應用 2018年6期
      關(guān)鍵詞:行人語義卷積

      鄧 煒,劉秉瀚

      (福州大學 數(shù)學與計算機科學學院,福州 350108)

      1 引言

      行人檢測按照視頻視角可以分為直立行人檢測和俯視行人檢測.行人檢測常被用于基于目標檢測的人數(shù)統(tǒng)計、行人行為分析和視頻語義理解等,在公共安防、自動駕駛、人群引流、場所規(guī)劃等領域具有重要意義.行人檢測的一般方法有兩步:第一步提取行人特征,第二步根據(jù)特征進行行人定位和判別.2005年Dalal[1]提出用方向梯度直方圖特征(Histogram of Oriented Gradient,HOG)和支持向量機(Support Vector Machine,SVM)分類器檢測直立行人[2],效果遠超之前的方法,再次掀起了行人檢測的研究熱潮.然而多數(shù)行人檢測的方法依然利用圖像紋理特征、像素統(tǒng)計特征或人的形態(tài)特征等底層特征[3,4].

      近年來,深度學習方法在目標檢測方面取得了很大成功,深度學習可以組合行人的底層特征,得到更抽象的高層特征表示,檢測更具魯棒性.其中基于區(qū)域卷積神經(jīng)網(wǎng)絡(Region-Based Convolutional Neural Network,RCNN)的目標檢測具有更好的表現(xiàn)和更快的處理速度[5-9].基于深度學習的直立行人檢測研究較多,如文獻[10-13].而通過深度學習檢測俯視行人的研究則很少.VuT[14]通過對象之間的上下文關(guān)系,在基于本地模型區(qū)域卷積神經(jīng)網(wǎng)絡的基礎上,提出一個全局的卷積神經(jīng)網(wǎng)絡模型來檢測人頭的位置,并用一種對象成對模型來聯(lián)合訓練,在人數(shù)不多的生活場景中表現(xiàn)較好,但模型復雜,處理速度較慢.Stewart[15]等人將圖像解碼成一組人物模型,并直接輸出一組檢測假設,改進了行人目標在擁擠場景下的檢測效果,但是如果序列中第一個目標有遮擋模糊等情況,可能會影響后續(xù)目標的檢測.

      基于深度學習的行人檢測效果還有待于提升,這是因為行人檢測面臨的情況復雜多樣:(1)在擁擠人群等復雜環(huán)境中很難準確分離行人個體;(2)行人目標姿態(tài)各異、可大可小、或遠或近;(3)行人穿戴的服飾或攜帶的東西對行人目標的干擾.這些問題都可能導致行人目標的誤檢或漏檢.

      視頻中行人的語義屬性指與行人語義上關(guān)聯(lián)的行人附屬屬性[16],例如行人的帽子、包等.在行人檢測的應用場景中,人不是人們感興趣的唯一目標,人的語義屬性同樣具有意義.隨著計算機視覺研究的深入,圖像中目標語義關(guān)系的挖掘、視覺關(guān)系的提取也越來越受關(guān)注[17].行人語義屬性也是影響行人檢測的因素之一.因此,針對上述行人檢測所存在的問題,本文提出融合行人語義的深度學習俯視行人檢測,同時檢測行人和行人的語義屬性,利用行人的語義屬性來輔助檢測行人,抑制行人語義屬性對行人的干擾,增加檢測精度.

      2 深度學習

      深度學習簡而言之就是多層神經(jīng)網(wǎng)絡,典型的深度網(wǎng)絡有卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡、深度置信網(wǎng)絡和生成對抗網(wǎng)絡等.

      Faster RCNN[7]是一種基于卷積神經(jīng)網(wǎng)絡的目標檢測模型,它拋棄了基于區(qū)域提名的卷積神經(jīng)網(wǎng)絡一貫的選擇性搜索(selective search)[5,6],首次提出了區(qū)域提議網(wǎng)絡(Region Proposal Network,RPN),使得區(qū)域提名、分類、回歸一起共享卷積特征,網(wǎng)絡速度加快.Faster RCNN實質(zhì)上是RPN和Fast RCNN[6]的結(jié)合,RPN和Fast RCNN共享卷積層,先由RPN提取候選區(qū)域,再把候選區(qū)域送到Fast RCNN中進行目標識別.它主要有四個步驟.第一步是特征提?。狠斎胝麖垐D片,通過卷積神經(jīng)網(wǎng)絡提取特征圖;第二步是區(qū)域提名:在第一步得到的特征圖上進行區(qū)域提名;第三步是分類與回歸:對每個提名的區(qū)域進行目標或非目標的二分類,用回歸模型微調(diào)候選框位置和大小;第四步是目標識別:選取得分高的候選區(qū)域進行目標識別.

      Faster RCNN需要對大量候選區(qū)域先判斷是否是目標,然后再進行目標識別,分成了兩步,這點不如不需要區(qū)域提名的端到端檢測方法如YOLO[8]和SSD[9].但是YOLO使用S×S的分割策略,如果兩個目標落入同一個格子也只能識別出一個目標,而SSD中定義的Default Box的形狀以及網(wǎng)格大小是事先固定的,對特定的小目標提取不夠好,Faster RCNN則更加靈活,而且Faster RCNN對設備的要求不高,更具有實際使用條件.基于Faster RCNN目標檢測的優(yōu)勢本文選擇Faster RCNN模型設計俯視行人目標檢測器.

      Faster RCNN目標檢測已被證明具有很好的魯棒性,但對小目標檢測效果卻不夠理想.在大多數(shù)公共場所出入口的近垂直視角的監(jiān)控視頻中,行人的尺度變化較小,但場景中會存在很多小尺度的物件.本文改進了Faster RCNN目標檢測器對小目標的辨別力,并針對行人穿戴的服飾或攜帶的東西的干擾,引入行人的語義屬性,把行人的語義屬性和行人聯(lián)合訓練,通過目標檢測器分類再聚合,之后進行行人的辨識.本文所提出的魯棒行人檢測方法可分為兩個步驟:(1) 行人與行人語義屬性目標檢測(檢測出候選行人目標及若干個行人語義屬性);(2) 行人與語義屬性聚合(基于空間信息建立行人與其語義屬性的聯(lián)系,合并行人與其語義屬性,對候選行人目標自適應的獎勵得分,融合檢測框).

      3 基于聯(lián)合語義的行人檢測

      3.1 基于Faster RCNN的目標檢測

      在基于深度學習的行人檢測中,常把行人身體的顯著特征作為感興趣檢測目標.俯視的行人檢測的場景多為近似垂直視角監(jiān)控視頻,行人的頭部和肩部是最顯著特征.本文以行人的頭部和肩部作為候選行人檢測目標,而把帽子、提包和背包等易造成混淆的行人語義屬性,作為輔助檢測目標.

      在Faster RCNN中,圖片在輸入網(wǎng)絡后,依次經(jīng)過若干卷積層和池化層的特征提取后,得到一個高維的特征圖.然后把這個特征圖送到RPN網(wǎng)絡中,進行候選區(qū)域提名.RPN網(wǎng)絡使用滑動窗口策略.輸入到RPN的特征圖,被劃分成n×n個矩形窗口(滑動窗口),把每個矩形窗口的中心點當成一個基準點,圍繞這個基準點選取k個不同尺度、不同長寬比的矩形框(Anchor)的對應區(qū)域作為候選區(qū)域(如圖1中的虛線矩形框).文獻[7]取n=3,并定義3種基準尺度框:128×128、256×256、512×512,對每種基準尺度框進行 3 種長寬比率變倍 (1:1、1:2、2:1),這樣就得到有9個Anchor(k=9).然后把候選區(qū)域送到兩個全連接層:分類層和窗口回歸層,進行目標或非目標的判別和矩形窗口位置的微調(diào).最后選取得分最高的前300個候選區(qū)域到后續(xù)的ROI Pooling層和全連接層中進行目標分類.由于在高維的特征層,有效感受野很大,文獻[7]中的Anchor可以感知一個很大范圍的目標.但是小尺度的目標在這個特征層上的特征不明顯,易導致漏檢.

      本文基于Faster RCNN的目標檢測模型(如圖1),結(jié)合本文行人檢測的特點:近似垂直視角、多小尺度目標、行人語義屬性聯(lián)合訓練和特定的行人數(shù)據(jù)集,對Faster RCNN做了適當調(diào)整.在行人數(shù)據(jù)集中,行人及其與語義屬性的大小大部分集中在60×60到300×300像素之間,為了在不同尺度上檢測行人,本文使用 64×64、128×128 和 256×256 作為 Anchor的基準尺度框,以此增加對小目標的魯棒.

      在得到輸入RPN的特征圖前,有若干個卷積層和池化層,這里可以使用預訓練的圖像分類網(wǎng)絡,比如在ImageNet數(shù)據(jù)集上訓練好的VGG-16[18]和ZF-net[19],來初始化網(wǎng)絡的參數(shù)(權(quán)重和偏移值).VGG-16是一個很深的網(wǎng)絡,有13個卷積層和3個全連接層,速度慢,精度較高.而行人檢測對實時性的要求高,所以本文選擇了ZF-net作為預訓練的模型,ZF-net只有5個卷積層和3個全連接層,速度快,深度雖不如VGG-16,但本文用行人的語義屬性輔助檢測,彌補了精度的差距.此外,較淺的ZF-net的特征層維度比VGG-16低,因此小目標的特征在ZF-net中會更明顯.

      行人檢測的場景多為監(jiān)控攝像頭捕捉的視頻圖像,因此通常距離行人較遠,不存在很大的目標,因此本文改進了Faster RCNN對小目標的辨別力,雖然大目標的檢測會受到影響,但在實際應用中,多為中小目標,所以影響非常小.

      本文根據(jù)行人數(shù)據(jù)集的規(guī)模和大量實驗的訓練效果,調(diào)整了網(wǎng)絡的學習率、迭代次數(shù)和批次大小等.使得網(wǎng)絡模型有效擬合了行人數(shù)據(jù),并避免了用小樣本的俯視行人數(shù)據(jù)集訓練時出現(xiàn)過擬合.

      目標檢測器最終輸出候選的行人目標框p和語義屬性目標框a.p和a都帶有一個目標得分score.本文在全連接層先對候選目標做一次粗篩選,把大量的的低分無意義目標去除,以便于加速后續(xù)的處理.閾值μ1的設置要保證語義屬性a高置信低誤檢以輔助候選行人p的判斷.μ2的設置要保證高敏感以避免漏檢行人p.

      3.2 行人與語義屬性聚合

      檢出候選目標之后,需進行目標聚合.融合行人及其語義屬性,先要建立行人候選目標與其語義屬性的聯(lián)系.實際場景中的行人及其語義屬性最顯而易見的聯(lián)系體現(xiàn)在空間距離,且語義屬性與行人屬于單一的從屬關(guān)系,所以本文直接用距離貪心的策略建立行人和語義屬性的聯(lián)系:計算語義屬性與行人的重疊率,重疊率大于0視為有聯(lián)系,如果語義屬性與多個行人都有聯(lián)系,則計算該語義屬性中心點到各行人中心點的距離,將其劃歸于最近的行人.為體現(xiàn)語義屬性屬于行人的概率大小,本文重疊率定義為重疊區(qū)域的面積除以語義屬性目標框面積.

      設:候選目標框左上角和右下角坐標為:(x1,y1,x2,y2),每個候選目標框?qū)粋€檢測得分為score.一幀圖像中檢測出行人候選框集合為:P={p1,p2,…,pn},行人語義屬性框集合為:A={a1,a2,…,am}.則按式(1)和(2)求重疊率為o與距離d:

      其中

      由于附屬物只會出現(xiàn)在行人的附近,所以當檢測到語義屬性時,語義屬性附近有行人的概率加大.基于此,本文對聚合了a的行人候選框p進行自適應加分獎勵,獎勵原則為:與a距離近、a的檢測分值高,則獎勵力度大,見式(3).由于sigmoid函數(shù)具有平滑漸進、在零點附近的導數(shù)高值性的特點,本文選擇sigmoid函數(shù)歸一化,并按式(4)進行自適應加分.

      其中,β、τ為sigmoid范圍調(diào)整參數(shù),α為最高加分閾值參數(shù).

      本文行人與語義屬性聚合的具體步驟如下:

      合并后的結(jié)果(聯(lián)合語義的行人集)如圖2.經(jīng)過融合和得分獎勵之后,圖像中檢出目標為:聯(lián)合語義的行人、行人和未與行人合并而獨自存在的語義屬性.本文不去除孤立的語義屬性目標框,因為語義屬性目標在行人檢測的應用場景下,可能是遺失物品,可能是危險品,可以給人提供信息,具有應用價值.

      4 實驗分析

      本文方法檢出行人目標之后,可進行幀間目標跟蹤,從而得到更精確的檢測結(jié)果.由于篇幅限制跟蹤細節(jié)無法展開,因此,實驗僅用過濾低分行人目標.

      圖2 行人與語義信息聚合

      本文用一個近似垂直視角的行人數(shù)據(jù)集來評估本文方法的性能.數(shù)據(jù)集中的圖像和視頻采集自多個不同的場景.包括750張的照片和多段視頻共20分鐘.我們從視頻中選取2000幀圖像用來訓練,剩下的用來測試.照片和視頻沒有統(tǒng)一的分辨率,但長邊小于等于1000像素.本文定義行人的語義屬性包括:帽子、手提包(袋子)、背包、箱子、行李箱、自行車、購物車和嬰兒車.表1是數(shù)據(jù)集詳細信息.

      表1 訓練數(shù)據(jù)集

      為了補充數(shù)據(jù)和平衡各類語義屬性的數(shù)目,我們挑選了部分訓練數(shù)據(jù)進行數(shù)據(jù)增廣.第一,對選取的訓練圖像按倍率0.6、1和1.2進行縮放;第二,旋轉(zhuǎn)90度;第三,鏡像翻轉(zhuǎn);第四,在圖像上加上高斯噪聲.經(jīng)過這樣處理,挑選出來的每一張圖像都能得到額外的23張圖像.

      本文在Windows7系統(tǒng)中使用GTX1050Ti4G的GPU,在Caffe框架完成實驗.

      我們通過反復實驗調(diào)整了網(wǎng)絡模型的參數(shù),使網(wǎng)絡模型擬合數(shù)據(jù),最終確定網(wǎng)絡參數(shù):學習率:0.005,優(yōu)化算法:隨機梯度下降(Stochastic Gradient Descent ,SGD),梯度更新的權(quán)重 (momentum):0.9,權(quán)重衰減(weight decay):0.0005,批次大小 (batch size):128.最終網(wǎng)絡模型的loss如圖3(a)和圖3(b).

      我們同時做了大量的測試來確定實驗中用到的3個閾值μ1、μ2和μ3的取值,如圖3(c)是1000張圖像中累計的候選目標的得分分布.μ1是語義屬性的篩選閾值,由于只對語義屬性做一次篩選,且需用語義屬性得分自適應調(diào)整行人的得分,綜合考慮了μ1取值實驗的結(jié)果,本文取μ1=0.7.μ2對行人做粗篩選,可以讓尚有爭議的候選目標通過,本文取μ2=0.5.μ3是對最終行人目標的篩選,所以μ3可以根據(jù)人數(shù)統(tǒng)計的場景和訓練數(shù)據(jù)集手動調(diào)整,本文取μ3=0.8.

      圖3 參數(shù)取值實驗

      式(4)對行人的得分進行了自適應的調(diào)整.其中,從式(3)可得 ω<1,我們?nèi)?β=10,τ=0.5得 ω趨于0時,的值趨于0,ω趨于1時的值趨于1.為了讓加分不超過p自身的得分,我們?nèi)ˇ?=μ2.

      為了展示實驗結(jié)果和評估本文的方法,我們對比了文獻[14]、文獻[15]和原始Faster RCNN[7]的方法.實驗結(jié)果的對比見圖4、圖5和表2.其中部分方法要求把圖像大小縮放到一定尺度.

      圖4 視頻場景中檢測到的行人數(shù)目對比

      圖5 其中一幀檢測到的人數(shù)對比

      本文使用常規(guī)指標來評估我們的方法:均方誤差和平均絕對誤差.均方誤差平均絕對誤差其中是第j幀圖像中的實際行人數(shù)目是檢測到的行人數(shù)目.

      表2 實驗數(shù)據(jù)表

      從表2可以看出,在俯視行人檢測中,本文方法準確率比只用Faster RCNN的方法更高,而且耗時增加很少,對比其他一些方法也有不錯的競爭力.

      此外,本文使用在表1訓練數(shù)據(jù)集中訓練的網(wǎng)絡模型,從普通場景中隨機抽取了100幀圖像進行了測試.測試結(jié)果見圖6和表3.從圖表中可以看出,在普通場景的測試效果一般,想要取得更好的結(jié)果需要在普通場景的行人數(shù)據(jù)集中訓練網(wǎng)絡模型.但是在普通場景中,使用本文聯(lián)合語義的方法比不使用聯(lián)合語義的方法精度更高,說明聯(lián)合語義的方法也具有改善其他場景行人檢測的潛力.

      表3 普通場景行人檢測實驗數(shù)據(jù)表

      5 結(jié)論與展望

      本文提出了一種有效減少誤檢和漏檢的俯視行人檢測方法.基于Faster RCNN框架進行行人目標檢測,在兼顧處理速度的情況下,可以有很好的魯棒性.我們把容易造成誤檢和漏檢的行人語義屬性作為輔助檢測目標,和行人聯(lián)合訓練,然后分別檢測,再反過來利用行人的語義屬性輔助判別行人目標,自適應地調(diào)整行人檢測得分,融合行人及其語義屬性,增加了行人目標的可靠性.實驗證明,本文的檢測方法錯誤率小,處理速度快,適合應用于商場或超市出入口等行人情況復雜、混淆目標多的監(jiān)控場景.下一步研究方向為優(yōu)化深度網(wǎng)絡速度、把語義屬性輔助與損失函數(shù)結(jié)合、目標跟蹤、滯留物檢測機制和異常徘徊檢測機制等.

      圖6 普通場景行人檢測實驗結(jié)果

      1 Dalal N,Triggs B.Histograms of oriented gradients for human detection.Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA.2005.886-893.

      2 徐淵,許曉亮,李才年,等.結(jié)合SVM分類器與HOG特征提取的行人檢測.計算機工程,2016,42(1):56-60,65.

      3 甘玲,鄒寬中,劉肖.基于PCA降維的多特征級聯(lián)的行人檢測.計算機科學,2016,43(6):308-311.[doi:10.11896/j.issn.1002-137X.2016.06.061]

      4 劉璨,孟朝暉.基于改進型LBP特征的監(jiān)控視頻行人檢測.電子設計工程,2016,24(21):48-50.[doi:10.3969/j.issn.1674-6236.2016.21.015]

      5 Girshick R,Donahue J,Darrell T,et al.Region-based convolutional networks for accurate object detection and segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):142-158.[doi:10.1109/TPAMI.2015.2437384]

      6 Girshick R.Fast R-CNN.Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV).Santiago,Chile.2015.1440-1448.

      7 Ren SQ,He K,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks.Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal,QC,Canada.2015.1137.

      8 Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection.Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.2016.779-788.

      9 Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector.Proceedings of the 14th European Conference on Computer Vision.Amsterdam,the Netherlands.2016.21-37.

      10 Hu YC,Chang H,Nian FD,et al.Dense crowd counting from still 25-6362s with convolutional neural networks.Journal of Visual Communication and Image Representation,2016,38:530-539.[doi:10.1016/j.jvcir.2016.03.021]

      11 Wang C,Zhang H,Yang L,et al.Deep people counting in extremely dense crowds.Proceedings of the 23rd ACM International Conference on Multimedia.Brisbane,Australia.2015.1299-1302.

      12 芮挺,費建超,周遊,等.基于深度卷積神經(jīng)網(wǎng)絡的行人檢測.計算機工程與應用,2016,52(13):162-166.[doi:10.3778/j.issn.1002-8331.1502-0122]

      13 左艷麗,馬志強,左憲禹.基于改進卷積神經(jīng)網(wǎng)絡的人體檢測研究.現(xiàn)代電子技術(shù),2017,40(4):12-15.

      14 Vu TH,Osokin A,Laptev I.Context-aware CNNs for person head detection.Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV).Santiago,Chile.2015.2893-2901.

      15 Stewart R,Andriluka M,Ng AY.End-to-end people detection in crowded scenes.Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA.2016.2325-2333.

      16 Zhang HW,Kyaw Z,Chang SF,et al.Visual translation embedding network for visual relation detection.Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.2017.

      17 顧廣華,韓晰瑛,陳春霞,等.圖像場景語義分類研究進展綜述.系統(tǒng)工程與電子技術(shù),2016,38(4):936-948.

      18 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale 25-6362 recognition.arXiv:1409.1556,2014.

      19 Zeiler MD,Fergus R.Visualizing and understanding convolutional networks.Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland.2014.818-833.

      猜你喜歡
      行人語義卷積
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      語言與語義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      路不為尋找者而設
      揚子江(2019年1期)2019-03-08 02:52:34
      基于傅里葉域卷積表示的目標跟蹤算法
      我是行人
      “上”與“下”語義的不對稱性及其認知闡釋
      認知范疇模糊與語義模糊
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      桂东县| 乌拉特后旗| 孝义市| 南木林县| 浦北县| 启东市| 澄城县| 登封市| 年辖:市辖区| 汽车| 临沧市| 江门市| 龙南县| 正定县| 全州县| 新郑市| 黄梅县| 屏边| 西吉县| 怀集县| 金湖县| 西乡县| 呼玛县| 绩溪县| 金堂县| 乳源| 石楼县| 琼海市| 商城县| 肥东县| 云梦县| 五大连池市| 富宁县| 卢湾区| 泸定县| 通河县| 黎平县| 秦皇岛市| 乡城县| 焉耆| 灵寿县|