張洋碩 苗壯 王家寶 李陽(yáng)
摘 要:Movidius神經(jīng)計(jì)算棒是基于USB模式的深度學(xué)習(xí)推理工具和獨(dú)立的人工智能加速器,為廣泛的移動(dòng)和嵌入式視覺(jué)設(shè)備提供專用深度神經(jīng)網(wǎng)絡(luò)加速功能。針對(duì)深度學(xué)習(xí)的嵌入式應(yīng)用,實(shí)現(xiàn)了一種基于Movidius神經(jīng)計(jì)算棒的近實(shí)時(shí)行人目標(biāo)檢測(cè)方法。首先,通過(guò)改進(jìn)RefineDet目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)使模型大小和計(jì)算適應(yīng)嵌入式設(shè)備的要求;然后,在行人檢測(cè)數(shù)據(jù)集上對(duì)模型進(jìn)行重訓(xùn)練,并部署于搭載Movidius神經(jīng)計(jì)算棒的樹(shù)莓派上;最后,在實(shí)際環(huán)境中對(duì)模型進(jìn)行測(cè)試,算法達(dá)到了平均每秒4幀的處理速度。實(shí)驗(yàn)結(jié)果表明,基于Movidius神經(jīng)計(jì)算棒,在計(jì)算資源緊張的樹(shù)莓派上可完成近實(shí)時(shí)的行人檢測(cè)任務(wù)。
關(guān)鍵詞:行人檢測(cè);深度學(xué)習(xí);樹(shù)莓派;Movidius;嵌入式設(shè)備
中圖分類號(hào):?TP183; TP391.4
文獻(xiàn)標(biāo)志碼:A
Pedestrian detection method based on Movidius neural computing stick
ZHANG Yangshuo*, MIAO Zhuang, WANG Jiabao, LI Yang
College of Command and Control Engineering, Army Engineering University, Nanjing Jiangsu 210007, China
Abstract:?Movidius neural computing stick is a USB-based deep learning inference tool and a stand-alone artificial intelligence accelerator that provides dedicated deep neural network acceleration for a wide range of mobile and embedded vision devices. For the embedded application of deep learning, a near real-time pedestrian target detection method based on Movidius neural computing stick was realized. Firstly, the model size and calculation were adapted to the requirements of the embedded device by improving the RefineDet target detection network structure. Then, the model was retrained on the pedestrian detection dataset and deployed on the Raspberry Pi equipped with Movidius neural computing stick. Finally, the model was tested in the actual environment, and the algorithm achieved an average processing speed of 4 frames per second. Experimental results show that based on Movidius neural computing stick, the near real-time pedestrian detection task can be completed on the Raspberry Pi with limited computing resources.
Key words:?pedestrian detection; deep learning; Raspberry Pi; Movidius; embedded device
0 引言
行人檢測(cè)是目標(biāo)檢測(cè)的重要分支,可用于多種不同領(lǐng)域,如視頻監(jiān)控、人員識(shí)別和智能汽車駕駛系統(tǒng)。在現(xiàn)實(shí)生活中,由于視頻或圖像中行人姿態(tài)、物體遮擋、服裝、燈光變化和復(fù)雜背景的多樣性,行人檢測(cè)在計(jì)算機(jī)視覺(jué)中仍是一個(gè)具有挑戰(zhàn)性的任務(wù)。近年來(lái),深度學(xué)習(xí)極大地推動(dòng)了行人檢測(cè)技術(shù)的發(fā)展,在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了廣泛的關(guān)注;但是,深度學(xué)習(xí)中的行人檢測(cè)模型在面向?qū)嶋H應(yīng)用時(shí)還存在著諸多問(wèn)題亟待解決。
行人檢測(cè)根據(jù)處理過(guò)程一般可以分解為生成候選窗口、特征提取和特征分類三個(gè)步驟。經(jīng)典的行人檢測(cè)方法通常使用基于滑動(dòng)窗口的方法生成候選窗口,使用梯度方向直方圖(Histogram of Oriented Gradients, HOG)[1]或尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)[2]作為特征,并使用支持向量機(jī)(Support Vector Machine, SVM)或自適應(yīng)集成分類器(AdaBoost)作為特征分類方法;但這些方法大多基于手工特征,刻畫(huà)的是低層次信息,缺乏對(duì)行人高層次語(yǔ)義信息的描述。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于行人檢測(cè)任務(wù)。與傳統(tǒng)方法不同的是,深度學(xué)習(xí)通過(guò)深層卷積網(wǎng)絡(luò)操作抽取圖像的高級(jí)語(yǔ)義信息來(lái)描述行人,具有更好的描述能力。與此同時(shí),伴隨計(jì)算機(jī)硬件性能的不斷提高,行人檢測(cè)算法也在不斷優(yōu)化。郭愛(ài)心等[3]在更快、更富有特征層次的卷積神經(jīng)網(wǎng)絡(luò)(Faster Regions with Convolutional Neural Network feature, Faster R-CNN)通用目標(biāo)檢測(cè)框架[4]的基礎(chǔ)上,針對(duì)行人特點(diǎn)提出了行人區(qū)域建議網(wǎng)絡(luò);針對(duì)小尺度行人特征信息不足,提出了多層次特征提取和融合的方法;陳光喜等[5]通過(guò)設(shè)計(jì)一個(gè)網(wǎng)絡(luò)與統(tǒng)一的實(shí)時(shí)監(jiān)測(cè)目標(biāo)檢測(cè)YOLOv2(You Only look Once)網(wǎng)絡(luò)[6]級(jí)聯(lián),解決了復(fù)雜環(huán)境下行人檢測(cè)不能同時(shí)滿足高召回率與高效率檢測(cè)的問(wèn)題;徐超等[7]提出一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法,使卷積神經(jīng)網(wǎng)絡(luò)能選擇出更優(yōu)模型并獲得定位更準(zhǔn)確的檢測(cè)框;Hosang等[8]使用SquaresChnFtrs方法生成行人候選窗口并訓(xùn)練AlexNet[9]進(jìn)行行人檢測(cè);Zhang等[10]使用區(qū)域提議網(wǎng)絡(luò)(Region Proposal Network, RPN)[4]來(lái)計(jì)算行人候選區(qū)域和級(jí)聯(lián)Boosted Forest[11]以執(zhí)行樣本重新加權(quán)來(lái)對(duì)候選區(qū)域進(jìn)行分類;Li等[12]訓(xùn)練多個(gè)基于Fast R-CNN[13]的網(wǎng)絡(luò)來(lái)檢測(cè)不同尺度的行人,并結(jié)合所有網(wǎng)絡(luò)的結(jié)果以產(chǎn)生最終結(jié)果。雖然上述工作對(duì)行人檢測(cè)進(jìn)行很多探索,但是在面對(duì)實(shí)際應(yīng)用時(shí),卷積網(wǎng)絡(luò)模型還存在著模型大小、計(jì)算耗時(shí)等方面的問(wèn)題。
本文將行人檢測(cè)算法放在搭載Movidius神經(jīng)計(jì)算棒(Neural Computational Stick, NCS) 的樹(shù)莓派上,來(lái)實(shí)現(xiàn)行人的快速檢測(cè)。樹(shù)莓派是一種計(jì)算資源緊張的設(shè)備,因此本文采用深度可分卷積對(duì)高精度的RefineDet網(wǎng)絡(luò)[14]進(jìn)行改進(jìn),構(gòu)建輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在選定的嵌入式視覺(jué)設(shè)備(Raspberry PI 3板)上的平均處理速度達(dá)到4幀/s(Frames Per Second, FPS)??紤]到有限的計(jì)算能力,它符合設(shè)計(jì)目標(biāo)。因此,實(shí)時(shí)行人檢測(cè)任務(wù)可以通過(guò)僅執(zhí)行4FPS的檢測(cè)算法來(lái)完成。
本文的主要工作如下:
1)針對(duì)移動(dòng)和嵌入式視覺(jué)設(shè)備的智能監(jiān)控,對(duì)RefineDet檢測(cè)網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)建一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò);
2)使用該網(wǎng)絡(luò)在資源受限的搭載Movidius神經(jīng)計(jì)算棒的樹(shù)莓派3上運(yùn)行,以實(shí)現(xiàn)嵌入式設(shè)備的實(shí)時(shí)行人檢測(cè)。
1 改進(jìn)的行人檢測(cè)網(wǎng)絡(luò)
1.1 行人檢測(cè)網(wǎng)絡(luò)框架
為了提高嵌入式視覺(jué)設(shè)備上運(yùn)行目標(biāo)檢測(cè)模型的效率,本文基于高精度的RefineDet,引入高效的深度可分卷積操作,采用類似MobileNet[15]結(jié)構(gòu)來(lái)構(gòu)建骨干網(wǎng)絡(luò),改進(jìn)后的L-RefineDet網(wǎng)絡(luò)架構(gòu)如圖1所示。
該網(wǎng)絡(luò)架構(gòu)主要包含三個(gè)部分:錨框細(xì)化模塊、傳遞連接模塊和目標(biāo)檢測(cè)模塊。錨框細(xì)化模塊主要用來(lái)得到粗粒度的邊界框信息和去除一些負(fù)樣本,只對(duì)物體進(jìn)行初步的分類和回歸,且分類只區(qū)分前景和背景;傳遞連接模塊是用于特征轉(zhuǎn)換操作。對(duì)高層次的特征進(jìn)行反卷積操作,使得特征圖之間的尺寸匹配,然后與低層次的特征相加,使錨框細(xì)化模塊特征轉(zhuǎn)化為目標(biāo)檢測(cè)模塊特征。目標(biāo)檢測(cè)模塊用于將輸入的多層特征進(jìn)行進(jìn)一步的回歸和預(yù)測(cè)多分類標(biāo)簽。
網(wǎng)絡(luò)架構(gòu)采用MobileNet[15]中的conv11、conv13并在后面增加兩個(gè)卷積層Conv14_2,Conv15_2,共4個(gè)特征層作為特征抽取層,以獲得不同尺寸的特征。提取特征后進(jìn)行融合操作,首先是Conv15_2特征層經(jīng)過(guò)一個(gè)傳遞連接模塊得到對(duì)應(yīng)大小的矩形塊(P6),接著基于Conv14_2的矩形塊經(jīng)過(guò)傳遞連接模塊得到對(duì)應(yīng)大小的矩形塊(P5),此處的傳遞連接模塊相比P6增加了反卷積支路,反卷積支路的輸入來(lái)自于生成P6的中間層輸出。P4和P3的生成與P5同理。
整體來(lái)看,一個(gè)子模塊提取粗粒度的邊界框信息,另一個(gè)子模塊進(jìn)行細(xì)粒度的分類任務(wù),因此能有更高的準(zhǔn)確率,而且采用了特征融合,該算法對(duì)于小目標(biāo)物體的檢測(cè)更有效。
1.2 網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)的輸入圖像尺寸為320×320,表1描繪了每層的網(wǎng)絡(luò)結(jié)構(gòu)濾波器大小,其中Conv0至Conv13與MobileNet[15]中結(jié)構(gòu)相同。為了處理不同尺寸的物體,總共提取4層特征用作檢測(cè),即表1中名稱為Conv11、Conv13、Conv14_2、Conv15_2的特征層,尺寸分別是20×20、10×10、5×5、3×3。每個(gè)特征層與不同尺度的錨框相匹配,其中不同層次的錨框采用
單發(fā)多框目標(biāo)檢測(cè)器 (Single Shot multibox Detector, SSD)[16]三種縱橫比設(shè)計(jì)。
為了增強(qiáng)模型的魯棒性,模型訓(xùn)練時(shí)采用了隨機(jī)擴(kuò)展、裁剪和翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)策略。在匹配步驟后,大多數(shù)錨框是負(fù)面的,為了緩解正負(fù)樣本不平衡問(wèn)題,網(wǎng)絡(luò)的正負(fù)樣本界定的標(biāo)準(zhǔn)基本上和其他目標(biāo)檢測(cè)算法類似,和真實(shí)的標(biāo)注的交并比(Intersection-over-Union, IoU)超過(guò)閾值0.5的邊界框?yàn)檎龢颖?,?fù)樣本是根據(jù)邊界框的分類損失來(lái)選的,對(duì)分類損失進(jìn)行降序排列,按照正負(fù)樣本1∶ 3的比例選擇損失靠前的負(fù)樣本。
1.3 深度可分卷積
改進(jìn)網(wǎng)絡(luò)架構(gòu)中的關(guān)鍵是深度可分卷積[15],因?yàn)樗鼧O大地降低了算法的復(fù)雜度,適用于嵌入式設(shè)備的應(yīng)用。深度可分卷積[2]通過(guò)將每個(gè)常規(guī)卷積層分成兩部分:深度卷積層(depthwise convolution)和逐點(diǎn)卷積層(pointwise convolution),使計(jì)算復(fù)雜度更適合于的移動(dòng)智能設(shè)備,其體系結(jié)構(gòu)如圖2所示。
圖2比較了深度可分卷積和傳統(tǒng)卷積。傳統(tǒng)卷積輸入 F ∈ R Df×Df×M,其中Df×Df為圖像或特征圖大小和M輸入通道的個(gè)數(shù);輸出 G ∈ R Dg×Dg×M,其中Dg×Dg為輸出特征圖大小,N為輸出通道的個(gè)數(shù)。計(jì)算過(guò)程涉及到濾波器 K ∈ R Dk×Dk×M×N,其中Dk×Dk為濾波器核大小,M和N分別對(duì)應(yīng)輸入和輸出通道的個(gè)數(shù)。計(jì)算過(guò)程如式(1):
G k,l,n=∑ i, j,m? K i, j,m,n⊙ F k+i-1,l+j-1,m
(1)
式(1)的計(jì)算復(fù)雜度如式(2):
O(conv)=Dk×Dk×M×N×Df×Df
(2)
深度可分卷積由兩部分組成:一個(gè)是深度卷積層,該層由M個(gè)濾波器{ K m∈ R Dk×Dk×1,m=1,2,…,M}組成,輸入 F ∈ R Df×Df×M,對(duì)每個(gè)通道計(jì)算輸出:
G m∈ R Dg×Dg×1; m=1,2,…,M
(3)
對(duì)M個(gè)輸出在第3個(gè)維度拼接:
G ′=cat ([ G 1, G 2,…, G M])∈ R Df×Df×M
(4)
另一個(gè)是逐點(diǎn)卷積層,該層由濾波器
Y ???^
∈ R 1×1×M×N組成,輸入 G ′∈ R Df×Df×M,輸出N個(gè)通道的特征圖結(jié)果 G ???^?? ∈ R Df×Df×N,計(jì)算過(guò)程如式(5):
G ???^?? k,l,n=∑ i, j,m
K ???^?? i, j,m,n
⊙ F k+i-1,l+j-1,m
(5)
深度可分卷積的計(jì)算復(fù)雜度如式(6):
O(depth)= Dk×Dk×M×N×Df×Df+N×M×Df×Df
(6)
深度可分卷積在每個(gè)卷積步驟之后,均接有一個(gè)批量標(biāo)準(zhǔn)化層和一個(gè)非線性激活的ReLU層。
基于式(2)和式(6),深度可分卷積和傳統(tǒng)卷積計(jì)算復(fù)雜度比較如式(7):
O(conv) O(depth) = 1 N + 1 D2k
(7)
深度可分卷積使網(wǎng)絡(luò)變得更快、更高效,非常適合移動(dòng)和嵌入式視覺(jué)設(shè)備。
2 基于神經(jīng)計(jì)算棒的行人檢測(cè)
2.1 實(shí)驗(yàn)裝置
2.1.1 樹(shù)莓派
上述改進(jìn)模型最終部署于嵌入式視覺(jué)設(shè)備上,本文選用樹(shù)莓派3B+開(kāi)發(fā)版,該開(kāi)發(fā)板具備ARM v7 1.2 GHz處理器和1 GB RAM,計(jì)算能力一般,但其成本低、應(yīng)用廣。
2.1.2 英特爾神經(jīng)計(jì)算棒
樹(shù)莓派計(jì)算能力有限,為了提升所提深度行人檢測(cè)模型的計(jì)算效率,采用Movidius神經(jīng)計(jì)算棒加速計(jì)算。NCS是英特爾推出的基于USB模式的加速設(shè)備,為計(jì)算能力不足的移動(dòng)和嵌入式視覺(jué)設(shè)備提供深度學(xué)習(xí)加速功能。NCS不需要連接到云端,可以直接在本地編譯、部署,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)計(jì)算加速。Movidius神經(jīng)計(jì)算棒內(nèi)置的Myriad 2 VPU提供了強(qiáng)大且高效的性能,支持在Tensorflow和Caffe框架上直接運(yùn)行神經(jīng)網(wǎng)絡(luò)。
2.2 開(kāi)發(fā)應(yīng)用流程
本文采用Caffe框架來(lái)訓(xùn)練模型,部署到搭載Movidius神經(jīng)計(jì)算棒的樹(shù)莓派上。NCS的環(huán)境分為兩部分:訓(xùn)練端和測(cè)試端。
1) 訓(xùn)練端為一臺(tái)帶GPU加速的主機(jī),訓(xùn)練Caffe模型,并編譯成NCS可以執(zhí)行的graph;
2) 測(cè)試端為一臺(tái)搭載Movidius的樹(shù)莓派開(kāi)發(fā)板,運(yùn)行編譯好的graph格式模型以檢測(cè)行人。
具體開(kāi)發(fā)應(yīng)用流程如圖3所示,主要包括三個(gè)步驟。
步驟1? 訓(xùn)練。收集行人數(shù)據(jù)集,并在帶GPU運(yùn)算能力的工作站或者服務(wù)器上進(jìn)行訓(xùn)練,得到Caffe格式的行人檢測(cè)模型。
步驟2? 編譯。NCS的VPU無(wú)法直接運(yùn)行步驟1中訓(xùn)練的Caffe模型,需要將模型轉(zhuǎn)化為VPU支持的專用文件格式(graph)。NCS提供了專門(mén)的工具,用于編譯、優(yōu)化Caffe模型。
步驟3? 預(yù)測(cè)。在樹(shù)莓派3B+嵌入式設(shè)備上部署graph格式行人檢測(cè)模型,加載graph文件到NCS執(zhí)行行人檢測(cè)。
步驟1和2通常在運(yùn)行在訓(xùn)練端,除訓(xùn)練Caffe模型外,還安裝NCSDK編譯模塊mvNCCompile,用于將Caffe模型轉(zhuǎn)成NCS的graph;步驟3運(yùn)行在測(cè)試端,安裝inference模塊,用來(lái)支持graph的運(yùn)行。
2.3 模型訓(xùn)練
標(biāo)注完善、圖像質(zhì)量高的PASCAL VOC數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)領(lǐng)域中著名的數(shù)據(jù)集之一,包含日常生活中常見(jiàn)的20個(gè)類別,person就是其中一類。本文采用的數(shù)據(jù)集是基于PASCAL VOC 2007和PASCAL VOC 2012數(shù)據(jù)集提取只有person類別的目標(biāo)圖片制作而成的VOC_person數(shù)據(jù)集,最終一共包含8000張訓(xùn)練圖片和2600張驗(yàn)證圖片,并將數(shù)據(jù)集轉(zhuǎn)化為L(zhǎng)MDB格式文件以加快讀取速度。
本文使用Caffe深度學(xué)習(xí)框架來(lái)訓(xùn)練模型。Caffe是一個(gè)高效的深度學(xué)習(xí)框架,支持命令行、Python以及Matlab程序接口。在訓(xùn)練之前,通過(guò)計(jì)算每個(gè)RGB通道的平均值來(lái)對(duì)數(shù)據(jù)進(jìn)行歸一化。所提出的模型采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)進(jìn)行訓(xùn)練,動(dòng)量為0.9,衰減因子為00005。初始學(xué)習(xí)率為0.005,并使用multistep學(xué)習(xí)率衰減策略。在顯存為11GB的NVIDIA GTX1080Ti上訓(xùn)練,整個(gè)訓(xùn)練過(guò)程為200000次迭代。最終訓(xùn)練出的權(quán)重文件大小可由302.6MB減小為62.6MB。
2.4 模型測(cè)試
將訓(xùn)練好的caffemodel權(quán)重文件通過(guò)mvNCCompile模塊編譯成NCS 可執(zhí)行的graph,在測(cè)試端上進(jìn)行測(cè)試。將graph加載到NCSDK中,推斷得到目標(biāo)位置、類別、分?jǐn)?shù)。
3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)使用的檢測(cè)性能評(píng)價(jià)指標(biāo)是平均每幅圖像誤檢率(False Positive Per Image, FPPI)[17],計(jì)算公式如下:
FPPI=FP/Nimg
(8)
其中: FPPI表示誤檢總數(shù);Nimg表示測(cè)試圖片總數(shù)。
表2顯示了本文算法L-RefineDet與其他行人檢測(cè)方法測(cè)試結(jié)果比較。其中包括不同算法在VOCperson數(shù)據(jù)集上的測(cè)試對(duì)比;不同算法在搭載Movidius的樹(shù)莓派上平均處理速度比較。
表2是本文算法L-RefineDet與其他行人檢測(cè)方法的測(cè)試結(jié)果。從實(shí)驗(yàn)數(shù)據(jù)可以看出,本文算法L-RefineDet在VOCperson數(shù)據(jù)集上的FPPI為0.27,在搭載Movidius的樹(shù)莓派上平均處理速度達(dá)到4FPS,與其他行人檢測(cè)方法相比具有更高的精度和更快的速度。
表3是本文算法L-RefineDet與其他檢測(cè)模型大小的比較。與不采用深度可分卷積的RefineDet方法相比,本文算法L-RefineDet的模型更小,表明深度可分卷積能夠極大地降低算法的復(fù)雜度。
圖4為使用MobileNet-SSD檢測(cè)實(shí)時(shí)場(chǎng)景中行人的效果,圖5為改進(jìn)的輕量級(jí)網(wǎng)絡(luò)在搭載Movidius神經(jīng)計(jì)算棒的樹(shù)莓派上處理實(shí)時(shí)場(chǎng)景中行人的效果,其中包括不同距離和角度的行人檢測(cè)、遮擋的行人檢測(cè)。
由圖4、5可以看出,從不同角度和距離捕捉人體對(duì)象對(duì)檢測(cè)算法具有很大挑戰(zhàn),當(dāng)角度和距離不同時(shí),不僅特征有所不同,而且有時(shí)人體只是部分可見(jiàn)或以不同的姿勢(shì)出現(xiàn)。MobileNet-SSD會(huì)對(duì)一些特殊角度的行人和小目標(biāo)行人出現(xiàn)漏檢,同時(shí)對(duì)重疊行人出現(xiàn)漏報(bào),L-RefineDet對(duì)行人檢測(cè)具有更好的魯棒性。 例如圖5(a)、(b)中,表明網(wǎng)絡(luò)對(duì)于小目標(biāo)行人和不同角度的行人也有很好的檢測(cè)效果。圖5(c)中,表明網(wǎng)絡(luò)能夠區(qū)分重疊的行人。圖5(d)中,表明網(wǎng)絡(luò)能夠檢測(cè)出球門(mén)遮擋的行人。
4 結(jié)語(yǔ)
本文在嵌入式視覺(jué)設(shè)備下進(jìn)行行人檢測(cè)的背景下,改進(jìn)了一種輕量級(jí)的人體目標(biāo)檢測(cè)算法,并在搭載Movidius神經(jīng)計(jì)算棒的樹(shù)莓派上運(yùn)行。實(shí)驗(yàn)結(jié)果表明該算法已經(jīng)達(dá)到了設(shè)計(jì)目標(biāo),取得了令人滿意的檢測(cè)速度和高準(zhǔn)確度。但是單根NCS一次只能運(yùn)行一個(gè)模型,可以考慮用多根NCS、多線程做檢測(cè),以達(dá)到更高的速度。
參考文獻(xiàn)
[1]?TRIGGS B, DALAL N. Histograms of oriented gradients for human detection [C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 886-893.
[2]?LOWE D G. Object recognition from local scale-invariant features [C]// Proceedings of the 7th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157.
[3]?郭愛(ài)心,殷保群,李運(yùn).基于深度卷積神經(jīng)網(wǎng)絡(luò)的小尺度行人檢測(cè)[J].信息技術(shù)與網(wǎng)絡(luò)安全,2018,37(7):50-53, 57. (GUO A X, YIN B Q, LI Y. Small-size pedestrian detection via deep convolutional neural network [J]. Information Technology and Network Security, 2018, 37(7): 50-53, 57.)
[4]?REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[5]?陳光喜,王佳鑫,黃勇,等.基于級(jí)聯(lián)網(wǎng)絡(luò)的行人檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2019,39(1):186-191. (CHEN G X, WANG J X, HUANG Y, et al. Pedestrian detection method based on cascade networks [J]. Journal of Computer Applications, 2019, 39(1): 186-191.)
[6]?REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.
[7]?徐超,閆勝業(yè).改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2017,37(6):1708-1715. (XU C, YAN S Y. Improved pedestrian detection method based on convolutional neural network [J]. Journal of Computer Applications, 2017,37(6): 1708-1715.)
[8]?BENENSON R, OMRAN M, HOSANG J, et al. Ten years of pedestrian detection, what have we learned? [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8926. Berlin: Springer, 2014: 613-627.
[9]?KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc, 2012: 1097-1105.
[10]?ZHANG L, LIN L, LIANG X, et al. Is Faster R-CNN doing well for pedestrian detection? [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Cham: Springer, 2016: 443-457.
[11]??APPEL R, FUCHS T, DOLLR P. Quickly boosting decision? trees: pruning underachieving features early [C]// Proceedings of the 30th International Conference on Machine Learning. [S.l.]: JMLR, 2013, 28: III-594-III-602.
[12]?LI J, LIANG X, SHEN S, et al. Scale-aware Fast R-CNN for pedestrian detection [J]. IEEE Transactions on Multimedia, 2018, 20(4): 985-996.
[13]?GIRSHICK. R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1440-1448.
[14]?ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 4203-4212.
[15]?HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [J]. arXiv E-print, 2017: arXiv:1704.04861.?[2018-09-10]. https://arxiv.org/pdf/1704.04861.pdf.
[16]?LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[17]??WOJEK C, DOLLAR P, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.