黃思維,李志丹,程吉祥,劉安東
西南石油大學(xué) 電氣信息學(xué)院,成都 610500
人臉檢測(cè)是指在輸入圖像中確定所有人臉的位置、大小和位姿的過(guò)程,是人臉信息處理中一項(xiàng)關(guān)鍵技術(shù)。目前,人臉檢測(cè)技術(shù)已成為計(jì)算機(jī)視覺領(lǐng)域研究十分活躍的課題[1],并廣泛地應(yīng)用于公共安全、企業(yè)辦公、教育和人機(jī)交互等領(lǐng)域。
現(xiàn)有人臉檢測(cè)方法可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的人臉檢測(cè)方法普遍基于人工特征提取[2]或增強(qiáng)學(xué)習(xí)算法[3],這些方法依賴于人工提取的特征且需要對(duì)檢測(cè)模型的各個(gè)組件進(jìn)行單獨(dú)優(yōu)化,雖然在實(shí)時(shí)性和可移植性上都有不錯(cuò)的表現(xiàn),但其計(jì)算過(guò)程復(fù)雜、對(duì)于復(fù)雜場(chǎng)景下檢測(cè)準(zhǔn)確率仍較低的不足限制了這類方法的廣泛運(yùn)用。深度學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一并在目標(biāo)檢測(cè)、計(jì)算機(jī)視覺、自然語(yǔ)言處理等各領(lǐng)域成效卓然[4],深度學(xué)習(xí)算法通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)處理計(jì)算機(jī)視覺類任務(wù),它將特征提取、特征選擇和特征分類融合在同一模型中,從整體上進(jìn)行功能優(yōu)化,增強(qiáng)了特征的可分性,顯著提升了各類視覺任務(wù)的準(zhǔn)確率[5]。
當(dāng)前人臉檢測(cè)方法使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,這些網(wǎng)絡(luò)稱為骨干網(wǎng)絡(luò)(backbone)。為提取更為豐富的特征,研究者們?cè)O(shè)計(jì)出層次更深、結(jié)構(gòu)更復(fù)雜的骨干網(wǎng)絡(luò)。根據(jù)使用場(chǎng)景不同,可將骨干網(wǎng)絡(luò)分為兩類:其一為注重檢測(cè)準(zhǔn)確性的深度網(wǎng)絡(luò)模型,以VGG[6]和ResNet[7]等為代表,其二為注重降低模型復(fù)雜度的輕量化網(wǎng)絡(luò)模型,其典型網(wǎng)絡(luò)為MobileNets[8]和ShuffleNet[9]。采用高效的特征提取網(wǎng)絡(luò),近期人臉檢測(cè)方法的效果也在不斷提升。基于深度學(xué)習(xí)的人臉檢測(cè)方法可根據(jù)檢測(cè)階段和根據(jù)是否使用錨框(anchor box)分類。根據(jù)檢測(cè)階段可分為一階段法和二階段法。一階段法的思想是,圖片直接通過(guò)單一的前向卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生特征圖,隨后在特征圖上預(yù)測(cè)出目標(biāo)的定位,最后通過(guò)回歸算法得到目標(biāo)包圍框,該方法優(yōu)點(diǎn)為模型結(jié)構(gòu)簡(jiǎn)潔,檢測(cè)速度快,但對(duì)于復(fù)雜人群的檢測(cè)效果不夠理想,其典型算法為YOLO[10]。二階段法先使用區(qū)域候選網(wǎng)絡(luò)抽取一系列候選區(qū)域,再將這些區(qū)域送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè),該方法優(yōu)點(diǎn)是目標(biāo)定位精確度和檢測(cè)準(zhǔn)確率更高,但由于檢測(cè)分為兩部分進(jìn)行,其過(guò)程相對(duì)復(fù)雜,計(jì)算量更大,典型方法為R-CNN[11]。另外根據(jù)檢測(cè)網(wǎng)絡(luò)中是否使用錨框,可分為基于錨框的檢測(cè)(anchor-based)方法和無(wú)錨框的檢測(cè)(anchor-free)方法?;阱^框的方法通過(guò)在網(wǎng)絡(luò)預(yù)測(cè)階段預(yù)設(shè)錨框使檢測(cè)器可以同時(shí)預(yù)測(cè)多個(gè)檢測(cè)目標(biāo),以加強(qiáng)目標(biāo)回歸效果,典型方法有SSH[12]和RetinaFace[13]。無(wú)錨檢測(cè)方法在預(yù)測(cè)時(shí)不使用附加錨框,通過(guò)直接回歸目標(biāo)關(guān)鍵點(diǎn)來(lái)預(yù)測(cè)目標(biāo)位置,相比于基于錨框的人臉檢測(cè),無(wú)錨檢測(cè)有以下優(yōu)點(diǎn):(1)網(wǎng)絡(luò)流程更為簡(jiǎn)潔。(2)不需要人工設(shè)置錨框大小、比例等超參數(shù)。(3)有更快的檢測(cè)速度。(4)對(duì)小目標(biāo)的檢測(cè)效果好。無(wú)錨檢測(cè)典型方法有CornerNet[14]以及ExtremeNet[15]等。
目前基于深度學(xué)習(xí)的人臉檢測(cè)方法如SSH和Retina-Face等大多使用深層骨干網(wǎng)絡(luò)且采用設(shè)置錨框的檢測(cè)方法,其參數(shù)量大,計(jì)算和訓(xùn)練過(guò)程耗時(shí)長(zhǎng),不能滿足實(shí)時(shí)檢測(cè)要求。另外,對(duì)于現(xiàn)有的人臉檢測(cè)方法如MTCNN[16],該方法使用三個(gè)不同的卷積網(wǎng)絡(luò)分別處理不同大小尺寸的圖像,雖然做到了模型輕量化,但其檢測(cè)過(guò)程不夠簡(jiǎn)潔。針對(duì)上述問題,本文提出一種使用輕量化卷積網(wǎng)絡(luò)并改進(jìn)特征融合的無(wú)錨人臉檢測(cè)方法。該方法是一種端到端的人臉檢測(cè)網(wǎng)絡(luò),首先采用了輕量化卷積網(wǎng)絡(luò)作為特征提取的骨干網(wǎng)路;然后使用本文提出的特征處理方式進(jìn)行特征融合,其過(guò)程如下:對(duì)于提取出的特征層,首先經(jīng)過(guò)大小不同的空洞卷積處理以增強(qiáng)感受野,然后對(duì)每層特征附加權(quán)重使特征圖自適應(yīng)地融合,接著使用通道混洗模塊對(duì)融合后的特征層進(jìn)行混洗操作以增強(qiáng)不同特征圖間的信息交互并減少一定計(jì)算量;最后使用中心點(diǎn)定位的無(wú)錨檢測(cè)方法對(duì)融合的特征進(jìn)行計(jì)算和預(yù)測(cè),從而確定圖片中人臉位置。實(shí)驗(yàn)結(jié)果表明,本文方法在保證模型輕量化的同時(shí)兼顧了檢測(cè)準(zhǔn)確率。與現(xiàn)有人臉檢測(cè)方法比較,本文方法在檢測(cè)準(zhǔn)確率和檢測(cè)效果上都有較好表現(xiàn),驗(yàn)證了本文方法的有效性。
輕量化卷積網(wǎng)絡(luò)通過(guò)設(shè)計(jì)更高效的網(wǎng)絡(luò)計(jì)算方式,減少網(wǎng)絡(luò)的參數(shù)量和計(jì)算量,使網(wǎng)絡(luò)在不損失性能的前提下改善網(wǎng)絡(luò)運(yùn)行效率。典型的輕量化卷積網(wǎng)絡(luò)為MobileNets,其主要使用深度可分離卷積[17]和逆殘差線性瓶頸層構(gòu)建網(wǎng)絡(luò)模型。
1.1.1 深度可分離卷積
MobileNets將深度可分離卷積模塊應(yīng)用到卷積網(wǎng)絡(luò)模型中,有效地降低了網(wǎng)絡(luò)參數(shù)量與計(jì)算量。圖1給出了普通卷積和深度可分離卷積過(guò)程的比較。
圖1 普通卷積和深度可分離卷積Fig.1 Normal convolution and depthwise separable convolution
圖中,N表示卷積核個(gè)數(shù),M表示卷積核通道數(shù),D×D表示卷積核大小。普通卷積使用N個(gè)卷積核逐步對(duì)圖片進(jìn)行卷積計(jì)算。深度可分離卷積將普通卷積分為深度卷積和逐點(diǎn)卷積兩個(gè)過(guò)程,其先使用M個(gè)通道數(shù)為1、大小為D×D的卷積核進(jìn)行深度卷積(depthwise convolution),然后使用N個(gè)通道數(shù)為M,大小為1×1的卷積核進(jìn)行逐點(diǎn)卷積(pointwise convolution)。假設(shè)輸入為D F×D F×M的特征圖,普通卷積核為D×D×N,采用Same Padding,將得到輸出D F×D F×N的特征圖,其計(jì)算量為D F×D F×D×D×N×N,卷積核參數(shù)量為D×D×N。當(dāng)使用深度可分離卷積時(shí),計(jì)算量為D F×D F×D×D×M+D F×D F×N×N,卷積核參數(shù)為D×D×M+M×N。分離后的計(jì)算量與普通卷積計(jì)算量占比為卷積神經(jīng)網(wǎng)絡(luò)在特征提取過(guò)程中通道數(shù)往往呈增大趨勢(shì),并且卷積核一般都大于1×1,由此可知深度可分離卷積對(duì)比普通卷積在計(jì)算量和參數(shù)量的占比都遠(yuǎn)小于1,因此網(wǎng)絡(luò)的計(jì)算速度得以加快。
1.1.2 逆殘差線性瓶頸層
逆殘差線性瓶頸層模塊是mobilenetV3網(wǎng)絡(luò)中常用的卷積模塊,如圖2所示。該模塊包含普通卷積、維度擴(kuò)充卷積、深度可分離卷積、殘差結(jié)構(gòu)以及SE輕量注意力模塊[18](squeeze and excitation module)。逆殘差線性瓶頸層模塊使用多種卷積層處理圖片特征,其計(jì)算量和參數(shù)量遠(yuǎn)低于普通卷積,是一種緊湊而高效的卷積計(jì)算方式。另外,該模塊使用的殘差結(jié)構(gòu)和輕量注意力模型SE模塊讓深層網(wǎng)絡(luò)梯度更容易傳遞的同時(shí)增強(qiáng)了特征的表示能力。
圖2 逆殘差線性瓶頸層模塊Fig.2 Inverted residual and linear bottleneck
特征金字塔網(wǎng)絡(luò)[19](feature pyramid networks,F(xiàn)PN)主要用于解決檢測(cè)問題中目標(biāo)多尺度的問題。與圖像金字塔相比,特征金字塔網(wǎng)絡(luò)運(yùn)算量更少并且精度更高。圖像金字塔和特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 圖像金字塔和特征金字塔Fig.3 Image pyramid and feature pyramid
由卷積網(wǎng)絡(luò)特性可知,卷積神經(jīng)網(wǎng)絡(luò)在提取圖片特征過(guò)程中,其底層特征圖含有語(yǔ)義信息少,但是目標(biāo)位置準(zhǔn)確;高層特征圖語(yǔ)義信息豐富,但目標(biāo)位置粗略。特征金字塔網(wǎng)絡(luò)通過(guò)橫向連接從骨干網(wǎng)絡(luò)中取出特征圖,再經(jīng)過(guò)自上而下的下采樣將頂層特征圖與底層相融合,以同時(shí)獲得目標(biāo)豐富的語(yǔ)義信息和準(zhǔn)確的位置。最后對(duì)每一層融合后的特征圖進(jìn)行獨(dú)立輸出預(yù)測(cè),以增強(qiáng)對(duì)尺度變化的魯棒性。
為解決深層卷積網(wǎng)絡(luò)帶來(lái)的計(jì)算量大以及特征層融合不充分的問題,本文提出一種端到端的輕量化多特征融合人臉檢測(cè)方法。通過(guò)使用輕量化網(wǎng)絡(luò)和無(wú)錨檢測(cè)來(lái)提升檢測(cè)速度,使用多種特征融合處理方法提升檢測(cè)精度。本文方法特點(diǎn)包括:(1)采用輕量化骨干網(wǎng)絡(luò)作為特征提取層,引入感受野增強(qiáng)模塊、附加權(quán)重的特征融合模塊和通道混洗融合模塊處理圖片特征,以及使用中心點(diǎn)定位的無(wú)錨檢測(cè)方法對(duì)特征進(jìn)行后處理并預(yù)測(cè)人臉位置。(2)與現(xiàn)有方法對(duì)比,在保持檢測(cè)準(zhǔn)確率的前提下,顯著降低了模型參數(shù)量和計(jì)算復(fù)雜度。(3)能處理大規(guī)模人群檢測(cè),對(duì)于遮擋、多姿態(tài)及多尺度等復(fù)雜人群有較好的檢測(cè)效果?;谏鲜龇椒?gòu)建的網(wǎng)絡(luò)模型如圖4所示,整體流程分為基于輕量化骨干網(wǎng)絡(luò)的特征提取、多特征融合和使用無(wú)錨檢測(cè)的預(yù)測(cè)三部分。
圖4 檢測(cè)模型整體結(jié)構(gòu)Fig.4 Overall structure of detection model
圖片的特征提取過(guò)程依賴于模型的骨干網(wǎng)絡(luò),為使網(wǎng)絡(luò)模型輕量化的同時(shí)保證檢測(cè)性能,本文采用MobileNetV3small構(gòu)建骨干網(wǎng)絡(luò)。該網(wǎng)絡(luò)的模型結(jié)構(gòu)由平臺(tái)感知網(wǎng)絡(luò)結(jié)構(gòu)搜索(platform-aware NAS)和網(wǎng)絡(luò)自適應(yīng)方法(net adapt)搜索得到,首先使用一層步長(zhǎng)為2、卷積核大小為3×3的普通卷積對(duì)圖片進(jìn)行下采樣,然后使用11個(gè)逆殘差線性瓶頸層模塊(簡(jiǎn)寫為Bneck)對(duì)圖片進(jìn)行卷積操作,其中前三個(gè)Bneck使用卷積核大小為3×3的卷積,后8個(gè)Bneck卷積核大小為5×5,并且第1、2、4、9個(gè)Bneck使用步長(zhǎng)為2的卷積進(jìn)行下采樣,第1、4~11個(gè)Bneck中嵌入SE輕量注意力模塊。整個(gè)網(wǎng)絡(luò)由兩種不同逆殘差線性瓶頸層堆疊而成,通過(guò)使用通道擴(kuò)充卷積增加特征層通道數(shù)并使用步長(zhǎng)為2的卷積對(duì)特征層進(jìn)行下采樣操作。為簡(jiǎn)化計(jì)算過(guò)程,本文方法在所有卷積操作后均使用ReLU激活函數(shù),在骨干網(wǎng)絡(luò)最后一層使用卷積核大小為3×3、步長(zhǎng)為2的卷積對(duì)特征層作最后一次下采樣操作。
普通的特征金字塔網(wǎng)絡(luò)在融合特征時(shí)對(duì)特征層進(jìn)行上采樣和元素相加操作,這種結(jié)構(gòu)一定程度上解決了多尺度特征層融合的問題。本文方法在特征金字塔基礎(chǔ)上引入感受野增強(qiáng)模塊(receptive field enhancing module,REM)、權(quán)重特征融合模塊(weight-feature fusion module,WFM)和通道混洗模塊(channel shuffle module,CSM)進(jìn)一步增強(qiáng)特征融合,以滿足復(fù)雜場(chǎng)景下人臉檢測(cè)精度的要求。
(1)感受野增強(qiáng)模塊
輕量化網(wǎng)絡(luò)作為特征提取的骨干網(wǎng)絡(luò),其結(jié)構(gòu)簡(jiǎn)潔,但提取出的特征有限,對(duì)此引入感受野增強(qiáng)模塊對(duì)其進(jìn)行處理。對(duì)于感受野增強(qiáng)模塊的輸入I,進(jìn)行卷積核大小為3×3、5×5的空洞卷積的操作:
式中,I表示特征金字塔的各個(gè)特征層,Katrous3×3(I)、Katrous5×5(I)分別表示大小為3×3、5×5的卷積核對(duì)各特征層的卷積操作;F3×3、F5×5分別表示經(jīng)過(guò)對(duì)應(yīng)卷積操作后得到的特征圖;Kconcat,1×1表示對(duì)兩個(gè)特征層使用concat和1×1卷積操作。所有卷積操作后都使用批歸一化和ReLU激活函數(shù),并且經(jīng)過(guò)感受野增強(qiáng)模塊處理后的特征層在尺度和通道數(shù)上與原特征層保持一致。感受野增強(qiáng)模塊使用不同大小的空洞卷積對(duì)特征進(jìn)行計(jì)算,將不同尺度空洞卷積核得到的圖像特征進(jìn)行融合,有利于后續(xù)處理融合信息充分的特征圖,以增強(qiáng)檢測(cè)效果。
(2)權(quán)重特征融合模塊
為加強(qiáng)特征融合效果,使每層特征能被檢測(cè)網(wǎng)絡(luò)充分利用進(jìn)而提升檢測(cè)精度,引入附加權(quán)重的特征融合模塊。對(duì)經(jīng)過(guò)感受野增強(qiáng)模塊處理后的特征層,首先將頂層特征上采樣與底層特征融合,然后將每一層特征通過(guò)上采樣或下采樣方式分別與其他層進(jìn)行加權(quán)融合。假設(shè)原特征層表示為f i,在特征融合時(shí)每層特征做加權(quán)計(jì)算,所得特征F i可表示為:
式中,超參數(shù)αi、βi、γi為每層特征的附加權(quán)重,由網(wǎng)絡(luò)訓(xùn)練得到。原特征層的每一層特征在與其他層相融合時(shí)分別賦予不同權(quán)重,從而得到新的特征層網(wǎng)絡(luò),所得網(wǎng)絡(luò)在尺度和通道上都與原特征保持一致。以該種融合方式進(jìn)行訓(xùn)練可以讓模型自適應(yīng)選擇有利于目標(biāo)定位和回歸的特征層,從而提升檢測(cè)準(zhǔn)確率。
(3)通道混洗融合
為加快模型檢測(cè)速度,本文方法在預(yù)測(cè)階段并不使用多層檢測(cè)頭分別預(yù)測(cè),而是使用經(jīng)過(guò)通道混洗模塊處理的單一特征層作為檢測(cè)頭進(jìn)行預(yù)測(cè)。對(duì)于附加權(quán)值的特征層,首先對(duì)頂層做上采樣處理,然后與下一層進(jìn)行通道拼接,之后使用通道混洗操作和卷積操作進(jìn)行處理,其過(guò)程表示如下:
式中,fupper表示上層特征層輸入,flower表示下層特征層輸入,F(xiàn)up為采樣倍數(shù)為2的雙線性上采樣操作,F(xiàn)shuffle,1×1表示使用通道混洗和卷積核為1×1的卷積操作。經(jīng)過(guò)上述方法得到的新特征層再與下一層進(jìn)行相同操作,直到計(jì)算出最終特征層用于預(yù)測(cè)。另外,在通道混洗融合最上層加入原骨干網(wǎng)絡(luò)的特征層映射以保持原圖片特征信息。
本文采用Lin等人[20]提出的Focal Loss作為人臉檢測(cè)分類損失函數(shù)。對(duì)比交叉熵?fù)p失(cross entropy loss),F(xiàn)ocal Loss更有利于解決檢測(cè)網(wǎng)絡(luò)中樣本比例失衡以及前景和背景分類問題。Focal Loss表示為:
表1 不同α和γ對(duì)算法精度的影響Table 1 Varyingαandγfor algorithm
在回歸目標(biāo)包圍框時(shí),本文采用GIoU Loss[21]。GIoU Loss是對(duì)普通交并比損失函數(shù)的改進(jìn),其表達(dá)式如下:
其中,A為檢測(cè)器預(yù)測(cè)框,B為數(shù)據(jù)集標(biāo)注的真實(shí)框,C為包圍預(yù)測(cè)框和真實(shí)框的最小面積。IoU表示為預(yù)測(cè)框和真實(shí)框的交并比,其表達(dá)式如下:
在對(duì)包圍框回歸計(jì)算時(shí),GIoULoss不僅關(guān)注預(yù)測(cè)框和真實(shí)框的重疊面積,同時(shí)也關(guān)注兩框的非重疊區(qū)域,即C-(A∪B),因此可以使檢測(cè)器更加關(guān)注兩框之間的重合度,從而使最終得到的目標(biāo)包圍框更加趨于真實(shí)框大小。
本文算法使用的實(shí)驗(yàn)環(huán)境為Ubuntu16.04LTS操作系統(tǒng),采用深度學(xué)習(xí)框架Pytorch進(jìn)行網(wǎng)絡(luò)搭建以及模型訓(xùn)練、測(cè)試和驗(yàn)證,使用cuda10.0和cudnn7.6.2用于算法加速。本文方法采用的硬件設(shè)備為Inteli7-9700K@3.6 GHz處理器,32 GB運(yùn)行內(nèi)存,NVIDIA Geforce RTX2080Ti顯卡。
3.2.1 數(shù)據(jù)集
本文方法使用的數(shù)據(jù)集為WIDERFACE[22]人臉數(shù)據(jù)集。該數(shù)據(jù)集總計(jì)32 203張圖片,包含393 703張帶標(biāo)注的人臉,并且大多數(shù)圖片都呈現(xiàn)密集的人群環(huán)境,其標(biāo)注的人臉具有多姿態(tài)、多尺度、高遮擋等特點(diǎn)。WIDERFACE數(shù)據(jù)集以61種事件對(duì)圖片進(jìn)行分類,對(duì)每一類圖片都按不同比例分為訓(xùn)練集、測(cè)試集和驗(yàn)證集并將每個(gè)子集的檢測(cè)圖片都設(shè)置簡(jiǎn)單(Easy)、中等(Medium)和困難(Hard)三種難度。不同難度下的數(shù)據(jù)圖片中包含數(shù)人到數(shù)百人不等,且涵蓋大部分自然場(chǎng)景中的人群分布情況。
3.2.2 參數(shù)設(shè)置
在訓(xùn)練階段,訓(xùn)練集中的圖片統(tǒng)一縮放成大小尺寸為768×768的圖片,并使用隨機(jī)翻轉(zhuǎn)、色彩抖動(dòng)和光照變換等數(shù)據(jù)增強(qiáng)方法。訓(xùn)練時(shí)batch size設(shè)置為16,epoch設(shè)置為200,使用Adam優(yōu)化器并在不同階段使用不同大小的學(xué)習(xí)率。學(xué)習(xí)率設(shè)置如下:0~30 epoch的學(xué)習(xí)率設(shè)置為0.001,31~50 epoch的學(xué)習(xí)率設(shè)置為0.002,51~100 epoch的學(xué)習(xí)率設(shè)置為0.005,101~150 epoch的學(xué)習(xí)率設(shè)置為0.000 1,151~200 epoch的學(xué)習(xí)率設(shè)置為0.001。同時(shí),在訓(xùn)練時(shí)使用正態(tài)分布的隨機(jī)初始化對(duì)網(wǎng)絡(luò)中的權(quán)重進(jìn)行初始化。
本文首先對(duì)比了使用不同特征處理模塊對(duì)檢測(cè)模型檢測(cè)準(zhǔn)確率的影響;然后與其他基于深度學(xué)習(xí)的人臉檢測(cè)方法進(jìn)行比較,并通過(guò)檢測(cè)準(zhǔn)確率和精確度召回率曲線圖(precisionand recall,PR curve)給出實(shí)驗(yàn)結(jié)果。最后給出了本文方法在WIDERFACE數(shù)據(jù)集中的一些檢測(cè)效果作為示例。
3.3.1 特征處理模塊有效性分析
為驗(yàn)證所提方法的有效性,本文使用不同特征處理模塊分別進(jìn)行了多種融合實(shí)驗(yàn),所有檢測(cè)模型均在WIDERFACE訓(xùn)練集上進(jìn)行訓(xùn)練,在其驗(yàn)證集上進(jìn)行驗(yàn)證,并且訓(xùn)練時(shí)的參數(shù)設(shè)置均保持一致。驗(yàn)證時(shí),閾值大小設(shè)置為0.5,得到的檢測(cè)準(zhǔn)確率以及模型權(quán)重大小如表2所示。
表2 不同特征處理模塊檢測(cè)準(zhǔn)確率及模型大小Table 2 Detection accuracy and model weight with different feature processing modules
由表2可以看出,當(dāng)僅使用一種特征處理模塊時(shí),在Easy和Medium難度的檢測(cè)準(zhǔn)確率有略微降低,但在Hard難度下的準(zhǔn)確率有較大提升。當(dāng)使用兩種模塊組合時(shí),使用REM和WFM的模型僅在Hard難度下準(zhǔn)確率提升較多,使用REM和CSM的模型在Easy和Medium難度下有較大提升,使用WFM和CSM的模型檢測(cè)準(zhǔn)確率和基準(zhǔn)方法的準(zhǔn)確率幾乎一致,并且使用兩種模塊組合時(shí)模型權(quán)重達(dá)到了4.1 MB、4.3 MB和4.7 MB。同時(shí)使用三種模塊時(shí),檢測(cè)模型在三種難度下的檢測(cè)準(zhǔn)確率都有較大提升,在hard難度下提升最大,達(dá)到了4.8個(gè)百分點(diǎn),并且模型權(quán)重只有5.1 MB。綜上可知,本文提出的不同特征處理模塊對(duì)于提升檢測(cè)結(jié)果均是有效的,使用三種模塊的檢測(cè)模型在參數(shù)量上比使用兩種模塊的模型只多了不到1 MB,但其檢測(cè)準(zhǔn)確率具有明顯提升。
為驗(yàn)證本文方法優(yōu)勢(shì),與文獻(xiàn)方法在相同數(shù)據(jù)集下進(jìn)行比較,結(jié)果如表3所示。
從表3中可以看出,本文方法在WIDERFACE驗(yàn)證集檢測(cè)準(zhǔn)確率上均優(yōu)于Faceness、Multiscale Cascade CNN、LDCF+、Multitask Cascade CNN等方法。在對(duì)比ScaleFace和文獻(xiàn)[26]時(shí),在Easy和Medium難度上的準(zhǔn)確率有較大提升,但Hard上的準(zhǔn)確率稍顯不足。比較于SSH檢測(cè)方法時(shí),本文方法在Easy和Medium難度上準(zhǔn)確率上相差3個(gè)百分點(diǎn)左右,在Hard難度相差較大,在10個(gè)百分點(diǎn)左右。
表3 WIDERFACE驗(yàn)證集檢測(cè)準(zhǔn)確率對(duì)比Table 3 Accuracy comparison on WIDERFACE validation set %
然而,文獻(xiàn)所提方法均未使用輕量化骨干網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),其模型計(jì)算量和參數(shù)量巨大,本文所提方法使用輕量化網(wǎng)絡(luò),模型權(quán)重僅有5.1 MB,做到了檢測(cè)精度和模型大小的權(quán)衡。各方法模型權(quán)重大小如表4所示。
表4 模型權(quán)重大小Table 4 Weight of each model
從表4可以看出,本文方法在模型輕量化上具有顯著優(yōu)勢(shì)。與Multitask Cascade CNN比較,模型權(quán)重大小相差不大,但是檢測(cè)精度提升了許多。與SSH方法相比,本文方法檢測(cè)精度稍顯不足但模型權(quán)重約為SSH的十四分之一。因此,本文方法無(wú)論從檢測(cè)準(zhǔn)確率還是模型輕量化方面均有顯著優(yōu)勢(shì)。另外,WIDERFACE數(shù)據(jù)集使用PR曲線作為人臉檢測(cè)的性能評(píng)估標(biāo)準(zhǔn)。遵循其評(píng)估協(xié)議。對(duì)比方法和本文方法在驗(yàn)證集上的檢測(cè)PR曲線如圖5所示。從曲線也可看出,本文方法精確度優(yōu)于除SSH外的其他對(duì)比方法。
圖5 檢測(cè)PR曲線圖Fig.5 Detection PR curves
3.3.2 檢測(cè)效果
圖6給出了本文方法的一些檢測(cè)效果圖例,檢測(cè)到的人臉均用矩形框標(biāo)注。從檢測(cè)效果可以看出,本文方法可以有效地檢測(cè)出復(fù)雜場(chǎng)景的人群,且能很好地解決大規(guī)模人群中多姿態(tài)、多尺度和高遮擋下的人臉檢測(cè)的難題。
圖6 檢測(cè)效果圖Fig.6 Detection results
針對(duì)基于深度學(xué)習(xí)的人臉檢測(cè)算法使用深層神經(jīng)網(wǎng)絡(luò)帶來(lái)的計(jì)算復(fù)雜、參數(shù)量大以及復(fù)雜場(chǎng)景中檢測(cè)準(zhǔn)確率低的問題,本文提出一種基于多特征融合的輕量化無(wú)錨人臉檢測(cè)算法。該方法利用輕量化骨干網(wǎng)絡(luò)提取圖片特征,使用感受野增強(qiáng)模塊、權(quán)重特征融合模塊和通道混洗模塊處理金字塔特征層,使特征融合更為充分,最后使用無(wú)錨檢測(cè)方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練并預(yù)測(cè)出人臉位置。實(shí)驗(yàn)結(jié)果顯示本文引入的特征處理模塊能有效提升檢測(cè)精度,與文獻(xiàn)方法相比,在檢測(cè)精度上和檢測(cè)效率上具有較為明顯的優(yōu)勢(shì),顯示了本文方法的簡(jiǎn)潔性與高效性。如今注意力機(jī)制和Transformer模型廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)中并取得了顯著的效果,下一步工作將會(huì)從上述兩方面著手構(gòu)建人臉檢測(cè)網(wǎng)絡(luò),進(jìn)一步加強(qiáng)模型對(duì)復(fù)雜人群的檢測(cè)效果。