• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)Faster-RCNN 的自然場(chǎng)景人臉檢測(cè)

    2021-01-15 07:18:08李祥兵
    計(jì)算機(jī)工程 2021年1期
    關(guān)鍵詞:人臉尺度卷積

    李祥兵,陳 煉

    (南昌大學(xué) 信息工程學(xué)院,南昌 330000)

    0 概述

    人臉檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,其在實(shí)時(shí)監(jiān)控、目標(biāo)跟蹤、安全驗(yàn)證等諸多場(chǎng)景中被廣泛應(yīng)用。在VIOLAJONES 等人構(gòu)建的目標(biāo)檢測(cè)框架[1-2]基礎(chǔ)上,許多關(guān)于人臉檢測(cè)的算法被陸續(xù)提出,這些算法不同程度地提高了人臉檢測(cè)的準(zhǔn)確性。在計(jì)算機(jī)視覺領(lǐng)域,早期的研究工作主要集中于提取不同類型的手工特征(如方向梯度直方圖[3]和SURF 算法[4]),并針對(duì)這些特征使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練有效的分類器來進(jìn)行檢測(cè)和識(shí)別。但此類方法通常需要研究者設(shè)計(jì)有效的手工特征,并且針對(duì)這些特征進(jìn)行單獨(dú)優(yōu)化,影響了整體的檢測(cè)效果。

    近年來,深度學(xué)習(xí)特別是深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)和圖像語義分割等方面取得了較多的研究成果。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法避免了手工設(shè)計(jì)特征,這使得模型具有良好的自適應(yīng)能力,提升了模型的泛化能力[5]。因此,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法被廣泛應(yīng)用于人臉檢測(cè)。

    基于目標(biāo)檢測(cè)框架RCNN[6]和深度學(xué)習(xí)的人臉檢測(cè)方法能夠取得良好的檢測(cè)效果。文獻(xiàn)[7]提出的方法結(jié)合了基礎(chǔ)區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)和RCNN。文獻(xiàn)[8]提出的多尺度Faster-RCNN 模型將不同層的特征圖進(jìn)行融合,實(shí)現(xiàn)了多尺度人臉檢測(cè)。文獻(xiàn)[9]提出一種改進(jìn)的基于R-FCN 模型的人臉檢測(cè)算法,其根據(jù)人臉位置敏感的特性來提取特征圖以提高人臉檢測(cè)的性能。然而,在自然場(chǎng)景下,人臉圖像常常會(huì)出現(xiàn)尺度過小、人臉過于密集或者人臉重疊等情況。一般而言,從圖像中提取的深層次的特征圖包含高層的語義信息,但是無法表達(dá)準(zhǔn)確的人臉,針對(duì)小尺度或遮擋重疊等情況,卷積最后一層特征圖經(jīng)過映射后迅速縮小,這給人臉檢測(cè)任務(wù)帶來了很大的挑戰(zhàn),使得檢測(cè)模型在上述情況下表現(xiàn)并不理想。

    本文構(gòu)建一種改進(jìn)Faster-RCNN[10]模型用于自然場(chǎng)景人臉檢測(cè)。使用更深層的殘差網(wǎng)絡(luò)ResNet-50代替VGG-16,從而準(zhǔn)確提取人臉特征,同時(shí)采用多尺度融合策略融合低層次和高層次的特征圖,使模型適用于不同尺度的人臉圖像檢測(cè)。進(jìn)一步地,改變?cè)糝PN 中錨框(Anchor)的尺度和長(zhǎng)寬比,以提升算法在小尺度人臉檢測(cè)方面的性能,并使用在線難例挖掘(Online Hard Example Mining,OHEM)[11]、軟非極大抑制(Soft-Non-Maximum Suppression,Soft-NMS)[12]和多尺度訓(xùn)練的方法提升算法對(duì)人臉檢測(cè)的泛化能力。

    1 相關(guān)工作

    人臉檢測(cè)是計(jì)算機(jī)視覺中最基本和最具挑戰(zhàn)性的問題之一。早期的人臉檢測(cè)算法多基于手工特征和滑動(dòng)窗口,而近年來,基于深度學(xué)習(xí)的方法被廣泛用于人臉檢測(cè)且具有更高的精度。

    文獻(xiàn)[1-2]提出使用類似矩形Harr 的特征在一個(gè)級(jí)聯(lián)的Adaboost 分類器中實(shí)現(xiàn)實(shí)時(shí)的人臉檢測(cè)。但由于特征尺寸較大,在24×24 的檢測(cè)窗口中,類似Harr 的特征數(shù)量多達(dá)160 000 個(gè)。此外,該模型無法有效處理非正面人臉和自然場(chǎng)景人臉。此后,隨著實(shí)際場(chǎng)景中因人臉不同姿態(tài)對(duì)檢測(cè)算法的要求越來越高,研究者陸續(xù)提出新的檢測(cè)方法,包括建立新的局部特征[13]、采用級(jí)聯(lián)結(jié)構(gòu)的算法[14]和基于多種模型的有效級(jí)聯(lián)模型[15-16]。DPM[17]是另一個(gè)重要的突破,其HOG 特征頂部的可變形部分用于表示目標(biāo)對(duì)象。在DPM 的基礎(chǔ)上,許多其他改進(jìn)策略[18]通過使用受監(jiān)督的組件、更多的姿態(tài)分配和更好的訓(xùn)練方法來提升模型性能。

    隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,許多基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法被提出應(yīng)用于人臉檢測(cè),如Cascade-CNN[19]、MTCNN[20]將卷積神經(jīng)網(wǎng)絡(luò)作為滑動(dòng)窗口檢測(cè)器作用在圖像金字塔上來建立特征金字塔。然而,使用圖像金字塔會(huì)減慢檢測(cè)速度并且降低內(nèi)存使用效率。與此類方法不同的是,二階段(Two Stage)檢測(cè)直接在單尺度圖像上提取特征。RCNN[6]通過選擇性搜索(Selective Search)方法[21]獲取候選區(qū)域,然后將候選區(qū)域輸入到卷積神經(jīng)網(wǎng)絡(luò)中提取特征,在此基礎(chǔ)上,使用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類并采用邊框回歸(Boungding Box Regression)方法確定和校準(zhǔn)目標(biāo)位置。Faster-RCNN[10]、R-FCN[22]使用區(qū)域建議網(wǎng)絡(luò)初始化候選區(qū)域,并利用感興趣區(qū)域池化(ROI-Pooling)和位置敏感池化(Position-Sensitive Pooling)提取每個(gè)感興趣區(qū)域的特征。文獻(xiàn)[23]將Faster-RCNN 應(yīng)用于人臉檢測(cè)中,該方法在FDDB 人臉數(shù)據(jù)集上取得了良好的效果。文獻(xiàn)[24]提出的Face R-FCN通過對(duì)得分圖上的嵌入響應(yīng)重新加權(quán),并使用位置敏感的平均池化消除了每個(gè)人臉部位對(duì)得分貢獻(xiàn)不均勻的影響。

    2 改進(jìn)的Faster-RCNN 模型

    本節(jié)提出基于改進(jìn)Faster-RCNN 框架的人臉檢測(cè)模型,通過構(gòu)建多尺度特征圖融合網(wǎng)絡(luò)、增加Anchor 數(shù)量、應(yīng)用在線難例挖掘和線性非極大值抑制方法并進(jìn)行多尺度訓(xùn)練,實(shí)現(xiàn)對(duì)小尺度人臉目標(biāo)的準(zhǔn)確匹配。

    2.1 多尺度特征圖融合網(wǎng)絡(luò)結(jié)構(gòu)

    在原始Faster-RCNN 網(wǎng)絡(luò)結(jié)構(gòu)中,ROI-Pooling在卷積神經(jīng)網(wǎng)絡(luò)的最后一層被執(zhí)行以生成候選區(qū)域[25]。然而這種方法并不是最佳的,有時(shí)會(huì)忽略一些重要的特征,因?yàn)樯顚拥木矸e特征圖具有較大的感受野,對(duì)一些大尺度的目標(biāo)人臉表現(xiàn)較好,而對(duì)于小尺度的目標(biāo)人臉表現(xiàn)并不理想。為捕獲感興趣區(qū)域中更多細(xì)粒度的特征信息,同時(shí)引入上下文信息,本文提出通過融合多個(gè)卷積特征圖(包括低層特征圖和高層特征圖)來改進(jìn)ROI-Pooling。如圖1 所示,首先將卷積特征圖conv4f_x、con3c_x 和con2c_x 分別與得到的ROIs 進(jìn)行ROI-Pooling,然后對(duì)池化后的結(jié)果分別進(jìn)行L2 歸一化(L2-Normalization)處理,使其在各個(gè)維度上不會(huì)存在較大差異,最后對(duì)得到的結(jié)果進(jìn)行融合和尺度縮放。為使融合后的結(jié)果與原始網(wǎng)絡(luò)結(jié)構(gòu)相匹配,使用一個(gè)1×1 的卷積核進(jìn)行通道降維。

    圖1 多尺度融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of multi-scale fusion network

    另一方面,重新對(duì)錨框進(jìn)行設(shè)計(jì),以獲得包含更好位置信息的錨框。根據(jù)在訓(xùn)練集上的訓(xùn)練經(jīng)驗(yàn)分析,將錨框的長(zhǎng)寬比設(shè)置為3 種,即1∶1、1∶1.5 和2∶1,將錨框的尺度設(shè)置為5 種,即16×16、32×32、64×64、128×128 和256×256,由此得到15 種不同長(zhǎng)寬比和尺度的錨框。這些不同大小的錨框?qū)τ诓蹲叫〕叨热四樂浅S杏谩S捎赪ider Face 數(shù)據(jù)集中包含了許多小尺度人臉(寬度及高度小于16 像素),因此在訓(xùn)練和測(cè)試中保留這些小的候選區(qū)域[26]。

    2.2 L2 歸一化

    為在不同尺度上對(duì)人臉候選區(qū)域特征進(jìn)行擴(kuò)展,圖1 所示的網(wǎng)絡(luò)對(duì)3 個(gè)不同尺度特征圖進(jìn)行ROI-Pooling 操作后進(jìn)行融合。通常,特征圖的通道數(shù)量和尺度大小在ResNet-50 的每一層都不同,而在更深的卷積層上對(duì)應(yīng)的特征圖尺度也更小。因此,直接對(duì)ROI-Pooling 后的特征圖進(jìn)行融合可能效果不佳,因?yàn)樘卣鲌D之間的尺度差異較大,而尺度大的特征可能會(huì)占據(jù)主導(dǎo)地位,從而減弱算法的魯棒性。為解決這個(gè)問題,對(duì)每個(gè)ROI-Pooling 后的特征圖做L2 歸一化處理。在融合之前,將L2 歸一化方法應(yīng)用于ROI-Pooling 后每個(gè)特征圖的每個(gè)像素中。歸一化后,尺度縮放操作將獨(dú)立應(yīng)用于每個(gè)特征圖。對(duì)于一個(gè)d維的輸入x=(x1,x2,…,xd),應(yīng)用L2 范數(shù)對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,如式(1)所示:

    輸入x的L2 范數(shù),定義如式(2)所示:

    其中,x是原始像素向量是歸一化后的像素向量,d是每個(gè)ROI-Pooling 后特征圖的通道數(shù)。

    引入縮放因子γi,并通過式(3)縮放歸一化后的值:

    在訓(xùn)練階段,縮放因子γ和輸入數(shù)據(jù)x通過反向傳播來計(jì)算,相應(yīng)的鏈?zhǔn)椒ǘx為:

    2.3 在線難例挖掘

    對(duì)于提高基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)準(zhǔn)確率,在線難例挖掘已被確認(rèn)為一種有效策略[11]。難例是指那些無法被網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)到的樣本。因此,將那些難例再次送入到網(wǎng)絡(luò)中訓(xùn)練可以作為提升網(wǎng)絡(luò)性能的有效手段。在原始Faster-RCNN 中,候選區(qū)域和真值區(qū)域的重疊率(IOU)在[0.1,0.5]之間的樣本被設(shè)置為負(fù)樣本,重疊率大于0.5 的被設(shè)置為正樣本。為保持樣本均衡,設(shè)置正負(fù)樣本的比例為1∶3。在訓(xùn)練時(shí),因?yàn)楸粰z測(cè)的是人臉,所以可能會(huì)出現(xiàn)一些極端的情況,如一張圖像中可能會(huì)出現(xiàn)很多人臉、人臉與人臉之間存在嚴(yán)重遮擋、部分人臉尺度太小、角度偏轉(zhuǎn)較大,由于這些難例與Ground Truth 重疊率為0,因此無法加入到網(wǎng)絡(luò)中訓(xùn)練。此外,人為設(shè)置正負(fù)樣本的比例約束條件也會(huì)導(dǎo)致模型的訓(xùn)練不充分。

    本文將在線難例挖掘算法加入到模型中。首先通過RPN 計(jì)算候選區(qū)域的損失值,并將這些損失值從大到小排序,挑出前K個(gè)最大損失值作為難例加入到后續(xù)的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。同時(shí),將負(fù)樣本的閾值下調(diào)為0,并取消正負(fù)樣本的比例,使網(wǎng)絡(luò)能夠自適應(yīng)訓(xùn)練。

    2.4 軟非極大值抑制

    在目標(biāo)檢測(cè)過程中,非極大值抑制(NMS)算法在被檢測(cè)的圖像中產(chǎn)生一系列的檢測(cè)框集合B以及對(duì)應(yīng)的分?jǐn)?shù)S。當(dāng)選中最大分?jǐn)?shù)的檢測(cè)框M時(shí),將M從集合B中移除并放入到最終的檢測(cè)結(jié)果集合D,同時(shí),集合B中任意與重疊率大于閾值Nt的檢測(cè)框也被移除[12]。NMS 算法中分?jǐn)?shù)重置函數(shù)表示為:

    其中,Iou表示重疊率。但該方法存在一個(gè)明顯的問題:如果圖像上同一個(gè)區(qū)域人臉重疊度較高,其中有些人臉檢測(cè)框分?jǐn)?shù)被置為0,則會(huì)導(dǎo)致對(duì)該人臉的檢測(cè)失敗并降低算法的平均檢測(cè)率(mAP),如圖2 所示。

    圖2 重疊人臉漏檢示意圖Fig.2 Schematic diagram of omissive detection for overlapping face

    從圖2 中可以看出,前面一個(gè)檢測(cè)框人臉(女士)的得分值為0.98,后面一個(gè)檢測(cè)框人臉(男士)的得分值為0.89,一般來說,設(shè)置人臉重疊率的閾值為0.3,而圖中兩個(gè)檢測(cè)框的重疊率為0.33,根據(jù)NMS算法,重疊率超過閾值的檢測(cè)框得分較低的將被移除,會(huì)導(dǎo)致無法檢測(cè)出第2 個(gè)框中的人臉。

    針對(duì)NMS 存在的問題,本文使用一種Soft-NMS算法[12]?;谥丿B率的大小為相鄰的檢測(cè)框設(shè)置一個(gè)衰減函數(shù)而非徹底將其分?jǐn)?shù)置為0。簡(jiǎn)單來說,如果一個(gè)檢測(cè)框與M有大部分重疊,它會(huì)有很低的分?jǐn)?shù);而如果檢測(cè)框與M只有小部分的重疊,則其原有檢測(cè)分?jǐn)?shù)不會(huì)受太大的影響。此外,Soft-NMS 不需要額外的訓(xùn)練且易于實(shí)現(xiàn),因此很容易被集成到模型中,Soft-NMS 分?jǐn)?shù)衰減函數(shù)如式(6)所示:

    2.5 多尺度訓(xùn)練

    原始的Faster-RCNN 模型通常對(duì)所有訓(xùn)練圖像采用固定尺度。本文通過將圖像調(diào)整為隨機(jī)尺度,使檢測(cè)模型可以學(xué)習(xí)到不同尺度的特征,從而提高模型的檢測(cè)性能。本文隨機(jī)調(diào)整圖像的大小,使圖像的短邊尺度為480、600 或700,并確保圖像的長(zhǎng)邊尺度不超過1 000,從而使模型對(duì)不同大小的圖像具有魯棒性。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)細(xì)節(jié)

    本文實(shí)驗(yàn)在Ubuntu 16.04 系統(tǒng)及Caffe 深度學(xué)習(xí)框架上進(jìn)行,主干網(wǎng)絡(luò)為ResNet-50,GPU 為NVIDIA RTX2080Ti,采用遷移學(xué)習(xí)[27]的方法訓(xùn)練網(wǎng)絡(luò),使用ImageNet[28]上預(yù)訓(xùn)練的模型初始化網(wǎng)絡(luò)參數(shù)。本文利用Wider Face 人臉數(shù)據(jù)集訓(xùn)練模型,該數(shù)據(jù)集中圖像均為自然場(chǎng)景下采集的圖像,包含32 203 張圖像,其中有393 703 個(gè)已經(jīng)標(biāo)注好的人臉圖像,其姿態(tài)、形狀、尺度大小、模糊程度、光照條件、是否遮擋等因素均具有差異,能夠滿足本文實(shí)驗(yàn)的訓(xùn)練要求。測(cè)試集為FDDB 人臉標(biāo)準(zhǔn)測(cè)試集,包含2 845 張圖片,有5 171 個(gè)人臉圖像。

    在訓(xùn)練階段,將模型在Wider Face 數(shù)據(jù)集上訓(xùn)練迭代160 000 次,設(shè)置初始學(xué)習(xí)率為0.000 1,同時(shí)采用學(xué)習(xí)率衰減策略,衰減率為0.005,每經(jīng)過40 000 次迭代學(xué)習(xí)率衰減1 次。圖像輸入到網(wǎng)絡(luò)前先進(jìn)行隨機(jī)裁剪,確保其短邊尺度為480、600 或700,長(zhǎng)邊尺度不超過1 000。采用水平翻轉(zhuǎn)作為數(shù)據(jù)增強(qiáng)策略。在RPN 中,Anchor 數(shù)量由原始的9 個(gè)增加為15 個(gè),3 種長(zhǎng)寬比分別為1∶1、1∶1.5 和2∶1,5 種不同的基礎(chǔ)尺度分別為16×16、32×32、64×64、128×128 和256×256。對(duì)于Fast-RCNN 分類回歸網(wǎng)絡(luò)部分,設(shè)置ROI 為前景的條件為其和真值框的IOU 閾值大于等于0.5,其余為背景。當(dāng)某個(gè)ROI 的得分值高于0.8 且與對(duì)應(yīng)真正框的IOU 小于0.5 時(shí),將其視為難例樣本,這些難例樣本會(huì)被送入后續(xù)的網(wǎng)絡(luò)中進(jìn)一步訓(xùn)練。

    與訓(xùn)練階段類似,在測(cè)試階段,被測(cè)試的圖像被隨機(jī)裁剪后輸入測(cè)試網(wǎng)絡(luò)。對(duì)每張測(cè)試圖像,RPN將產(chǎn)生128 個(gè)候選框,當(dāng)某個(gè)候選框分類得分值超過0.8 時(shí)將其視為人臉。本文將Soft-NMS 算法中的閾值設(shè)為0.3。

    3.2 實(shí)驗(yàn)結(jié)果分析

    3.2.1 不同改進(jìn)策略對(duì)模型的提升比較

    為檢驗(yàn)?zāi)P褪褂貌煌呗缘挠行院拓暙I(xiàn),在Wider Face 人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并在其測(cè)試集上測(cè)試模型的平均精度,實(shí)驗(yàn)時(shí)設(shè)置相同的學(xué)習(xí)率0.000 1 和迭代次數(shù)160 000,實(shí)驗(yàn)結(jié)果如表1 所示,其中,×表示未使用,√表示使用。

    表1 不同策略對(duì)模型提升效果對(duì)比Table 1 Effect comparison of model promotion by different strategies

    從表1 可以看出,原始Faster-RCNN 模型檢測(cè)的平均精度為85.6%,采用不同的改進(jìn)策略對(duì)模型的提升效果不同,其中使用多尺度特征圖融合對(duì)模型效果影響較為明顯,而使用全部改進(jìn)策略的最終模型檢測(cè)平均精度達(dá)到89.0%,較原始模型提升了3.5%。

    3.2.2 本文模型與其他經(jīng)典模型的對(duì)比

    為比較本文模型與其他經(jīng)典人臉檢測(cè)模型(包括Cascade CNN[19]、Joint Cascade[29]等)的效果差異,將本文方法和其他經(jīng)典方法在FDDB 人臉數(shù)據(jù)庫上進(jìn)行測(cè)試評(píng)估。FDDB 評(píng)估指標(biāo)有兩種,分別為離散分?jǐn)?shù)和連續(xù)分?jǐn)?shù)。離散分?jǐn)?shù)是當(dāng)檢測(cè)的人臉和標(biāo)注人臉的重疊率超過50%時(shí),得分為1,否則為0。連續(xù)分?jǐn)?shù)的值是檢測(cè)人臉和標(biāo)注人臉的重疊比率。本文采用離散分?jǐn)?shù)作為評(píng)估模型的指標(biāo)。根據(jù)模型在FDDB 人臉數(shù)據(jù)庫中的檢測(cè)結(jié)果繪制相應(yīng)的ROC曲線,如圖3 所示。在實(shí)驗(yàn)中,本文提出的模型檢測(cè)出FDDB 人臉數(shù)據(jù)庫5 171 個(gè)人臉目標(biāo)中的4 943 個(gè)人臉,檢出率為95.6%,其中漏檢228 個(gè)人臉,每張圖像的平均檢測(cè)時(shí)間為0.29 s。從圖3 可以看出,本文模型所對(duì)應(yīng)的ROC 曲線位于最上方,明顯高于其他模型對(duì)應(yīng)的ROC 曲線,說明本文提出的改進(jìn)模型相較于目前其他流行的人臉檢測(cè)模型在檢測(cè)精度和檢出率上均有所提高。

    圖3 本文模型與其他人臉檢測(cè)模型性能比較Fig.3 Performance comparison of the proposed model and other face detection models

    3.2.3 時(shí)間性能分析

    為比較不同策略對(duì)模型時(shí)間性能的影響,將基于不同改進(jìn)策略的模型在FDDB 人臉標(biāo)準(zhǔn)測(cè)試集上進(jìn)行測(cè)試,以平均檢測(cè)每張圖像所需時(shí)間和檢測(cè)完2 845 張圖像所需時(shí)間作為對(duì)比項(xiàng),結(jié)果如表2所示。

    表2 不同模型的時(shí)間性能對(duì)比Table 2 Time performance comparison of different models s

    從表2 可以看出,原始Faster-RCNN 模型使用VGG16 作為主干網(wǎng)絡(luò),平均檢測(cè)每張圖像所需時(shí)間為0.19 s,總檢測(cè)時(shí)間為540.55 s,當(dāng)采用更深的ResNet-50 作為主干網(wǎng)絡(luò)時(shí),平均檢測(cè)每張圖像所需時(shí)間為0.26 s,相較于原始模型多用0.07 s,總檢測(cè)時(shí)間為739.70 s,相較于原始模型多用199.15 s。當(dāng)使用本文最終模型(ResNet-50+增加Anchor 數(shù)量+多尺度特征圖融合+在線難例挖掘+軟非極大值抑制+多尺度訓(xùn)練)時(shí),平均檢測(cè)每張圖像所需時(shí)間為0.29 s,相較于使用ResNet-50 作為主干網(wǎng)絡(luò)的原始模型多用0.03 s,總檢測(cè)時(shí)間為825.05 s,相較于ResNet-50作為主干網(wǎng)絡(luò)的原始模型多用85.35 s。分析可知,本文模型檢測(cè)時(shí)間的增加主要耗費(fèi)在使用更深的ResNet-50 主干網(wǎng)絡(luò)上,而其他改進(jìn)策略對(duì)檢測(cè)時(shí)間的耗費(fèi)相對(duì)較少??傮w來看,本文模型在以少量時(shí)間代價(jià)的基礎(chǔ)上顯著提升了人臉檢測(cè)的精度,說明本文改進(jìn)的方案是行之有效的。

    3.2.4 調(diào)參失敗案例分析

    在模型訓(xùn)練過程中,本文嘗試通過3 種不同的基礎(chǔ)學(xué)習(xí)率來訓(xùn)練迭代模型,分別為0.00 1、0.000 1和0.000 01。實(shí)驗(yàn)結(jié)果表明:當(dāng)使用較大的基礎(chǔ)學(xué)習(xí)率0.001 時(shí),模型迭代較快,訓(xùn)練時(shí)間較短,但模型最終檢測(cè)效果不理想;當(dāng)使用0.000 1 作為基礎(chǔ)學(xué)習(xí)率時(shí),模型迭代時(shí)間有所延遲,但模型最終檢測(cè)效果較為理想;當(dāng)使用較小的基礎(chǔ)學(xué)習(xí)率0.000 01 時(shí),模型迭代緩慢,訓(xùn)練時(shí)間大幅延長(zhǎng),收斂緩慢,最終模型檢測(cè)效果與基礎(chǔ)學(xué)習(xí)率為0.000 1 幾乎無差別。

    實(shí)驗(yàn)初始時(shí),在多尺度特征圖融合前未使用L2 歸一化方法,直接將不同尺度特征圖融合后的特征傳入后續(xù)網(wǎng)絡(luò),最終模型無法收斂到理想狀態(tài),檢測(cè)效果不佳,導(dǎo)致實(shí)驗(yàn)失敗。由于特征圖的通道數(shù)量和尺度大小通常在卷積神經(jīng)網(wǎng)絡(luò)的每一層都不同,而在更深的卷積層上對(duì)應(yīng)的特征圖尺度也更小,因此直接將ROI-Pooling 后的特征圖進(jìn)行融合可能會(huì)導(dǎo)致不好的效果,因?yàn)樘卣鲌D之間的尺度差異較大。實(shí)驗(yàn)結(jié)果表明,L2 歸一化能有效解決這一問題。

    3.2.5 檢測(cè)效果

    用本文提出的改進(jìn)模型檢測(cè)從FDDB 人臉數(shù)據(jù)庫中隨機(jī)抽取的一些圖像,這些圖像中存在人臉姿態(tài)不同、部分遮擋、人臉重疊、尺度較小、光照強(qiáng)度不同等情況,得到的檢測(cè)結(jié)果如圖4 所示。由圖4(a)可以看出,改進(jìn)的模型能夠很好地檢測(cè)出不同姿態(tài)的人臉。由圖4(b)和圖4(d)可以看出,對(duì)于部分被遮擋的人臉,改進(jìn)的模型也能很好地檢測(cè)出且置信度較高。由圖4(c)可以看出,改進(jìn)的模型也能很好地適應(yīng)光照條件不同的自然場(chǎng)景下的人臉檢測(cè)。由圖4(e)可以看出(右上方),對(duì)于人臉重疊的情況以及人臉尺度較小的情況,改進(jìn)的模型也具有一定的魯棒性。

    圖4 改進(jìn)Faster-RCNN 的人臉檢測(cè)效果

    4 結(jié)束語

    本文針對(duì)自然場(chǎng)景人臉檢測(cè)問題,提出一種改進(jìn)的Faster-RCNN 模型。以殘差網(wǎng)絡(luò)ResNet-50 作為主干網(wǎng)絡(luò)提取圖像特征,采用多尺度特征圖融合策略檢測(cè)小尺度人臉,并將在線難例樣本挖掘方法加入網(wǎng)絡(luò)訓(xùn)練,從而提高對(duì)困難樣本的檢測(cè)精度。在此基礎(chǔ)上,利用軟非極大值抑制方法解決人臉目標(biāo)重疊的問題,并引入多尺度訓(xùn)練策略進(jìn)一步提升模型的檢測(cè)精度與檢出率。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)自然場(chǎng)景下的人臉檢測(cè)有較好的效果,其在Wider Face數(shù)據(jù)集上的檢測(cè)精度為89.0%,在FDDB 數(shù)據(jù)集上的檢出率為95.6%,平均每張圖像的檢測(cè)時(shí)間為0.29 s。后續(xù)將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)以更準(zhǔn)確地提取圖像人臉特征,同時(shí)適當(dāng)輕量化主干網(wǎng)絡(luò),縮短檢測(cè)時(shí)間。

    猜你喜歡
    人臉尺度卷積
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    有特點(diǎn)的人臉
    財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    三國(guó)漫——人臉解鎖
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    馬面部與人臉相似度驚人
    9
    長(zhǎng)得象人臉的十種動(dòng)物
    奇聞怪事(2014年5期)2014-05-13 21:43:01
    麻江县| 宣城市| 平邑县| 绵竹市| 嵊州市| 卓尼县| 南澳县| 楚雄市| 阳新县| 平江县| 丰都县| 平顺县| 拉孜县| 太原市| 常州市| 汤阴县| 渑池县| 柳河县| 大冶市| 无极县| 盖州市| 长子县| 酒泉市| 曲麻莱县| 太仆寺旗| 沾化县| 鹿邑县| 长治县| 弥勒县| 游戏| 泗水县| 衢州市| 志丹县| 鹰潭市| 民丰县| 吉木乃县| 绥芬河市| 泸州市| 湄潭县| 东兴市| 故城县|